一种基于多序列比对遗传算法的处理方法及装置制造方法及图纸

技术编号:7633248 阅读:171 留言:0更新日期:2012-08-03 21:16
本发明专利技术提供了一种基于多序列比对遗传算法的处理方法及装置,通过构建简约分类识别模型,并对具体的实际问题确定参数集,接着对确定的参数集进行编码设计,然后简约分类初始化后的子种群,最后对子种群进行算法计算并判断其性能,依据判断结果进行处理,本方案有助于高效比对识别,弥补了遗传算法存在的收敛慢和易陷入局部最优的不足,以及目前属性约简算法计算复杂度高,不适合规模数据约简的弱点和在描述属性集合等方面的不足,提高了处理效率。

【技术实现步骤摘要】

本专利技术涉及信息处理
,特别涉及一种基于多序列比对遗传算法的处理方法及装置
技术介绍
目前,序列比对(Sequence Alignment, SA)是分析探究生物信息本质特征最基本、最重要的一项关键技术,通过序列比对可以发现生物序列中的功能、结构和进化等重要信息。多序列比对(Multiple Sequence Alignment,MSA)是生物信息中对多重序列进行比对的基本的有效方法,具有极为重要而广泛的应用,对于其他相近或相关学科在特征信息识另O、检测、故障诊断、制药医疗和信息处理等方面也有较好地应用和重要的借鉴作用。生物序列的比对是生物信息学中最基本、最重要的一项处理工作,通过序列比对可以揭示并发现生物序列中的功能、结构以及进化信息,在序列分析、基因识别、蛋白质结构预测、生物进化树的构建等领域中有着广泛的应用。生物序列的信息量巨大,对其进行比对操作花费时间太大,所以,序列比对的启发式算法与并行计算已经成为研究的一个热点问题。现在,国内外在序列比对算法的方面的研究,主要采用为确定多个序列之间的相似性及同源性,而将它们按照一定的规律排列与比较,其计算量与信息处理繁杂程度非常独大,采用传统一般方法根本无法实现。将多个序列排列一起标明其相似之处。序列中可以插入间隔(常用表示)。对应的相同或相似的符号(在核酸中是A,T/U,C,G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。比对中错配与突变相应,空位与插入或缺失对应。这一方法常用于研究由共同原祖进化而来的序列,特别是如蛋白质序列或DNA序列等生物序列。序列比对还可用于语言进化或文本间相似性之类的研究。生物信息学是一门新兴的交叉学科,所研究的对象是生物学的观测数据,研究方法则是从各种计算模型技术衍生出来的.数学中的各个领域如统计学、概率论、运筹学、计算数学等均在生物信息学中有广泛的应用。虽然在序列比对的启发式算法与并行计算新技术、新方法、新应用层出不穷,如多重序列比对的遗传算法、蚁群求解算法Ant-Align、聚类分析法、粒子群算法、模拟退火算法、A星算法、傅立叶变换法等,但是,在比对精度、速度、稳定性等方面都有一定程度的缺陷或不足,特别是在具体关键算法方面需要进行进一步改进、创新和完善。由于生物序列较长,求解序列比对特别是多重序列比对的计算复杂度较高。可以证明,即使对于最简单的计分函数,寻找最优的多重序列比对也是一个NP-完全问题。在实际计算中不太可能用精确的算法求得多重序列的准确比对,而只能用启发式的算法在合理的时间内求得近似解。本文研究了对生物序列如何用启发式的算法,在综合考虑解的正确性以及计算速度两方面因素的前提下,求得质量较高的多序列比对。目前,国内外虽然在序列比对的启发式算法与并行计算新技术、新方法、新应用层出不穷,如多重序列比对的遗传算法、蚁群求解算法Ant-Align、聚类分析法、粒子群算法、模拟退火算法、A星算法、傅立叶变换法和其他神经网络等方法及单一算法,但是,在比对精度、速度、稳定性等方面都有一定程度的缺陷或不足,特别是在具体关键算法方面需要进行进一步改进、创新和完善。,有效的解决了局部收敛的问题,加强了算法寻求全局最优解的能力,但是,在比对精度、速度、稳定性等方面都有一定程度的缺陷或不足。目前,采用的单一粗糙集(Roug Set, RS)处理处理模糊性与不确定性信息技术,或LVQ神经网络分类识别算法,虽然在局部最优解收敛等某些方面有所提高,但在多序列比对效率和速度方面尚有不足。针对现有技术遗传算法存在的收敛慢和易陷入局部最优的不足,以及目前属性约简算法计算复杂度高,不适合规模数据约简的弱点和在描述属性集合等方面的不足的问题,提出一种基于多序列比对遗传算法的处理方法及装置是信息处理
目前急待解决的问题之一。
技术实现思路
有鉴于此,本专利技术实施例提出了一种基于多序列比对遗传算法的处理方法及装置,通过构建简约分类识别模型,并对具体的实际问题确定参数集,接着对确定的参数集进行编码设计,然后简约分类初始化后的子种群,最后对子种群进行算法计算并判断其性能,依据判断结果进行处理,本方案有助于高效比对识别,弥补了遗传算法存在的收敛慢和易陷入局部最优的不足,以及目前属性约简算法计算复杂度高,不适合规模数据约简的弱点和在描述属性集合等方面的不足,提高了处理效率。为解决上述技术问题,本专利技术实施例的目的是通过以下技术方案实现的一种基于多序列比对遗传算法的处理方法,包括步骤一、构建简约分类识别模型;步骤二、对具体的实际问题确定参数集;步骤三、对确定的参数集进行编码设计;步骤四、简约分类初始化后的子种群;步骤五、对子种群进行算法计算并判断其性能,依据判断结果进行处理。优选的,上述步骤一中,简约分类识别模型为结合粗糙集与神经网络的分类识别模型。优选的,利用粗糙集约简预处理模块对初始数据及学习样本进行约简,并对神经网络提供输入样本。优选的,上述步骤一中,简约分类识别模型中采用可辨识矩阵的属性化简约算法,选出保证分类正确的最小条件属性集。优选的,上述步骤一中,简约分类识别模型包括但不限于数据预处理、构建分类器、智能子系统以及分类识别知识库。优选的,上述步骤三中,所述编码设计是采用二维编码的多序列比对方式,以字符矩阵表示比对编码方案。优选的,上述步骤四中,是将子种群进行简约分类初始化。优选的,上述步骤五中,进一步包括对子种群进行算法计算并判断其性能,若性能满足则对最优解进行解码操作。 优选的,上述步骤五中,进一步包括对子种群进行算法计算并判断其性能,如性能不满足则将结果种群和平均适应度值进行记录,并进行选择、交叉和变异处理。一种基于多序列比对遗传算法的处理装置,包括分类识别模型构建单元、参数集单元、编码设计单元、初始化单元及判断处理单元,通过构建简约分类识别模型,并对具体的实际问题确定参数集,接着对确定的参数集进行编码设计,然后简约分类初始化后的子种群,最后对子种群进行算法计算并判断其性能,依据判断结果进行处理优选的,上述分类识别模型构建单元用于构建简约分类识别模型。优选的,上述编码设计单元用于对确定的参数集进行编码设计。优选的,上述初始化单元用于简约分类初始化后的子种群。优选的,上述判断处理单元用于对子种群进行算法计算并判断其性能,依据判断结果进行处理。综上所述,本专利技术提供了一种基于多序列比对遗传算法的处理方法及装置,通过构建简约分类识别模型,并对具体的实际问题确定参数集,接着对确定的参数集进行编码设计,然后简约分类初始化后的子种群,最后对子种群进行算法计算并判断其性能,依据判断结果进行处理,本方案有助于高效比对识别,弥补了遗传算法存在的收敛慢和易陷入局部最优的不足,以及目前属性约简算法计算复杂度高,不适合规模数据约简的弱点和在描述属性集合等方面的不足,提高了处理效率。附图说明图I为本专利技术一具体实施例方法流程图;图2为本专利技术实施例的简约分类识别模型示意图;图3为本专利技术之新改进的遗传算法流程图;图4为本专利技术一具体实施例的装置示意图。具体实施例方式本专利技术实施例提供的一种基于多序列比对遗传算法的处理方法及装置,通过构建简约分类识别模型,并对具体的实际问题确定参数集,接着对确定的参数集进行编码设计,然后简约分类初始化后的子种群,最后对子种群进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:贾铁军
申请(专利权)人:上海电机学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术