基于改进生物地理学优化算法的多序列比对方法及系统技术方案

技术编号:32970279 阅读:13 留言:0更新日期:2022-04-09 11:35
本发明专利技术提供了一种基于改进生物地理学优化算法的多序列比对方法及系统,包括:数据采集模块,被配置为:获取原始多序列数据;对比模块,被配置为:依据原始多序列数据,以及预设的隐马尔科夫模型,得到比对结果;其中,所述隐马尔科夫模型中,将每一个栖息地看作是一条隐马尔科夫链,利用改进生物地理学优化算法优化所述隐马尔科夫模型中存在的参数;本发明专利技术针对基因多序列比对问题,在HMM模型中,每一个栖息地看作是一条隐马尔科夫链;然后利用改进的算法MPBBO优化HMM模型中存在的参数,不断提高比对的精度;改进的MPBBO算法具有较强的全局探索能力、局部开发能力和收敛速度较快的特点;能获得较为精确的基因序列比对结果。获得较为精确的基因序列比对结果。获得较为精确的基因序列比对结果。

【技术实现步骤摘要】
基于改进生物地理学优化算法的多序列比对方法及系统


[0001]本专利技术属于生物信息学
,尤其涉及一种基于改进生物地理学优化算法的多序列比对方法及系统。

技术介绍

[0002]多序列比对(Multiple Sequence Alignment,MSA)是指把两条以上可能有系统进化关系的序列同时进行比对;通过多个基因序列的比对,可以寻找到序列间相同的位点和区域,进而可以推测导致特定功能的序列模式;它是生物信息学目前研究的热点之一,是配对得分总和(Sum

of

Pairs Score,SPS)意义下的非确定多项式(Non

deterministic Polynomial,NP)完全组合优化问题。
[0003]基于隐马尔科夫模型(Hidden Markov Models,HMM)的多序列比对是当今比较流行的一个算法,主要因为HMM模型作为随机模型有极好的动态规划的算法,在许多情况下允许完全的似然计算;用HMM模型从序列比对中提取信息是一种利用全局信息的方法,可以提高序列比对的精度,同时相比于传统的序列比对方法对数据的更加简单;在HMM模型中,常用的训练方法是基于统计和重估的方法,例如Baum

Welch算法;Baum

Welch算法使HMM模型的参数估计问题一定程度上得到了较好的解决,但是,由于Baum

Welch算法是一种基于最陡梯度下降的局部优化算法,在训练的过程中非常容易陷于局部最优值当中;目前用于解决一些序列比对问题的算法有:遗传算法、改进的粒子群优化算法、人工蜂群算法和生物地理学优化算法等。
[0004]专利技术人发现,上述的几种算法在用于MSA问题的过程中主要存在以下问题:
[0005]1.部分算法需要控制的参数较多,导致运行速度慢,虽然能找到较好的全局最优解,但是计算量多且复杂,严重浪费了计算资源;
[0006]2.部分算法虽然具有控制参数较少和收敛速度快的特点,但是当其接近全局最优解时,往往会出现搜索速度变慢,搜索精度下降的情况,容易陷于局部最优解。

技术实现思路

[0007]本专利技术为了解决上述问题,提出了一种基于改进生物地理学优化算法的多序列比对方法及系统,本专利技术涉及一种改进的生物地理学优化算法——基于中值迁移、概率趋优变异和监督因子的生物地理学优化算法(Biogeography optimization algorithms based on median migra

tion,probabilistic convergent variation and supervised factors,MPBBO),该方法具有较强的全局开发能力、局部探索能力和收敛速度较快的特点,能较好地解决MSA问题。
[0008]为了实现上述目的,本专利技术是通过如下的技术方案来实现:
[0009]第一方面,本专利技术提供了一种基于改进生物地理学优化算法的多序列比对方法,包括:
[0010]获取原始多序列数据;
[0011]依据原始多序列数据,以及预设的隐马尔科夫模型,得到比对结果;
[0012]其中,所述隐马尔科夫模型中,将每一个栖息地看作是一条隐马尔科夫链,利用改进生物地理学优化算法优化所述隐马尔科夫模型中存在的参数,包括:根据迁入率和迁出率进行中值迁移操作,计算每一个解的变异度并对栖息地中部分的解进行概率趋优变异操作,引入监督因子,若监督因子大小超过限定范围,则对小于平均适应度的部分重新初始化。
[0013]进一步的,所述隐马尔科夫模型结构的确定包括:计算基因包含的序列条数,确定最长的序列长度以及比对后的序列长度;根据比对后的序列长度计算出所述隐马尔科夫模型的参数个数。
[0014]进一步的,每个栖息地的维度被称为适宜度指数向量,即为隐马尔科夫模型所需参数的个数。
[0015]进一步的,所述栖息地的评价包括:
[0016]将待比对的序列和每个栖息地的数据带入预设的隐马尔科夫模型中,根据隐马尔科夫模型中数据的组成,将栖息地中的个数据分为隐马尔科夫模型基本要素对应的条件:初始概率、转移概率和释放概率;
[0017]运用隐马尔可夫模型的计算原理调用维特比算法,求出每个栖息地在隐马尔科夫模型条件下的维特比序列;
[0018]从维特比算法计算得到维特比序列后,匹配状态的隐状态序列,根据序列匹配标准,将隐状态序列对齐,按照插入、删除和匹配三个状态分别对齐,得到的是比对后的数字序列;
[0019]通过打分函数,计算比对序列的得分情况,每个栖息地的得分情况即为该栖息地的适宜度指数;打分函数为:
[0020][0021]其中,l
i
是比对过的序列,l
j
是待比对的序列,D是两个序列间的距离矩阵。
[0022]进一步的,所述迁入率和所述迁出率的计算时,将每一个栖息地的适应度指数按照从大到小的顺序排列,计算迁入率和迁出率;迁入率λ
s
和迁出率μ
s
的计算公式分别如下:
[0023][0024][0025]其中,I是最大迁入率,S是物种数量,m是栖息地数量,E是最大迁出率。
[0026]进一步的,在各个栖息地经过迁入和迁出,并对分值不符合要求的解进行概率趋优变异后,重新将数据带入隐马尔科夫模型中,并计算每一个栖息地的新的适宜度指数;若新的适宜度指数大于原来的适宜度指数,则更新原来的适宜度指数,否则不更新。
[0027]进一步的,更新迭代次数,并判断是否到达最大迭代次数,若满足则输出当前最优解;否则,返回迁入率和迁出率的计算处继续迭代。
[0028]第二方面,本专利技术还提供了一种基于改进生物地理学优化算法的多序列比对系统,包括:
[0029]数据采集模块,被配置为:获取原始多序列数据;
[0030]对比模块,被配置为:依据原始多序列数据,以及预设的隐马尔科夫模型,得到比对结果;
[0031]其中,所述隐马尔科夫模型中,将每一个栖息地看作是一条隐马尔科夫链,利用改进生物地理学优化算法优化所述隐马尔科夫模型中存在的参数,包括:根据迁入率和迁出率进行中值迁移操作,计算每一个解的变异度并对栖息地中部分的解进行概率趋优变异操作,引入监督因子,若监督因子大小超过限定范围,则对小于平均适应度的部分重新初始化。
[0032]第三方面,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现了第一方面所述的基于改进生物地理学优化算法的多序列比对方法的步骤。
[0033]第四方面,本专利技术还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现了第一方面所述的基于改进生物地理学优化算法的多序列比对方法的步骤。
[0034]与现有技术相比,本专利技术的有益效果为:
[0035]本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于改进生物地理学优化算法的多序列比对方法,其特征在于,包括:获取原始多序列数据;依据原始多序列数据,以及预设的隐马尔科夫模型,得到比对结果;其中,所述隐马尔科夫模型中,将每一个栖息地看作是一条隐马尔科夫链,利用改进生物地理学优化算法优化所述隐马尔科夫模型中存在的参数,包括:根据迁入率和迁出率进行中值迁移操作,计算每一个解的变异度并对栖息地中部分的解进行概率趋优变异操作,引入监督因子,对小于平均适应度的部分重新初始化。2.如权利要求1所述的基于改进生物地理学优化算法的多序列比对方法,其特征在于,所述隐马尔科夫模型结构的确定包括:计算基因包含的序列条数,确定最长的序列长度以及比对后的序列长度;根据比对后的序列长度计算出所述隐马尔科夫模型的参数个数。3.如权利要求2所述的基于改进生物地理学优化算法的多序列比对方法,其特征在于,每个栖息地的维度被称为适宜度指数向量,即为隐马尔科夫模型所需参数的个数。4.如权利要求1所述的基于改进生物地理学优化算法的多序列比对方法,其特征在于,所述栖息地的评价包括:将待比对的序列和每个栖息地的数据带入预设的隐马尔科夫模型中,根据隐马尔科夫模型中数据的组成,将栖息地中的个数据分为隐马尔科夫模型基本要素对应的条件:初始概率、转移概率和释放概率;运用隐马尔可夫模型的计算原理调用维特比算法,求出每个栖息地在隐马尔科夫模型条件下的维特比序列;从维特比算法计算得到维特比序列后,匹配状态的隐状态序列,根据序列匹配标准,将隐状态序列对齐,按照插入、删除和匹配三个状态分别对齐,得到的是比对后的数字序列;通过打分函数,计算比对序列的得分情况,每个栖息地的得分情况即为该栖息地的适宜度指数;打分函数为:其中,l
i
是比对过的序列,l
j
是待比对的序列,D是两个序列间的距离矩阵。5.如权利要求4所述的基于改进生物地理学优化算法的多序列比对方法,其特征在于,所述迁入率和所述迁出率的计...

【专利技术属性】
技术研发人员:张庆科邱璇汪玉成高昊卜降龙张化祥刘丽李俊青刘冬梅高保忠周田羽安锐
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1