基于序列依赖频率矩阵的生物序列进化信息提取方法技术

技术编号:14874474 阅读:133 留言:0更新日期:2017-03-23 22:07
本发明专利技术提供了一种基于序列依赖频率矩阵的生物序列进化信息提取方法,其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取,所述SDFM采用以下步骤获得:对于任意的生物序列,首先利用序列比对工具搜索对应的生物序列数据库,生成对应的多序列比对MSA;然后统计在多序列比对MSA中每个位点生物序列子串出现的频率,得到如式(1)所示的序列依赖频率矩阵SDFM。本发明专利技术的技术方案考虑到了生物序列中相邻位点的依赖关系,能够从多序列比对中提取出更多、更准确的功能、结构等生物序列进化特征,使得统计的概率分布信息包含了序列位点依赖关系信息。

【技术实现步骤摘要】

本专利技术属于生物信息学
,尤其涉及一种基于序列依赖频率矩阵的生物序列进化信息提取方法及其应用。
技术介绍
如何从生物序列中提取更多的进化信息是生物信息学领域中最重要的基础任务之一。基于多序列比对提取出来的表示生物序列的位置特异性打分矩阵PSSM(PositionSpecificScoringMatrix,位点特异性打分矩阵)是目前常用的一种生物序列进化信息提取技术。多序列比对通过插入空位的方法将两条以上的生物序列对齐。然后PSSM统计多序列比对中不同位置出现的核苷酸(DNA、RNA)或氨基酸(Protein)出现的频率。根据统计的不同位置的概率分布情况发现与序列进化相关的保守区域,从而发现不同序列之间的相似部分和探索导致它们产生共同功能的序列模式,来推断它们在结构和功能上的相似性。从多序列比对中提取位置特异性打分矩阵PSSM是在序列位点相互独立的假设前提下,基于核苷酸或氨基酸在每一列上出现的频率来计算矩阵中相应位置的打分。然而依据生物序列相邻位点进行独立性检验的结果得知相邻位点的具有相关性的。PSSM没有考虑到生物序列中不同位置的依懒关系,损失了多序列比对中大量的生物进化信息。随着已知序列与已知结构和功能的生物分子数目之间的差距越来越大,需要更高效且准确的方法来解决生物序列比对的问题,需要从生物序列上提取更多的生物进化信息。现有的方法从生物序列上提取的信息量不够,没有包含生物序列位点的依赖关系信息,影响了比对的有效性和准确性。
技术实现思路
针对以上技术问题,本专利技术公开了一种基于序列依赖频率矩阵的生物序列进化信息提取方法及其应用,考虑到了生物序列中相邻位点的依赖关系,能够从多序列比对中提取出更多、更准确的功能、结构等生物序列进化特征。克服了现有技术PSSM无法提取相邻位置依赖信息的缺陷,本专利技术改进了已有技术从多序列比对中统计不同位置出现的核苷酸或氨基酸出现的频率的方法,使得统计的概率分布信息包含了序列位点依赖关系信息。对此,本专利技术采用的技术方案为:一种基于序列依赖频率矩阵的生物序列进化信息提取方法,其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取,所述SDFM采用以下步骤获得:步骤S1:对于任意的生物序列,首先利用序列比对工具搜索对应的生物序列数据库,生成对应的多序列比对MSA(multiplesequencealignment,多序列比对);步骤S2:统计在多序列比对MSA中每个位点生物序列子串出现的频率,得到该生物序列的序列依赖频率矩阵SDFM,所述SDFM为如式(1)所示的Sk×(L-k+1)维的矩阵:其中,S是生物序列字母表的大小,k表示生物序列子串的长度,Sk表示长度为k的生物序列子串种类的数量,L表示生物序列的长度,矩阵的各个元素为mi,j,mi,j代表第i个生物序列子串在多序列比对MSA的第j列上出现的打分,mi,j的计算公式如下:其中,ni,j是多序列比对MSA中第i个生物序列子串在第j列上出现的频率,Nj是多序列比对MSA中第j列上所有生物序列子串出现的总频率,bi,j是生物序列子串的背景概率,Bj为第j列上所有bi,j的总和。其中,对于DNA、RNA,S为4;对于蛋白质,S为20。进一步的,所述生物序列为基于不同长度生物序列子串生成的多个SDFM组合在一起得到。进一步的,所述序列比对工具为PSI-BLAST、Clustal或HHblits。进一步的,所述生物序列为蛋白质、DNA或RNA的生物序列。所述生物序列数据库为蛋白质、DNA或RNA的生物序列数据库。优选的,所述蛋白质数据库为NRdb90或UniRef50。本专利技术还提供了一种如上所述的基于序列依赖频率矩阵的生物序列进化信息提取方法的应用,其包括:应用所述SDFM,并利用统计信息量方法发现生物序列的保守区域。本专利技术还提供了一种如上所述的基于序列依赖频率矩阵的生物序列进化信息提取方法的应用,其包括:应用所述SDFM,并利用谱-谱比对方法判断两条生物序列的进化关系。本专利技术还提供了一种如上所述的基于序列依赖频率矩阵的生物序列进化信息提取方法的应用,其包括:应用所述SDFM,并利用top-n-grams方法生成伪生物序列。本专利技术的有益效果为:本专利技术为基于序列依赖频率矩阵SDFM(Sequence-orderDependentFrequencyMatrix,序列依赖频率矩阵)的生物序列进化信息提取方法,其能从生物序列的多序列比对中提取出包含序列位置依赖关系的生物进化信息。该方法可用于DNA、RNA和Protein的生物序列信息提取,并能根据提取的信息可进一步用于序列模体和保守区域识别、分子系统发育分析、蛋白质结构与功能预测和基因识别等方面的研究。其应用方式包括但不限于,利用统计信息量方法发现生物序列的保守区域,利用谱-谱比对方法判断两条生物序列的进化关系,利用top-n-grams方法生成伪生物序列。附图说明图1是本专利技术一种实施例的蛋白质序列的序列依赖频率矩阵(k=3)的生成过程图。图2是本专利技术一种实施例的蛋白质序列的序列依赖频率矩阵的组合示意图。具体实施方式下面结合附图,对本专利技术的较优的实施例作进一步的详细说明。对任意的生物序列S,首先利用序列比对工具搜索对应的大规模生物序列数据库DB,生成对应的多序列比对MSA。然后用概率统计的方法统计在多序列比对中每个位点生物序列子串kmer出现的频率。任意生物序列的序列依赖频率矩阵SDFM可以表示成一个Sk×(L-k+1)维的矩阵,具体形式如下:其中,S是生物序列字母表的大小,对于DNA,RNA字母表为4,对于蛋白质字母表大小为20;k表示生物序列子串的长度;Sk表示长度为k的生物序列子串kmer种类的数量;L表示生物序列的长度;mi,j代表第i个生物序列子串kmer在多序列比对MSA的第j列上出现的打分,其具体计算公式如下:其中,ni,j是多序列比对MSA中第i个生物序列子串kmer在第j列上出现的频率,Nj是多序列比对MSA中第j列上所有生物序列子串kmer出现的总频率。bi,j是生物序列子串的背景概率,即该生物序列子串在大规模生物序列数据库中出现的概率;Bj为第j列上所有bi,j的总和。实施例1以蛋白质序列为例,对于任意一条蛋白质序列,首先利用序列比对工具如PSI-BLAST搜索大规模的蛋白质数据库如NRdb90,得到该查询蛋白质的多序列比对MSA。然后统计多序列比对MSA中每个位点上出现长度为3的氨基酸序列子串的频率。如图1所示,每一列的柱状图表示氨基酸子串在该位置出现的概率分布,每一行的标识为氨基酸子串的类型。对于一个长度为L的蛋白质,生成对应的SDFM大小为20k×(L-2)。蛋白质序列的序列依赖频率矩阵k=3的生成过程如图1所示。当只统计多序列比对中长度为1的生物子串出现的概率,即公式(1)中k=1,序列依赖频率矩阵SDFM矩阵就弱化成原始的位置特异性打分矩阵PSSM。随着k值的增大,SDFM能够包含更多的序列依赖信息。实施例2在实施例1的基础上,我们可以把基于不同长度生物序列子串生成的多个SDFM组合在一起,包含更多的生物序列进化信息。以蛋白质的SDFM为例,我们可以把k=1,2,3的SDFM组合成一个矩阵,具体蛋白质序列的序列依赖频率矩阵的组合示意图如图2所本文档来自技高网...
基于序列依赖频率矩阵的生物序列进化信息提取方法

【技术保护点】
一种基于序列依赖频率矩阵的生物序列进化信息提取方法,其特征在于:其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取,所述SDFM采用以下步骤获得:步骤S1:对于任意的生物序列,首先利用序列比对工具搜索对应的生物序列数据库,生成对应的多序列比对MSA;步骤S2:统计在多序列比对MSA中每个位点生物序列子串出现的频率,得到该生物序列的序列依赖频率矩阵SDFM,所述SDFM为如式(1)所示的Sk×(L‑k+1)维的矩阵:M=m1,1m1,2...m1,L-k+1m2,1m2,2...m2,L-k+1............mSk,1mSk,2...mSk,L-k+1---(1)]]>其中,S是生物序列字母表的大小,k表示生物序列子串的长度,Sk表示长度为k的生物序列子串种类的数量;L表示生物序列的长度,mi,j代表第i个生物序列子串在多序列比对MSA的第j列上出现的打分,mi,j的计算公式如下:mij=nij+bijNj+Bj---(2)]]>其中,ni,j是多序列比对MSA中第i个生物序列子串在第j列上出现的频率,Nj是多序列比对MSA中第j列上所有生物序列子串出现的总频率,bi,j是生物序列子串的背景概率,Bj为第j列上所有bi,j的总和。...

【技术特征摘要】
1.一种基于序列依赖频率矩阵的生物序列进化信息提取方法,其特征在于:其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取,所述SDFM采用以下步骤获得:步骤S1:对于任意的生物序列,首先利用序列比对工具搜索对应的生物序列数据库,生成对应的多序列比对MSA;步骤S2:统计在多序列比对MSA中每个位点生物序列子串出现的频率,得到该生物序列的序列依赖频率矩阵SDFM,所述SDFM为如式(1)所示的Sk×(L-k+1)维的矩阵:M=m1,1m1,2...m1,L-k+1m2,1m2,2...m2,L-k+1............mSk,1mSk,2...mSk,L-k+1---(1)]]>其中,S是生物序列字母表的大小,k表示生物序列子串的长度,Sk表示长度为k的生物序列子串种类的数量;L表示生物序列的长度,mi,j代表第i个生物序列子串在多序列比对MSA的第j列上出现的打分,mi,j的计算公式如下:mij=nij+bijNj+Bj---(2)]]>其中,ni,j是多序列比对MSA中第i个生物序列子串在第j列上出现的频率,Nj是多序列比对MSA中第j列上所有生物序列子串出现的总频率,bi,j是生物序列子串的背景概率,Bj为第j列上所有bi,j的总和。2...

【专利技术属性】
技术研发人员:刘滨陈俊杰郭明月
申请(专利权)人:哈尔滨工业大学深圳研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1