一种基于模式增长算法的基因变异检测方法技术

技术编号:24414401 阅读:25 留言:0更新日期:2020-06-06 10:45
一种基于模式增长算法的基因变异检测方法,在预处理后的测序比对数据中提取有变异特征信号的数据并进行聚类,将聚类后的每一类数据中所有的短读段序列依据比对状态拆分成状态分别为S和M的两段,将所有的S段的序列压缩建立一致性序列,将所有的M段的序列压缩建立一致性序列;并对同一类中的数据信息进行计算,则形成超项目,根据每个超项目在基因组上的位置将每个超项目按顺序存入变异信号数据库中;使用模式增长算法,建立断点间的比对关系;建立变异模型,确定变异的类型。本发明专利技术直接将过滤后数据库中的所有断点为对象进行比对来获取相互比对关系,从而得到全局比对信息,实现更精准的变异检测效果,对较小或较大变异均有很好的检测效果。

A gene mutation detection method based on pattern growth algorithm

【技术实现步骤摘要】
一种基于模式增长算法的基因变异检测方法
本专利技术涉及一种基因变异检测方法,具体涉及一种基于模式增长算法的基因变异检测方法。
技术介绍
从1977年第一代DNA测序技术(Sanger法),发展至今四十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。利用二代测序数据可以进行基因变异的检测以及分析探索基因变异与疾病之间的关系。基因变异是指基因组DNA分子发生的突然的可遗传的变异。它包括单个碱基改变所引起的点突变,或碱基片段改变造成的结构变异(SV),包括缺失、重复、插入和反转。血友病、白化病、色盲等都是遗传性疾病,肿瘤、高血压、冠心病、糖尿病和精神性疾病也往往同遗传有关系。利用变异检测确认患病的基因或者是否携带有遗传疾病易感基因,可以诊断疾病,也可以用于疾病风险的预测,从而使人们能了解自己的基因信息,明确病因或预知身体患某种疾病的风险。目前基于二代测序的基因变异检测方法主要有以下四种:基于组装(AS)的方法,基于序列比对深度(RD)的方法,基于序列读对(RP)的方法和基于序列拆分(SR)的方法。基于单一信号的变异检测方法适用于在特定分辨率范围内检测特定类型的结构变异(SV)。通常,基于AS和SR的算法都可以实现碱基分辨率水平的SV检测,而基于RP的工具通常仅产生大概的断点位置和SV长度。基于AS和SR的方法不仅可以检测小SV,还可以检测点突变(SNP)和插入缺失变异(indel),而RP信号最适合中等大小的SV,RD更适合大SV。基于RD的算法只能检测分辨率较差的复制和缺失。因此,基于以上问题,将不同的信号组合起来是非常有意义的,可以在更广泛的分辨率下检测多个SV。为此,可以采取两种方案:(i)在单个工具中整合多种信号。(ii)将不同检测工具进行集成。对于第一种方案,许多工具都已经整合了多种信号。如SR和RP信号的整合使得SV检测实现了较低的错误发现率,包括DELLY,PRISM,MATE-CLEVER,Tangram和SoftSearch等工具。Pindel最初仅使用了SR信息,但现在还集成了RP信息。DELLY在具有复杂重排的大SV(>10kb)上有良好的性能。基于RP和RD单一信号的工具都可以检测到许多SV但存在较高错误发现率。将RP和RD信号进行整合有助于降低错误发现率并提高可确定断点的分辨率。如GASVPro整合了两种信号,与原始基于RP的GASV相比,检测缺失和反转的特异性提高了50%。对于第二种方案,如SVMerge,是一个整合了四种变异检测工具的管道,BreakDancer(基于RP),Pindel(基于SR,支持RP),cnD(基于RD)和SECluster(使用AS信号)。它的模块化设置允许被不同工具检测到的SV进行合并。而对于方案一中的一些工具,如pindel的变异检测的灵敏度很高,但检测速度较慢;DELLY在大SV上有比较良好的性能,但对于小一些的变异检测效果一般。并且他们的共同特点是需要将有用的reads与参考基因进行重比对,这是比较繁琐的一步。下一代测序技术的出现,人类积累了大量的测序数据,这种大规模的序列数据集对基因检测的算法研究提出了严峻挑战。因此,需要提高变异检测的速度,同时还要保持较高的灵敏度和较低的错误发现率,以此来应对测序序列越来越长,数据规模不断扩大等各种现实问题。
技术实现思路
本专利技术的目的是提供一种基于模式增长算法的,快速高效,灵敏度高,不依赖于参考基因的基因变异检测的方法。为实现上述目的,本专利技术是通过以下技术方案来实现:一种基于模式增长算法的基因变异检测方法,包括如下步骤:第一步:预处理测序比对数据;第二步:在预处理后的测序比对数据中提取有变异特征信号的数据并进行聚类,将聚类后的每一类数据中所有的短读段序列依据比对状态拆分成状态分别为S和M的两段,将所有的S段的序列压缩建立一致性序列,将所有的M段的序列压缩建立一致性序列;并对同一类中的数据信息进行计算,则每一类数据均形成一个超项目,即每个超项目代表的是不同比对状态的各个断点,然后根据每个超项目在基因组上的位置将每个超项目按顺序存入变异信号数据库中;第三步,将变异信号数据库中的各个超项目的一致性序列,使用模式增长算法,建立断点间的比对关系;第四步:建立变异模型,将有相互比对关系的断点带入变异模型,确定变异的类型。本专利技术进一步的改进在于,第一步中,对二代测序比对数据进行过滤,得到预处理后的测序比对数据;本专利技术进一步的改进在于,第一步中,预处理后的测序比对数据包括短读段比对到参考基因上的信息,包括比对到参考基因组后的染色体名称,比对到的起始坐标位置,短读段的序列数据以及该短读段的比对状态。本专利技术进一步的改进在于,第二步中,有变异特征信号的数据通过以下过程得到:在预处理后的测序比对数据中,提取比对状态显示为SM和MS的比对数据,对每一条提取的数据,依据比对状态及比对到的起始坐标位置,计算对应的断点位置;得到相同断点位置且比对状态为SM的比对数据以及相同断点位置且比对状态为MS的比对数据;本专利技术进一步的改进在于,第三步的具体过程为:将变异信号数据库中的各个超项目的一致性序列,利用模式增长算法进行序列间比对,则得到序列间的比对信息;对序列间的比对信息进行整理,若有两断点的S与M状态序列能实现交叉比对,则得到这两个断点间的相互比对关系。本专利技术进一步的改进在于,第四步中,对缺失、重复和反转变异依据变异特征分别建立相应的变异模型:将有相互比对关系的断点带入变异模型,若符合某种变异模型的断点状态特征,则确定变异的类型,最终完成了对变异位置和类型的判断,完成变异检测。本专利技术进一步的改进在于,对于缺失类型变异,左断点处序列比对状态为MS,右断点为SM;对于重复类型变异,左断点处序列比对状态为SM,右断点为MS;对于反转类型变异,左右断点的比对状态相同。本专利技术以快速高效检测基因变异为出发点,采取模式增长算法来直接进行断点间的序列比对,得到断点间的相互比对关系。然后依据不同变异的结构特征建立变异模型,将具有相互比对关系的断点带入获得变异类型信息,最后依据变异断点和类型的判断即完成了变异检测。本专利技术具有的优点有如下几点:第一:本专利技术是一种不依赖于参考基因的变异检测方法,相比于传统算法需要进行与参考基因重比对这一花费大量时间的重复步骤,本专利技术直接利用比对数据中的相关比对信息,可以快速高效判定变异位置进而进行变异的进一步检测。第二:本专利技术直接将过滤后数据库中的所有断点为对象进行比对来获取相互比对关系,从而得到全局比对信息,实现更精准的变异检测效果,克服了传统算法将短读段与参考基因重比对时需要考虑比对效率,无法有本文档来自技高网
...

【技术保护点】
1.一种基于模式增长算法的基因变异检测方法,其特征在于,包括如下步骤:/n第一步:预处理测序比对数据;/n第二步:在预处理后的测序比对数据中提取有变异特征信号的数据并进行聚类,将聚类后的每一类数据中所有的短读段序列依据比对状态拆分成状态分别为S和M的两段,将所有的S段的序列压缩建立一致性序列,将所有的M段的序列压缩建立一致性序列;并对同一类中的数据信息进行计算,则每一类数据均形成一个超项目,即每个超项目代表的是不同比对状态的各个断点,然后根据每个超项目在基因组上的位置将每个超项目按顺序存入变异信号数据库中;/n第三步,将变异信号数据库中的各个超项目的一致性序列,使用模式增长算法,建立断点间的比对关系;/n第四步:建立变异模型,将有相互比对关系的断点带入变异模型,确定变异的类型。/n

【技术特征摘要】
1.一种基于模式增长算法的基因变异检测方法,其特征在于,包括如下步骤:
第一步:预处理测序比对数据;
第二步:在预处理后的测序比对数据中提取有变异特征信号的数据并进行聚类,将聚类后的每一类数据中所有的短读段序列依据比对状态拆分成状态分别为S和M的两段,将所有的S段的序列压缩建立一致性序列,将所有的M段的序列压缩建立一致性序列;并对同一类中的数据信息进行计算,则每一类数据均形成一个超项目,即每个超项目代表的是不同比对状态的各个断点,然后根据每个超项目在基因组上的位置将每个超项目按顺序存入变异信号数据库中;
第三步,将变异信号数据库中的各个超项目的一致性序列,使用模式增长算法,建立断点间的比对关系;
第四步:建立变异模型,将有相互比对关系的断点带入变异模型,确定变异的类型。


2.根据权利要求1所述的一种基于模式增长算法的基因变异检测方法,其特征在于,第一步中,对二代测序比对数据进行过滤,得到预处理后的测序比对数据。


3.根据权利要求1所述的一种基于模式增长算法的基因变异检测方法,其特征在于,第一步中,预处理后的测序比对数据包括短读段比对到参考基因上的信息,包括比对到参考基因组后的染色体名称,比对到的起始坐标位置,短读段的序列数据以及该短读段的比对状态。


4.根据权利要求1所述的一种基于模式增长算法...

【专利技术属性】
技术研发人员:叶凯杨帆杨晓飞蔺佳栋梁皓郭立
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1