一种基于二代测序数据的反转相关复杂变异检测方法技术

技术编号:24462409 阅读:41 留言:0更新日期:2020-06-10 17:24
一种基于二代测序数据的反转相关复杂变异检测方法,在滑动窗口内,根据给定的bam文件与选定的参考基因组进行比对,得到Read Pair信号,并以Read Pair信号对不能完全匹配的Read进行Split Read信号分析,得到对应的断点匹配情况;建立Split Read信号理论模型;将断点匹配情况经过建立的模型,如果符合某个模型时,记录下相应的变异类型和位置,再判断是否是可信的变异。本发明专利技术根据理论信号建立了变异模型信号,因此可以很准确地提出变异类型;本发明专利技术使用Split Read信号,以模式增长算法寻找字符串的最大最小唯一子串,所以能够很精确地指出变异的位置信息。

A detection method of reverse correlation complex mutation based on second generation sequencing data

【技术实现步骤摘要】
一种基于二代测序数据的反转相关复杂变异检测方法
本专利技术属于基于二代测序数据的变异检测方法,涉及一种基于二代测序数据的反转相关复杂变异检测方法。
技术介绍
与人类参考基因组(reference)相比,每个人的基因组都会存在一定的不同,这些不同被称为变异。变异因大小不同可以分为SNP(singlenucleotidepolymorphism)和结构变异(structuralvariants)。不同人体中广泛存在着各种类型的结构变异(structuralvariants),其中简单变异主要分为删除(deletion)、插入(insertion)、重复(duplication)和反转(inversion)等类型。其中与本专利技术相关的删除(deletion)指的是与参考基因组相比缺少了一段本该有的基因,重复(duplication)指的是与参考基因组相比将某一段基因多复制了一次或者几次,反转(inversion)指的是与参考基因组相比将某一段基因的方向颠倒了。这些结构变异(structuralvariants)中,有些就目前已知信息评估尚不明确与什么相关,有些是与疾病有直接或者间接关系,例如小儿常见的猫叫综合征是由于删除(deletion)造成,甲型血友病与反转(inversion)相关。DNA序列由A、G、C、T四种碱基组成,测序得到的Read实际上就是通过仪器得到由这四种碱基组成的一条一定长度的字符串,以成对的、朝向相反并且有一定范围距离的形式存在可读的bam文件中。由于测序技术的发展,Read长度从早年的十几bp发展到一百多甚至两百多bp,想把不同人的很多条Read和数量级为三十亿的参考基因组(reference)进行对比找到相符合的位置,在算法层面来看难度其实是相当高的。目前以二代测序数据为基础检测变异的方法很多,主要使用的信号有Assembly、ReadPair、ReadDepth和SplitRead信号等。其中,Assembly通过将bam文件中的read进行组装重新比对得到相应的信息;ReadPair信号指的是在bam文件中每对read之间的距离信息与方向信息,即InsertSize和PairOrientation信息,能够反应出一些较大的结构变异(structuralvariants)的相关信息;ReadDepth信号指每个参考基因组位点上覆盖的Read的数量信息,能够较为明显地体现某个区域中Read数量会有明显变化的变异,例如删除(deletion)和重复(duplication)等;SplitRead信号指在bam文件中每对read中有一个不能完全比对到参考基因组时,将其分成两部分或者以上与参考基因组进行比对的位点信息,能够较为精确地体现变异的断点信息。通常,变异检测工具使用其中一种或者结合多种信息来检测变异。目前,业界已经发现了反转(inversion)的及其相关复杂变异检测结果中变异类型错误、断点不准确甚至完全无法检测的问题,并针对此进行了相关的科学研究和算法开发,但国内外检测反转(inversion)及其相关复杂变异的工具较少,目前只有以下几种:1)Gridss:此方法的亮点在于使用了Assembly来进行重比对,因此可以较为精确地报出断点,但是它的缺点也较为明显,它只能报出断点而无法明确地报出变异类型,必须要通过三代数据或者其他相关辅助手段才能进行变异类型的确认。2)Tardis:对ReadPair信号进行聚类,对SplitRead信号进行一定条件筛选并对ReadDepth信号提出纯合/杂合变异的假设,结合三种信号来报出变异类型和变异断点,但它目前只能报出其他类型的复杂变异,不能报出与反转(inversion)相关的复杂变异。3)SVelter:建立无效模型(nullmodel),对检测到的断点进行聚类和整合确定断点,针对N个断点形成的N-1个block随机分配变异类型并迭代打分,输出打分最高的变异类型,并输出变异类型,但是它的变异类型经常出现错误。
技术实现思路
为了克服以上技术的缺点,本专利技术目的是提供一种基于二代测序数据的反转相关复杂变异检测方法。为实现上述目的,本专利技术是通过以下技术方案来实现:一种基于二代测序数据的反转相关复杂变异检测方法,包括以下步骤:步骤1,在滑动窗口内,根据给定的bam文件与选定的参考基因组进行比对,得到PairOrientation异常或者InsertSize异常的ReadPair信号,并以ReadPair信号对不能完全匹配的Read进行SplitRead信号分析,得到对应的断点匹配情况;步骤2,针对想要寻找的简单变异和复杂变异,建立SplitRead信号理论模型;包括反转SplitRead信号的模型,反转-删除SplitRead信号的模型以及反转-重复SplitRead信号的模型;步骤3,将步骤1中得到的断点匹配情况经过步骤2中建立的模型,如果符合某个模型时,记录下相应的变异类型和位置,再判断是否是可信的变异。本专利技术进一步的改进在于,步骤1中,用聚类算法进行ReadPair信号分析,得到PairOrientation异常或者InsertSize异常的ReadPair信号;用模式增长算法进行Splitread信号分析,得到不能完全匹配的Read的断点匹配情况。本专利技术进一步的改进在于,步骤1的具体过程为:首先,在给定的bam文件中划定了一个100万bp大小的窗口;然后,在这个100万bp大小的窗口中,以ReadPair为单位进行第一次扫描:如果一个ReadPair的PairOrientation和/或InsertSize信息异常,记录为一个未定的ReadPair信号,并进行聚类;最后,在这个100万bp大小的窗口中,以单个Read进行第二次扫描:例如,某个Read不能完全比对到reference,则称为ReadA,那么分成两段,以ReadA两端到中间的方向在64bp范围内与reference比对,如果不能找到ReadA的两段和reference比较的最小和最大公共子串,则扩大范围为上次查找范围的四倍范围,并反复进行比对,以找到ReadA和reference比较的最小和最大公共子串为止,并记录对应的位置信息;如果没有,则不记录。本专利技术进一步的改进在于,进行聚类的具体过程为:在未定的ReadPair附近确定是否有五个及以上和ReadPair信息一致且位置接近的ReadPair,如果有,则将这个ReadPair信号记录,具体包括它的位置和方向。本专利技术进一步的改进在于,如果ReadA在确定的ReadPair信号中有记录,那么开始SplitRead分析的位置是相对应的ReadPair信号的位置;如果没有记录,那么开始SplitRead分析的位置是ReadA不能完全比对的位置。本专利技术进一步的改进在于,步骤2的具体过程为:根据反转、反转-删除和反转-重复的理论建立相对应的SplitRead信号的模型;包括反转SplitRead本文档来自技高网
...

【技术保护点】
1.一种基于二代测序数据的反转相关复杂变异检测方法,其特征在于,包括以下步骤:/n步骤1,在滑动窗口内,根据给定的bam文件与选定的参考基因组进行比对,得到PairOrientation异常或者Insert Size异常的Read Pair信号,并以Read Pair信号对不能完全匹配的Read进行Split Read信号分析,得到对应的断点匹配情况;/n步骤2,针对想要寻找的简单变异和复杂变异,建立Split Read信号理论模型;包括反转Split Read信号的模型,反转-删除Split Read信号的模型以及反转-重复Split Read信号的模型;/n步骤3,将步骤1中得到的断点匹配情况经过步骤2中建立的模型,如果符合某个模型时,记录下相应的变异类型和位置,再判断是否是可信的变异。/n

【技术特征摘要】
1.一种基于二代测序数据的反转相关复杂变异检测方法,其特征在于,包括以下步骤:
步骤1,在滑动窗口内,根据给定的bam文件与选定的参考基因组进行比对,得到PairOrientation异常或者InsertSize异常的ReadPair信号,并以ReadPair信号对不能完全匹配的Read进行SplitRead信号分析,得到对应的断点匹配情况;
步骤2,针对想要寻找的简单变异和复杂变异,建立SplitRead信号理论模型;包括反转SplitRead信号的模型,反转-删除SplitRead信号的模型以及反转-重复SplitRead信号的模型;
步骤3,将步骤1中得到的断点匹配情况经过步骤2中建立的模型,如果符合某个模型时,记录下相应的变异类型和位置,再判断是否是可信的变异。


2.根据权利要求1所述的一种基于二代测序数据的反转相关复杂变异检测方法,其特征在于,步骤1中,用聚类算法进行ReadPair信号分析,得到PairOrientation异常或者InsertSize异常的ReadPair信号;
用模式增长算法进行Splitread信号分析,得到不能完全匹配的Read的断点匹配情况。


3.根据权利要求1所述的一种基于二代测序数据的反转相关复杂变异检测方法,其特征在于,步骤1的具体过程为:
首先,在给定的bam文件中划定了一个100万bp大小的窗口;
然后,在这个100万bp大小的窗口中,以ReadPair为单位进行第一次扫描:如果一个ReadPair的PairOrientation和/或InsertSize信息异常,记录为一个未定的ReadPair信号,并进行聚类;
最后,在这个100万bp大小的窗口中,以单个Read进行第二次扫描:例如,某个Read不能完全比对到reference,则称为ReadA,那么分成两段,以ReadA两端到中间的方向在64bp范围内与reference比对,如果不能找到ReadA的两段和reference比较的最小和最大公共子串,则扩大范围为上次查找范围的四倍范围,并反复进行比对,以找到ReadA和reference比较的最小和最大公共子串为止,并记录对应的位置信息;如果没有,则不记录。


4.根据权利要求3所述的一种基于二代测序数据的反转相关复杂变异检测方法,其特征在于,进行聚类的具体过程为:在未定的ReadPair附近确定是否有五个及以上和ReadPair信息...

【专利技术属性】
技术研发人员:杨晓飞卜楠叶凯蔺佳栋梁皓郭立
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1