一种基于二代测序数据的反转相关复杂变异检测方法技术

技术编号：24462409 阅读：48 留言：0更新日期：2020-06-10 17:24

一种基于二代测序数据的反转相关复杂变异检测方法，在滑动窗口内，根据给定的bam文件与选定的参考基因组进行比对，得到Read Pair信号，并以Read Pair信号对不能完全匹配的Read进行Split Read信号分析，得到对应的断点匹配情况；建立Split Read信号理论模型；将断点匹配情况经过建立的模型，如果符合某个模型时，记录下相应的变异类型和位置，再判断是否是可信的变异。本发明专利技术根据理论信号建立了变异模型信号，因此可以很准确地提出变异类型；本发明专利技术使用Split Read信号，以模式增长算法寻找字符串的最大最小唯一子串，所以能够很精确地指出变异的位置信息。

A detection method of reverse correlation complex mutation based on second generation sequencing data

全部详细技术资料下载

【技术实现步骤摘要】
一种基于二代测序数据的反转相关复杂变异检测方法
本专利技术属于基于二代测序数据的变异检测方法，涉及一种基于二代测序数据的反转相关复杂变异检测方法。
技术介绍
与人类参考基因组(reference)相比，每个人的基因组都会存在一定的不同，这些不同被称为变异。变异因大小不同可以分为SNP(singlenucleotidepolymorphism)和结构变异(structuralvariants)。不同人体中广泛存在着各种类型的结构变异(structuralvariants)，其中简单变异主要分为删除(deletion)、插入(insertion)、重复(duplication)和反转(inversion)等类型。其中与本专利技术相关的删除(deletion)指的是与参考基因组相比缺少了一段本该有的基因，重复(duplication)指的是与参考基因组相比将某一段基因多复制了一次或者几次，反转(inversion)指的是与参考基因组相比将某一段基因的方向颠倒了。这些结构变异(structuralvariants)中，有些就目前已知信息评估尚不明确与什么相关，有些是与疾病有直接或者间接关系，例如小儿常见的猫叫综合征是由于删除(deletion)造成，甲型血友病与反转(inversion)相关。DNA序列由A、G、C、T四种碱基组成，测序得到的Read实际上就是通过仪器得到由这四种碱基组成的一条一定长度的字符串，以成对的、朝向相反并且有一定范围距离的形式存在可读的bam文件中。由于测序技术的发展，Read长度从...

【技术保护点】
1.一种基于二代测序数据的反转相关复杂变异检测方法，其特征在于，包括以下步骤：/n步骤1，在滑动窗口内，根据给定的bam文件与选定的参考基因组进行比对，得到PairOrientation异常或者Insert Size异常的Read Pair信号，并以Read Pair信号对不能完全匹配的Read进行Split Read信号分析，得到对应的断点匹配情况；/n步骤2，针对想要寻找的简单变异和复杂变异，建立Split Read信号理论模型；包括反转Split Read信号的模型，反转-删除Split Read信号的模型以及反转-重复Split Read信号的模型；/n步骤3，将步骤1中得到的断点匹配情况经过步骤2中建立的模型，如果符合某个模型时，记录下相应的变异类型和位置，再判断是否是可信的变异。/n

【技术特征摘要】
1.一种基于二代测序数据的反转相关复杂变异检测方法，其特征在于，包括以下步骤：
步骤1，在滑动窗口内，根据给定的bam文件与选定的参考基因组进行比对，得到PairOrientation异常或者InsertSize异常的ReadPair信号，并以ReadPair信号对不能完全匹配的Read进行SplitRead信号分析，得到对应的断点匹配情况；
步骤2，针对想要寻找的简单变异和复杂变异，建立SplitRead信号理论模型；包括反转SplitRead信号的模型，反转-删除SplitRead信号的模型以及反转-重复SplitRead信号的模型；
步骤3，将步骤1中得到的断点匹配情况经过步骤2中建立的模型，如果符合某个模型时，记录下相应的变异类型和位置，再判断是否是可信的变异。

2.根据权利要求1所述的一种基于二代测序数据的反转相关复杂变异检测方法，其特征在于，步骤1中，用聚类算法进行ReadPair信号分析，得到PairOrientation异常或者InsertSize异常的ReadPair信号；
用模式增长算法进行Splitread信号分析，得到不能完全匹配的Read的断点匹配情况。

3.根据权利要求1所述的一种基于二代测序数据的反转相关复杂变异检测方法，其特征在于，步骤1的具体过程为：
首先，在给定的bam文件中划定了一个100万bp大小的窗口；
然后，在这个100万bp大小的窗口中，以ReadPair为单位进行第一次扫描：如果一个ReadPair的PairOrientation和/或InsertSize信息异常，记录为一个未定的ReadPair信号，并进行聚类；
最后，在这个100万bp大小的窗口中，以单个Read进行第二次扫描：例如，某个Read不能完全比对到reference，则称为ReadA，那么分成两段，以ReadA两端到中间的方向在64bp范围内与reference比对，如果不能找到ReadA的两段和reference比较的最小和最大公共子串，则扩大范围为上次查找范围的四倍范围，并反复进行比对，以找到ReadA和reference比较的最小和最大公共子串为止，并记录对应的位置信息；如果没有，则不记录。

4.根据权利要求3所述的一种基于二代测序数据的反转相关复杂变异检测方法，其特征在于，进行聚类的具体过程为：在未定的ReadPair附近确定是否有五个及以上和ReadPair信息...

【专利技术属性】
技术研发人员：杨晓飞，卜楠，叶凯，蔺佳栋，梁皓，郭立，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人