一种模型非依赖的基因组结构变异检测系统及方法技术方案

技术编号:32008235 阅读:9 留言:0更新日期:2022-01-22 18:24
本发明专利技术提供一种模型非依赖的基因组结构变异检测系统及方法,该方法主要包含四个步骤:(1)基于现有序列比对技术,提取结构变异特征序列;(2)利用RGB图像编码结构变异特征序列相似性图像;(3)利用多目标识别框架预测结构变异特征序列相似性图像中包含的结构变异;(4)通过图数据结构系统性的表征复杂结构变异类型。本发明专利技术实现了不依靠任何结构变异模型从序列差异编码图像中同时检测简单和复杂结构变异。变异。

【技术实现步骤摘要】
一种模型非依赖的基因组结构变异检测系统及方法


[0001]本专利技术属于精准医疗
,涉及一种模型非依赖的基因组结构变异检测系统及方法。

技术介绍

[0002]在过去十年当中,基于第二代测序数据的大型国际合作项目,例如TCGA,ICGC和HGSVC等,不断的揭示了基因组结构变异在种群中的差异,以及其与遗传病、肿瘤等疾病的发生之间的密切关系。近五年来,随着第三代长读长测序的发展和不断普及,人类生殖细胞中已知的结构变异数量已经是第二代测序检出结构变异数量的2.5倍,这些结构变异为后续进化及相关疾病研究提供了重要基础。更重要的是越来越多的简单结构变异通过进一步分析被发现是复杂结构变异,例如2015年《Nature》上首次全面介绍了基因组复杂结构变异。复杂结构变异的特殊性首先表现为与简单结构变异截然不同的形成方式,它们作为基因组上未被挖掘的部分为科研人员研究基因组损伤修复机制提供了新的证据。另一方面,复杂结构变异与遗传性疾病,发育性疾病有着很强的相关性,相关研究极大程度上丰富了研究者对复杂结构变异的认识,比如2017年发表在《Genome Biology》的研究,发现了16种不同的复杂变异类型并深入分析了它们在自闭症形成过程的作用。然而这些在生殖细胞中发生的复杂结构变异往往无法被现有的传统临床手段检测出来,同时由于结构变异自身的复杂性及现有检测方法的局限,基于第三代测序的方法也无法准确的检测出这些复杂事件。相比较生殖细胞结构变异,肿瘤基因组经历了多次且迅速的选择,因此存在更多大尺寸的复杂结构变异,比如染色体碎裂(Chromothripsis)和染色体扭曲(Chromoplexy)。这些复杂结构变异在肿瘤发展过程中被认为是短期内快速形成的事件,在极大程度上促进肿瘤的发展。
[0003]总体上来说,随着“大健康”这一全局理念被提出,以及我国人口老龄化问题逐渐凸显,遗传性疾病、发育性疾病、癌症的发病率越来越高,因此随着三代测序数据价格的不断下跌,基于第三代测序技术的全基因组检测将会成为临床诊断的必然趋势。在次背景下将会产生大量测序数据,这些数据的解读,尤其是跟临床疾病相关的数据,将会成为制约整个行业发展的关键。
[0004]目前针对第三代测序技术的全基因组结构变异检测的主要步骤包含依然延续了基于第二代测序数据的检测理论,其中主要包含三个步骤:(1)建立已知基因组结构变异的模型;(2)推断该模型在测序数据比对结果中可能反应出的异常比对特征;(3)根据构建的不同结构变异类型的异常比对特征模型,匹配测序读段比对结果,并最终得到检测结果。基于以上检测思路开发的检测工具,例如PBSV、Sniffles、SVIM、NanoVar、CuteSV等方法已经被广泛的用于生殖细胞基因组结构变异检测,以及少量疾病和肿瘤样本分析。为了检测复杂结构变异,大多数检测工具都采用打补丁的方式,也就是将新的结构变异类型所对应的异常比对模型加入到原有工具当中。这其中最具代表性就是Sniffles,它是第一个通过添加额外异常比对模型来检测两种复杂结构变异类型的检测工具。然而测序技术发展至今,
研究人员对基因组结构变异的了解仍是冰山一角,这种通过打补丁的方式检测结构变异的方法治标不治本,仍然无法探究基因组当中存在的未知结构变异类型。另一方面,这种基于建模思路开发的工具由于要针对每种变异类型编写特定的代码,因此此类工具代码尤其复杂并且可读性差,这也直接导致了计算效率低和维护困难。这主要是由于复杂结构变异的异常比对特征的复杂性造成了对不同大小范围、不同变异类型的检测灵敏度千差万别,例如图1所示,对于简单的缺失变异和缺失反转复杂结构变异,现有的工具会把复杂结构变异检测成单独的缺失或着反转,甚至有些工具会漏报这个事件。近两三年来,随着越来越多的复杂结构变异通过繁琐的人工分析被发现,生物医学研究人员逐渐认识到复杂结构变异在某些无法确诊的疾病中起到重要的作用;同时,为了达到更好的全方位的结构变异检测结果,全新的检测系统是促进未来临床检测的关键技术。除了模型的限制以外,重复序列长期以来是影响结构变异检测的关键因素,至今仍没有一个有效的解决方案。另外,复杂结构变异的表征方法一直以来没有统一,不同的研究大多采用简单变异的组合表征复杂结构变异类型,同时匹配详细的文字解释,这种方法的最大问题在于不利于不同研究之间比较检测到的复杂结构变异。
[0005]综上所述,尽管经过近10年的发展,科研人员利用基因组测序数据检测简单类型变异,并将该信息运用到研究人类进化、种群迁移和融合、疾病的机理和治疗方案中,极大的推动了生物医学的发展。然而这种基于建模以及打补丁的结构变异检测理论已经无法满足未来科研、医院和基因检测服务提供商对变异检测的需求,尤其是无法支撑从靶向检测到全基因组检测的转变。

技术实现思路

[0006]针对现有全基因组结构变异检测技术存在的问题,本专利技术提出了一种模型非依赖的基因组结构变异检测系统及方法,实现了不依靠任何结构变异模型从序列差异编码图像中同时检测简单和复杂结构变异。
[0007]为了实现上述目的,本专利技术的技术方案如下:
[0008]一种模型非依赖的基因组结构变异检测方法,包括:
[0009]步骤1,结构变异特征序列提取:将样本序列与参考基因组序列进行比对,得到全局比对结果,根据全局比对结果提取结构变异特征序列;结构变异特征序列中的匹配片段称为主要片段;根据结构变异特征序列的比对特征,将结构变异特征序列中不匹配片段的序列与参考基因组序列进行局部Kmer重比对,经过局部Kmer重比对得到的匹配片段称为次要片段;
[0010]步骤2,结构变异特征序列相似性图像编码:采用RGB图像三通道编码方式,结合主要片段和次要片段,对结构变异特征序列与参考基因组序列进行编码,得到参考基因组序列与样本序列的相似性RGB图像,同时对参考基因组序列进行编码得到参考基因组序列自身相似性图像;两个图像相减得到结构变异特征序列相似性图像;
[0011]步骤3,结构变异特征序列相似性图像分割:按主要片段在参考基因组序列上的顺序,在结构变异特征序列相似性图像中组合相邻的两个主要片段,得到只包含单个结构变异的子图像;按主要片段和次要片段在参考基因组序列上的顺序,在子图像中按顺序两两组合相邻的主要片段和次要片段,得到感兴趣片段;
[0012]步骤4,结构变异特征序列相似性图像的识别及结构变异表征:使用事先训练好的结构变异检测CNN模型对包含单个结构变异的子图像中的所有感兴趣片段进行识别,得到复杂结构变异片段;对复杂结构变异片段使用图数据结构进行系统性表征和分类。
[0013]优选的,步骤1中,根据结构变异特征序列的比对特征,将结构变异特征序列中不匹配片段的序列与参考基因组序列进行局部Kmer重比对,具体是:根据结构变异特征序列的CIGAR字符,从中提取与参考基因组序列的不匹配片段,将不匹配片段的序列与参考基因组序列进行局部Kmer重比对,得到次要片段;
[0014]优选的,步骤2具体包括:
[0015]1)RGB三通道序列相似性编码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型非依赖的基因组结构变异检测方法,其特征在于,包括:步骤1,结构变异特征序列提取:将样本序列与参考基因组序列进行比对,得到全局比对结果,根据全局比对结果提取结构变异特征序列;结构变异特征序列中的匹配片段称为主要片段;根据结构变异特征序列的比对特征,将结构变异特征序列中不匹配片段的序列与参考基因组序列进行局部Kmer重比对,经过局部Kmer重比对得到的匹配片段称为次要片段;步骤2,结构变异特征序列相似性图像编码:采用RGB图像三通道编码方式,结合主要片段和次要片段,对结构变异特征序列与参考基因组序列进行编码,得到参考基因组序列与样本序列的相似性RGB图像,同时对参考基因组序列进行编码得到参考基因组序列自身相似性图像;两个图像相减得到结构变异特征序列相似性图像;步骤3,结构变异特征序列相似性图像分割:按主要片段在参考基因组序列上的顺序,在结构变异特征序列相似性图像中组合相邻的两个主要片段,得到只包含单个结构变异的子图像;按主要片段和次要片段在参考基因组序列上的顺序,在子图像中按顺序两两组合相邻的主要片段和次要片段,得到感兴趣片段;步骤4,结构变异特征序列相似性图像的识别及结构变异表征:使用事先训练好的结构变异检测CNN模型对包含单个结构变异的子图像中的所有感兴趣片段进行识别,得到复杂结构变异片段;对复杂结构变异片段使用图数据结构进行系统性表征和分类。2.根据权利要求1所述的模型非依赖的基因组结构变异检测方法,其特征在于,步骤1中,根据结构变异特征序列的比对特征,将结构变异特征序列中不匹配片段的序列与参考基因组序列进行局部Kmer重比对,具体是:根据结构变异特征序列的CIGAR字符,从中提取与参考基因组序列的不匹配片段,将不匹配片段的序列与参考基因组序列进行局部Kmer重比对,得到次要片段。3.根据权利要求1所述的模型非依赖的基因组结构变异检测方法,其特征在于,步骤2具体包括:1)RGB三通道序列相似性编码:将结构变异特征序列与参考基因组序列编码到序列匹配通道(255,0,0),序列重复通道(0,0,255)以及序列反转通道(0,255,0)中,输出参考基因组序列与样本序列的相似性RGB图像;将参考基因组序列编码到序列匹配通道(255,0,0),序列重复通道(0,0,255)以及序列反转通道(0,255,0)中,得到参考基因组序列自身相似性图像,同时记录每个匹配片段的位置信息;2)去除参考基因组序列重复片段:根据参考基因组序列与样本序列相似性的RGB图像和参考基因组序列自身相似性图像中的匹配片段相对于参考基因组序列的坐标位置,在参考基因组序列自身相似性图像寻找中与参考基因组序列与样本序列的相似性RGB图像中的片段相对应的片段,若找到对应片段则将其从参考基因组序列与样本序列相似性的RGB图像中移除,得到结构变异特征序列相似性图像。4.根据权利要求1所述的模型非依赖的基因组结构变异检测方法,其特征在于,步骤3具体包括:1)单个结构变异分割:按主要片段在参考基因组序列上的顺序,在结构变异特征序列相似性图像中组合相邻的两主要片段,得到只包含单个结构变异的子图像;2)结构变异图像多目标分割:按照主要片段和次要片段在结构变异特征序列上的坐标
进行排序,根据排序结果两两组合子图像中的所有片段,将主要片段和次要片段的组合作为感兴趣片段。5.根据权利要求1所述的模型非依赖的基因组结构变异检测方法,其特征在于,步骤4中所述结构变异检测CNN模型训练方法具体包括:1)构建结构变异训练数据集:真实数据利用1000Genome Project中的2500个样本的结构变异特征序列作为训练数据,虚拟数据利用VISOR虚拟无噪声干扰的训练样本作为训练数据,两者共同组成训练数据集;2)训练数据集编码:采用步骤2所述方法对训练数据集中的训练数据进行编码,得到训练数据集的感兴趣片段;3)模型训练:将训练数据集输入卷积神经网络,训练卷积神经网络,训练完成后得到结构变异检测CNN模型。6.根据权利要求1所述的模型非依赖的基因组结构变异检测方法,其特征在于,步骤4中,使用事先训练好的结构变异检测CNN模型对包含单个结构变异的子图像中的所有感兴趣片段进行识别,得到复杂结构变异片段;对复杂结构变异片段使用图数据结构进行系统性表征和分类,具体是:通过结构变...

【专利技术属性】
技术研发人员:叶凯蔺佳栋王松渤杨晓飞
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1