【技术实现步骤摘要】
一种模型非依赖的基因组结构变异检测系统及方法
[0001]本专利技术属于精准医疗
,涉及一种模型非依赖的基因组结构变异检测系统及方法。
技术介绍
[0002]在过去十年当中,基于第二代测序数据的大型国际合作项目,例如TCGA,ICGC和HGSVC等,不断的揭示了基因组结构变异在种群中的差异,以及其与遗传病、肿瘤等疾病的发生之间的密切关系。近五年来,随着第三代长读长测序的发展和不断普及,人类生殖细胞中已知的结构变异数量已经是第二代测序检出结构变异数量的2.5倍,这些结构变异为后续进化及相关疾病研究提供了重要基础。更重要的是越来越多的简单结构变异通过进一步分析被发现是复杂结构变异,例如2015年《Nature》上首次全面介绍了基因组复杂结构变异。复杂结构变异的特殊性首先表现为与简单结构变异截然不同的形成方式,它们作为基因组上未被挖掘的部分为科研人员研究基因组损伤修复机制提供了新的证据。另一方面,复杂结构变异与遗传性疾病,发育性疾病有着很强的相关性,相关研究极大程度上丰富了研究者对复杂结构变异的认识,比如2017年发表在《Genome Biology》的研究,发现了16种不同的复杂变异类型并深入分析了它们在自闭症形成过程的作用。然而这些在生殖细胞中发生的复杂结构变异往往无法被现有的传统临床手段检测出来,同时由于结构变异自身的复杂性及现有检测方法的局限,基于第三代测序的方法也无法准确的检测出这些复杂事件。相比较生殖细胞结构变异,肿瘤基因组经历了多次且迅速的选择,因此存在更多大尺寸的复杂结构变异,比如染色体碎裂(Chro ...
【技术保护点】
【技术特征摘要】
1.一种模型非依赖的基因组结构变异检测方法,其特征在于,包括:步骤1,结构变异特征序列提取:将样本序列与参考基因组序列进行比对,得到全局比对结果,根据全局比对结果提取结构变异特征序列;结构变异特征序列中的匹配片段称为主要片段;根据结构变异特征序列的比对特征,将结构变异特征序列中不匹配片段的序列与参考基因组序列进行局部Kmer重比对,经过局部Kmer重比对得到的匹配片段称为次要片段;步骤2,结构变异特征序列相似性图像编码:采用RGB图像三通道编码方式,结合主要片段和次要片段,对结构变异特征序列与参考基因组序列进行编码,得到参考基因组序列与样本序列的相似性RGB图像,同时对参考基因组序列进行编码得到参考基因组序列自身相似性图像;两个图像相减得到结构变异特征序列相似性图像;步骤3,结构变异特征序列相似性图像分割:按主要片段在参考基因组序列上的顺序,在结构变异特征序列相似性图像中组合相邻的两个主要片段,得到只包含单个结构变异的子图像;按主要片段和次要片段在参考基因组序列上的顺序,在子图像中按顺序两两组合相邻的主要片段和次要片段,得到感兴趣片段;步骤4,结构变异特征序列相似性图像的识别及结构变异表征:使用事先训练好的结构变异检测CNN模型对包含单个结构变异的子图像中的所有感兴趣片段进行识别,得到复杂结构变异片段;对复杂结构变异片段使用图数据结构进行系统性表征和分类。2.根据权利要求1所述的模型非依赖的基因组结构变异检测方法,其特征在于,步骤1中,根据结构变异特征序列的比对特征,将结构变异特征序列中不匹配片段的序列与参考基因组序列进行局部Kmer重比对,具体是:根据结构变异特征序列的CIGAR字符,从中提取与参考基因组序列的不匹配片段,将不匹配片段的序列与参考基因组序列进行局部Kmer重比对,得到次要片段。3.根据权利要求1所述的模型非依赖的基因组结构变异检测方法,其特征在于,步骤2具体包括:1)RGB三通道序列相似性编码:将结构变异特征序列与参考基因组序列编码到序列匹配通道(255,0,0),序列重复通道(0,0,255)以及序列反转通道(0,255,0)中,输出参考基因组序列与样本序列的相似性RGB图像;将参考基因组序列编码到序列匹配通道(255,0,0),序列重复通道(0,0,255)以及序列反转通道(0,255,0)中,得到参考基因组序列自身相似性图像,同时记录每个匹配片段的位置信息;2)去除参考基因组序列重复片段:根据参考基因组序列与样本序列相似性的RGB图像和参考基因组序列自身相似性图像中的匹配片段相对于参考基因组序列的坐标位置,在参考基因组序列自身相似性图像寻找中与参考基因组序列与样本序列的相似性RGB图像中的片段相对应的片段,若找到对应片段则将其从参考基因组序列与样本序列相似性的RGB图像中移除,得到结构变异特征序列相似性图像。4.根据权利要求1所述的模型非依赖的基因组结构变异检测方法,其特征在于,步骤3具体包括:1)单个结构变异分割:按主要片段在参考基因组序列上的顺序,在结构变异特征序列相似性图像中组合相邻的两主要片段,得到只包含单个结构变异的子图像;2)结构变异图像多目标分割:按照主要片段和次要片段在结构变异特征序列上的坐标
进行排序,根据排序结果两两组合子图像中的所有片段,将主要片段和次要片段的组合作为感兴趣片段。5.根据权利要求1所述的模型非依赖的基因组结构变异检测方法,其特征在于,步骤4中所述结构变异检测CNN模型训练方法具体包括:1)构建结构变异训练数据集:真实数据利用1000Genome Project中的2500个样本的结构变异特征序列作为训练数据,虚拟数据利用VISOR虚拟无噪声干扰的训练样本作为训练数据,两者共同组成训练数据集;2)训练数据集编码:采用步骤2所述方法对训练数据集中的训练数据进行编码,得到训练数据集的感兴趣片段;3)模型训练:将训练数据集输入卷积神经网络,训练卷积神经网络,训练完成后得到结构变异检测CNN模型。6.根据权利要求1所述的模型非依赖的基因组结构变异检测方法,其特征在于,步骤4中,使用事先训练好的结构变异检测CNN模型对包含单个结构变异的子图像中的所有感兴趣片段进行识别,得到复杂结构变异片段;对复杂结构变异片段使用图数据结构进行系统性表征和分类,具体是:通过结构变...
【专利技术属性】
技术研发人员:叶凯,蔺佳栋,王松渤,杨晓飞,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。