基于二代测序技术的循环肿瘤DNA融合检测方法技术

技术编号:32200018 阅读:20 留言:0更新日期:2022-02-08 16:06
本发明专利技术涉及基因检测领域,具体涉及一种基于二代测序技术的循环肿瘤DNA融合检测方法。本发明专利技术提供了一种基于分割序列的基因融合检测方法,其在计算的整个过程中不涉及序列的拼装,有利于节省运行速度;在采用序列

【技术实现步骤摘要】
基于二代测序技术的循环肿瘤DNA融合检测方法


[0001]本专利技术涉及基因检测领域,具体涉及一种基于二代测序技术的循环肿瘤DNA融合检测方法。

技术介绍

[0002]早在1948年,Mandel和M
é
tais首次报道了人体血液中游离核苷酸(cfNA)的存在。在报道初期并未引起科学家们对cfNA存在的重视,直到在1994年一篇关于癌症患者的血液中检测到了RAS基因的突变,人们才意识到了cfDNA的重要性。随着细胞游离DNA (cell

free DNA)在癌症患者的血液中被检测到了微卫星体变异,在过去的十几年中研究人员对于癌症病人血液中cfNAs (DNA, mRNA, microRNAs)研究的大量投入,cfDNA的潜在研究价值越来越显著。
[0003]液体活检(Liquid Biopsy)与传统的组织活检相比有着迅速、便捷、损伤性小等众多优点。临床医生可以用它来监测肿瘤对治疗的反应,预测肿瘤复发。从长远角度来看,液体活检还能够帮助医生在患者未出现任何症状的时候发现最初期的肿瘤。同时cfDNA的含量水平不单单只反映肿瘤生长进展,也可以在正常人体内呈现相关的波动性变化。一般来说,恶性肿瘤患者cfDNA的含量高于无肿瘤患者,但是人们依旧可以在良性病变、炎症、组织创伤中进行定量化来进行区分。到现今为止,是什么生理因素的改变导致癌症的发生和进展依旧没有研究彻底,但是可以通过对循环肿瘤细胞游离DNA(ctDNA)的研究就能对肿瘤的发生及其进展进行监测,了解其相关突变基因。此外,循环miRNAs最近也被证明是潜在的癌症生物标记物。
[0004]癌症治疗手段多种多样,包括放疗、化疗以及新兴的靶向治疗和免疫治疗;其中,靶向治疗是精准医学的重要组成,而对于靶向基因特异性人群的筛选尤为重要,癌症的基因检测直接关系到药物对于患者的治疗效率。目前,用于检测的主要样本类型是肿瘤组织或穿刺样本;但是组织样本均为有创操作,有时难以实施,且这些操作受肿瘤大小、部位、患者一般情况等影响,有时不能取得满意的组织,存在一系列的局限性。肿瘤细胞坏死及脱落的肿瘤细胞进入血液后凋亡释放ctDNA进入外周血。近些年血浆游离肿瘤DNA(ctDNA)被认为是一种可检测肿瘤特异性改变的样本。
[0005]ctDNA用于肿瘤突变检测优势在于:操作无创或微创;在疾病的任一进程中都可获取;可以作为一种肿瘤标记物,实现实时检测和动态检测;克服肿瘤组织的异质性。然而,目前使用ctDNA检测基因突变仍有一些技术上的挑战,主要表现为:1)ctDNA含量因人而异,并且大多数人含量较低;2)ctDNA片段相对小,大部分约为180bp,片段分布在100bp~400bp;3)ctDNA中肿瘤相关的DNA所占比例不同人差别较大,并且常因比例小而难以测出。这些限制了ctDNA在肿瘤检测中的广泛应用,因此,高效的便捷的ctDNA的提取是影响ctDNA在肿瘤检测中广泛应用的重要因素。
[0006]现有检测循环肿瘤DNA突变的方法有很多,但基于二代测序的方法应用最多,检测手段也最为丰富。在基于二代测序的方法中最为主要的技术实现手段有两种:一种为高深
度测序的目标区域捕获或扩增方法,另一种为加分子条形码或分子标签的建库测序方法。这两种方法在实验上依据常规二代测序建库方法,不仅可以有效的检测到样本循环肿瘤DNA的高频突变,而且还能有效地检测到低频甚至超低频突变(>=0.1%)。
[0007]基因融合在基因组中是普遍存在的,它是由两个不相关的基因发生了染色体易位、中间缺失或染色体倒置形成一个新基因的过程。诸多研究表明,基因融合与各种疾病,特别是癌症的发生发展紧密相关,甚至是一些癌症的直接诱因,所以基因融合也成为了当前组学大数据分析中的一项重要研究内容。因此,基因融合可能与各种癌症的发生发展紧密相关,这些融合基因还可能是潜在的药物靶点,非常有必要对它们进行深入的研究。
[0008]目前结构变异检测软件计算的结果断点坐标准确度低,然而进行验证实验时,不仅需要知道精准的断裂位置,以方便后续的引物设计;而且多数需要序列组装。同时,目前结构变异检测软件还存在检测速度慢、资源要求高等特点。

技术实现思路

[0009]本专利技术的目的是提供一种基于分割序列的融合检测方法,可以提供准确的断点坐标,且不需要进行序列拼装,从而提高融合检测的运行速度。
[0010]具体而言,本专利技术首先提供一种基于二代测序技术的检测融合基因的方法,其包括:将测序序列与参考基因组进行比对,得到原始BAM文件,去除重复序列和比对到多个位置上的序列后,得到用于进一步检测的最终BAM文件;;从最终的BAM文件中,提取包含软截断的读段,按照读段断裂的坐标和方向拆分成不同的读段组;将同一个读段组的读段进行两两比较,去除长度过短、与读段组其余读段序列相似性过低、或包含重复序列的读段,并进一步提取与其余读段匹配度最高的一条读段进行下一步的检测,将此时读段组的读段数作为支持变异的读段数;将上一步提取出的读段序列软截断部分重新比对到参考基因组上,若比对打分过低或重新比对到的基因组位置与原序列比对到的基因组位置过近,则不进行下一步的检测;将原序列比对坐标和重新比对坐标进行注释;将原序列比对坐标对应的深度做为深度,支持变异的读段数与深度的比值做为变异频率,同时输出到结果文件中。
[0011]作为优选,所述包含软截断的读段的提取及分组具体包括:根据每条测序读段的cigar信息,确定测序读段的比对模式,若测序读段没有软截断,则cigar的模式为“M”,若测序读段左侧有软截断,则cigar的模式为“SM”,若测序读段右侧有软截断,则cigar的模式为“MS”,将携带软截断的测序读段的原比对染色体、坐标做为key,软截断部分的序列做为value读入一个哈希表中,该哈希表同时保留测序序列的正负链和软截断部分的测序碱基质量信息。
[0012]作为优选,所述将同一个读段组的读段进行两两比较具体包括:(1)提取读段组与其余读段匹配度最高的一条读段,假设读段的长度为L,则从原读段的断裂处按照1个碱基的步长,提取L条序列,按照下列规则对这些序列进行数字转换:S1、构建二进制序列:根据一条读段分别按A、T、C、G构建4条二进制序列,用1代表
和读段上相同的碱基,用0代表和读段上不同的碱基,对于每一种碱基得到一条长度为L的二进制序列;然后按照A、T、C、G的顺序将4条长度为L的二进制序列连接在一起,得到1条长度为4L的二进制序列;S2、首先设置二阶矩阵代表1,二阶矩阵代表0;其次用上一步得到的4L二进制序列的顺序,依次做矩阵的乘法,最后得到一个二阶的矩阵,使用该二阶矩阵,左乘权重矩阵,得到最终的矩阵,计算该矩阵的迹,将其定义为该序列的“序列数字”;计算出L个序列数字,将其存入一个数组;(2)设置变量T和F的初始值分别为0,依次遍历原读段比对到同一坐标的剩余软截断序列,分别计算其序列数字,看是否存在于数组中,如存在则T加1,如不存在则F加1;遍历完成后,比较数值T和F,如T大本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于二代测序技术的检测融合基因的方法,其特征在于,包括:将测序序列与参考基因组进行比对,得到原始BAM文件,去除重复序列和比对到多个位置上的序列后,得到用于进一步检测的最终BAM文件;从最终的BAM文件中,提取包含软截断的读段,按照读段断裂的坐标和方向拆分成不同的读段组;将同一个读段组的读段进行两两比较,去除长度过短、与读段组其余读段序列相似性过低、或包含重复序列的读段,并进一步提取与其余读段匹配度最高的一条读段进行下一步的检测,将此时读段组的读段数作为支持变异的读段数;将上一步提取出的读段序列软截断部分重新比对到参考基因组上,若比对打分过低或重新比对到的基因组位置与原序列比对到的基因组位置过近,则不进行下一步的检测;将原序列比对坐标和软截断比对坐标进行注释;将原序列比对坐标对应的深度做为深度,支持变异的读段数与深度的比值做为变异频率,同时输出到结果文件中。2.根据权利要求1所述的基于二代测序技术的检测融合基因的方法,其特征在于,所述包含软截断的读段的提取及分组具体包括:根据每条测序读段的cigar信息,确定测序读段的比对模式,若测序序列没有软截断,则cigar的模式为“M”,若测序序列左侧有软截断,则cigar的模式为“SM”,若测序序列右侧有软截断,则cigar的模式为“MS”,将携带软截断的测序序列的原比对染色体、坐标做为key,软截断部分的序列做为value读入一个哈希表中,该哈希表同时保留测序序列的正负链和软截断部分的测序碱基质量信息。3.根据权利要求1或2所述的基于二代测序技术的检测融合基因的方法,其特征在于,所述将同一个读段组的读段进行两两比较具体包括:(1)提取读段组与其余读段匹配度最高的一条读段,假设读段的长度为L,则从原读段的断裂处按照1个碱基的步长,提取L条序列,按照下列规则对这些序列进行数字转换:S1、构建二进制序列:根据一条读段分别按A、T、C、G构建4条二进制序列,用1代表和读段上相同的碱基,用0代表和读段上不同的碱基,对于每一种碱基得到一条长度为L的二进制序列;然后按照A、T、C、G的顺序将4条长度为L的二进制序列连接在一起,得到1条长度为4L的二进制序列;S2、首先设置二阶矩阵代表1,二阶矩阵代表0;其次用上一步得到的4L二进制序列的顺序,依次做矩阵的乘法,最后得到一个二阶的矩阵,使用该二阶矩阵,左乘权重矩阵,得到最终的矩阵,计算该矩阵的迹,将其定义为该序列的“序列数字”;计算出L个序列数字,将其存入一个数组;(2)设置变量T和F的初始值分别为0,依次遍历原读段比对到同一坐标的剩余软截断序列,分别计算其序列数字,看是否存在于数组中,如存在则T加1,如不存在则F加1;遍历完成后,比较数值T和F,如T大于阈值且大于F的设定阈值的倍数,则认为这一组的软截断序列通过过滤,并将长度最长的这条测序序列的原比对位置和T值做为ID,将序列及测序质量输出;其中,T值即为支持变异的序列数。
4.根据权利要求1或2所述的基于二代测序技术的检测融合基因的方法,其特征在于,...

【专利技术属性】
技术研发人员:姬晓勇汪彦荣潘晓西高司航王欢欢伍启熹王建伟
申请(专利权)人:北京优迅医疗器械有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1