基于二代测序技术的循环肿瘤DNA融合检测方法技术

技术编号：32200018 阅读：20 留言：0更新日期：2022-02-08 16:06

本发明专利技术涉及基因检测领域，具体涉及一种基于二代测序技术的循环肿瘤DNA融合检测方法。本发明专利技术提供了一种基于分割序列的基因融合检测方法，其在计算的整个过程中不涉及序列的拼装，有利于节省运行速度；在采用序列

全部详细技术资料下载

【技术实现步骤摘要】
基于二代测序技术的循环肿瘤DNA融合检测方法

[0001]本专利技术涉及基因检测领域，具体涉及一种基于二代测序技术的循环肿瘤DNA融合检测方法。

技术介绍

[0002]早在1948年，Mandel和M
é
tais首次报道了人体血液中游离核苷酸（cfNA）的存在。在报道初期并未引起科学家们对cfNA存在的重视，直到在1994年一篇关于癌症患者的血液中检测到了RAS基因的突变，人们才意识到了cfDNA的重要性。随着细胞游离DNA （cell
‑
free DNA）在癌症患者的血液中被检测到了微卫星体变异，在过去的十几年中研究人员对于癌症病人血液中cfNAs (DNA, mRNA, microRNAs)研究的大量投入，cfDNA的潜在研究价值越来越显著。
[0003]液体活检(Liquid Biopsy)与传统的组织活检相比有着迅速、便捷、损伤性小等众多优点。临床医生可以用它来监测肿瘤对治疗的反应，预测肿瘤复发。从长远角度来看，液体活检还能够帮助医生在患者未出现任何症状的时候发现最初期的肿瘤。同时cfDNA的含量水平不单单只反映肿瘤生长进展，也可以在正常人体内呈现相关的波动性变化。一般来说，恶性肿瘤患者cfDNA的含量高于无肿瘤患者，但是人们依旧可以在良性病变、炎症、组织创伤中进行定量化来进行区分。到现今为止，是什么生理因素的改变导致癌症的发生和进展依旧没有研究彻底，但是可以通过对循环肿瘤细胞游离DNA（ctDNA）的研究就能对肿瘤的发生及其进展进行监测，了解其相关突变基因。此外，...

【技术保护点】

【技术特征摘要】
1.一种基于二代测序技术的检测融合基因的方法，其特征在于，包括：将测序序列与参考基因组进行比对，得到原始BAM文件，去除重复序列和比对到多个位置上的序列后，得到用于进一步检测的最终BAM文件；从最终的BAM文件中，提取包含软截断的读段，按照读段断裂的坐标和方向拆分成不同的读段组；将同一个读段组的读段进行两两比较，去除长度过短、与读段组其余读段序列相似性过低、或包含重复序列的读段，并进一步提取与其余读段匹配度最高的一条读段进行下一步的检测，将此时读段组的读段数作为支持变异的读段数；将上一步提取出的读段序列软截断部分重新比对到参考基因组上，若比对打分过低或重新比对到的基因组位置与原序列比对到的基因组位置过近，则不进行下一步的检测；将原序列比对坐标和软截断比对坐标进行注释；将原序列比对坐标对应的深度做为深度，支持变异的读段数与深度的比值做为变异频率，同时输出到结果文件中。2.根据权利要求1所述的基于二代测序技术的检测融合基因的方法，其特征在于，所述包含软截断的读段的提取及分组具体包括：根据每条测序读段的cigar信息，确定测序读段的比对模式，若测序序列没有软截断，则cigar的模式为“M”，若测序序列左侧有软截断，则cigar的模式为“SM”，若测序序列右侧有软截断，则cigar的模式为“MS”，将携带软截断的测序序列的原比对染色体、坐标做为key，软截断部分的序列做为value读入一个哈希表中，该哈希表同时保留测序序列的正负链和软截断部分的测序碱基质量信息。3.根据权利要求1或2所述的基于二代测序技术的检测融合基因的方法，其特征在于，所述将同一个读段组的读段进行两两比较具体包括：（1）提取读段组与其余读段匹配度最高的一条读段，假设读段的长度为L，则从原读段的断裂处按照1个碱基的步长，提取L条序列，按照下列规则对这些序列进行数字转换：S1、构建二进制序列：根据一条读段分别按A、T、C、G构建4条二进制序列，用1代表和读段上相同的碱基，用0代表和读段上不同的碱基，对于每一种碱基得到一条长度为L的二进制序列；然后按照A、T、C、G的顺序将4条长度为L的二进制序列连接在一起，得到1条长度为4L的二进制序列；S2、首先设置二阶矩阵代表1，二阶矩阵代表0；其次用上一步得到的4L二进制序列的顺序，依次做矩阵的乘法，最后得到一个二阶的矩阵，使用该二阶矩阵，左乘权重矩阵，得到最终的矩阵，计算该矩阵的迹，将其定义为该序列的“序列数字”；计算出L个序列数字，将其存入一个数组；（2）设置变量T和F的初始值分别为0，依次遍历原读段比对到同一坐标的剩余软截断序列，分别计算其序列数字，看是否存在于数组中，如存在则T加1，如不存在则F加1；遍历完成后，比较数值T和F，如T大于阈值且大于F的设定阈值的倍数，则认为这一组的软截断序列通过过滤，并将长度最长的这条测序序列的原比对位置和T值做为ID，将序列及测序质量输出；其中，T值即为支持变异的序列数。
4.根据权利要求1或2所述的基于二代测序技术的检测融合基因的方法，其特征在于，...

【专利技术属性】
技术研发人员：姬晓勇，汪彦荣，潘晓西，高司航，王欢欢，伍启熹，王建伟，
申请(专利权)人：北京优迅医疗器械有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人