本发明专利技术涉及医学分子生物学技术领域,特别涉及一种用于提高二代测序检测准确度的方法,本发明专利技术所提供的一种用于提高二代测序检测准确度的方法,利用生物信息学方法生成针对不同panel的易发生嵌合区域的黑名单,并设置过滤原则,仅将位于嵌合区域的突变进行过滤,捞回不处于嵌合区域的突变,提高检测的灵敏度和准确度。确度。确度。
【技术实现步骤摘要】
一种用于提高二代测序检测准确度的方法
[0001]本专利技术涉及医学分子生物学
,特别涉及一种用于提高二代测序检测准确度的方法。
技术介绍
[0002]二代测序基于短读长、高通量测序平台,对于肿瘤DNA检测来说,先要进行DNA的片段化,片段化最经典的方法是基于超声破碎的机械打断法。但由于超声条件较为剧烈,会引起DNA损伤,一些DNA会形成局部单链,在修复酶和聚合酶的综合作用下,生成嵌合reads。一些嵌合reads在生成过程中会引入由于不配对而产生的人为突变。在常规生信过滤过程中,由于考虑到嵌合reads会引入人为突变,会将嵌合reads整体剔除,不再进行后续分析。现有的数据过滤方法,存在以不足:(1)笼统将嵌合reads全部去除,会丢到真实发生突变,造成灵敏度下降及检测频率不准确;(2)低质量样本中存在大量嵌合reads,全部删除会造成检测深度低,假阴性风险。
技术实现思路
[0003]针对上述
技术介绍
的不足,本专利技术提供了一种用于提高二代测序检测准确度的方法,通过建立黑名单的方式,过滤二代测序文库中人为引入的突变,提高检测准确度。
[0004]一种用于提高二代测序检测准确度的方法,包括以下步骤:S1. 对样品进行基因靶向测序,获取原始fastq文件;S2. 对原始fastq文件进行数据控制,筛除低质量数据;S3. 将质控后的fastq文件比对参考基因组获得bam文件,对bam文件进行数据过滤,去除重复序列;S4. 基于黑名单进行数据过滤,将样本中嵌合read上的阳性突变检出;过滤条件为:当黑名单中的位点若突变频率小于等于10%将被过滤,大于10%则保留。
[0005]进一步地,S2中数据控制具体为:去除接头序列、去除低质量数据、去除过短reads。
[0006]进一步地,S3中所述参考基因组序列为hg19。
[0007]进一步地,S3中采用Picard软件进行重复序列去除,然后用Vardict软件去识别SNV变异。
[0008]进一步地,S3中黑名单采用以下方法确定:S41.比对参考基因组获得bam文件,向上下游各延伸50bp,作为寻找IVS的参考序列;S42.将这些参考序列进行分割,得到n=∑[(L
‑
K) + 1]个子序列,其中,L是延伸后的参考序列长度,K是IVS区域一半的长度,范围是2~L/2;S43.用reverseq函数生成这些子序列的反向互补序列;S44.将子序列在相邻200 bp内随机与反向互补序列比对,将比对上的序列包括中
间的间隔序列生成IVS列表;S45.使用mergeLong函数,将重叠的IVS区域进行合并,并且在IVS区域中判断是否存在不匹配位点。
[0009]进一步地,所述S41中参考基因组序列为hg19。
[0010]进一步地,所述S44中IVS区域≥8bp。
[0011]进一步地,S45中判断条件为:若不存在不匹配位点则丢弃该IVS区域,若存在不匹配位点且该位点距离IVS两端的距离均≥2bp,则将该IVS区域加入到黑名单区域。
[0012]进一步地,生成的黑名单区域进一步限定如下:反向互补序列之间的核酸的数量≤50 bp;单个倒置重复序列≥8bp;不匹配位点距离倒置重复两个端点距离分别≥2bp。
[0013]有益效果:本专利技术所提供的一种用于提高二代测序检测准确度的方法,利用生物信息学方法生成针对不同panel的易发生嵌合区域的黑名单,并设置过滤原则,仅将位于嵌合区域的突变进行过滤,捞回不处于嵌合区域的突变,提高检测的灵敏度和准确度。
附图说明
[0014]图1为本专利技术的黑名单建立流程图;图2为嵌合reads与突变IGV展示图;图3为两种反向互补配对方式图;图4为链内反向互补引入突变机制图;图5为链间反向互补引入突变图;图6为黑名单过滤前后检出突变数量对比图;图7为黑名单位点突变频率统计图;图8为嵌合read检出阳性突变统计图。
具体实施方式
[0015]为使本领域技术人员更好的理解本专利技术的技术方案,下面结合具体实施方式及附图对本专利技术作详细说明。下列实施例中未注明具体条件的实验方法,通常按照常规条件或按照制造厂商所建议的条件。下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。除非另外说明,否则百分比和份数按重量计算。除非另行定义,文中所使用的所有专业与科学用语与本领域熟练人员所熟悉的意义相同。此外,任何与所记载内容相似或均等的方法及材料皆可应用于本专利技术中。文中所述的较佳实施方法与材料仅作示范之用。
[0016]专利技术人通过7000余例样本总结嵌合reads发生规律,发现嵌合reads发生概率随样本降解程度的升高而升高,并且嵌合reads附近常有规律性突变发生。总结这些位点特征,发现这类位点是位于相隔不远的两个可部分反向互补配对的序列中的不配对序列(如图2所示),推测为打断过程中形成了局部单链,由于存在两个间隔不远的反向配对序列,所以可以形成链内反向互补配对(如图3A所示),或者链间配对(如图3B所示);经过修复过程产生了嵌合reads,机制如图4
‑
5所示,由于配对区存在不匹配,所以在复制过程中,会以分别以1条链做模板,形成携带突变或者不携带突变的嵌合reads;专利技术人将这种含有不完全匹配的可链内互补的区域命名为间隔反向重复序列
(inverted repeat sequences,IVS),故生成针对不同panel的易发生嵌合区域的黑名单,并设置过滤原则,仅将位于嵌合区域的突变进行过滤,捞回不处于嵌合区域的突变。
[0017]实施例1 黑名单的建立根据IVS的特征,以1123个基因大panel(约2 Mb区域)为例,生成黑名单位点。首先将给定的panel的bed区间参考人基因组序列,向上下游各延伸50bp,作为寻找IVS的参考序列;然后人为将这些序列进行分割,得到n=∑[(L
‑
K) + 1]个子序列(Kmer),其中,L是延伸后的参考序列长度,K是IVS区域一半的长度,范围是2~L/2;然后用reverseq函数生成这些Kmer序列的反向互补序列;将Kmer序列在相邻200 bp内随机与反向互补序列比对,将比对上的序列包括中间的间隔序列生成IVS列表,IVS区域需要≥8bp。使用mergeLong函数,将重叠的IVS区域进行合并,并且在IVS区域中判断是否存在不匹配位点。若不存在不匹配位点则丢弃该IVS区域,若存在不匹配位点且该位点距离IVS两端的距离均大于等于2bp,则加入到黑名单中,对生成后的黑名单又做了如下限定:反向互补序列之间的核酸的数量≤50 bp;单个倒置重复序列≥8bp;不匹配位点距离倒置重复两个端点距离分别≥2bp,形成最终的黑名单。
[0018]实施例2 单个样本数据提取及检测使用KAPA机械打断法试剂盒进行DNA NGS文库构建、杂交捕获上机、测序。对原始结果进行质控、去除接头序列、去除低质量数据、去除过短reads;然后将数据与人基因组进行比对,用本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于提高二代测序检测准确度的方法,其特征在于包括以下步骤:S1. 对样品进行基因靶向测序,获取原始fastq文件;S2. 对原始fastq文件进行数据控制,筛除低质量数据;S3. 将质控后的fastq文件与参考基因组比对获得bam文件,对bam文件进行数据过滤,去除重复序列;S4. 基于黑名单进行数据过滤,将样本中嵌合read上的阳性突变检出;过滤条件为:当黑名单中的位点若突变频率小于等于10%将被过滤,大于10%则保留。2.根据权利要求1所述的一种用于提高二代测序检测准确度的方法,其特征在于:S2中数据控制具体为:去除接头序列、去除低质量数据、去除过短reads。3.根据权利要求1所述的一种用于提高二代测序检测准确度的方法,其特征在于,S3中所述参考基因组的序列为hg19。4.根据权利要求1所述的一种用于提高二代测序检测准确度的方法,其特征在于,S3中采用Picard软件进行重复序列去除,然后用Vardict软件去识别SNV变异。5.根据权利要求1所述的一种用于提高二代测序检测准确度的方法,其特征在于S4中黑名单采用以下方法确定:S41.将质控后的fastq文件与参考基因组比对获得bam文件,向上下游各延伸50bp,作为寻找IVS的参考序列;S42.将这些参考序列进行分割,得到n=∑[(L<...
【专利技术属性】
技术研发人员:王冰,陈慧娟,张怡然,商宇红,舒迎霜,蔡丽丽,周启明,
申请(专利权)人:北京求臻医学检验实验室有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。