基于三代测序数据检测点突变的分析方法和装置制造方法及图纸

技术编号:32199520 阅读:8 留言:0更新日期:2022-02-08 16:05
本发明专利技术提供了基于三代测序数据检测点突变的分析方法和装置。本发明专利技术的分析方法包括:1)提取包含待检测的点突变的第一序列子集;2)从第一序列子集中提取种子序列,获得第二序列子集;3)获得具有期望质量的原始数据集;4)使用第二序列子集的种子序列对,获得N个包含目的序列的数据集;5)对N个包含目的序列的数据集进行点突变检测分析;6)对N个检测结果中的每个点突变的结果分配权重W;7)根据公式计算点突变结果及其频率。本发明专利技术还提供了一种基于三代测序数据检测点突变的装置。使用本发明专利技术的方法,不仅从数据特征上有效地规避随机indel或较高测序错误导致的比对率不高引起的假阴性的问题,同时能更有效地控制假阳性的结果。同时能更有效地控制假阳性的结果。同时能更有效地控制假阳性的结果。

【技术实现步骤摘要】
基于三代测序数据检测点突变的分析方法和装置


[0001]本专利技术属于测序技术和测序数据的生物信息技术分析领域,尤其涉及一种基于三代测序数据检测点突变的方法,本专利技术还涉及基于三代测序数据检测点突变的装置和系统。

技术介绍

[0002]点突变指只有一个碱基对发生改变。广义点突变可以是碱基替换,单碱基插入或碱基缺失;狭义点突变也称作单碱基替换(base substitution)。碱基替换又分为转换(transitions)和颠换(transversions)两类。目前常见的检测基因点突变的方法有PCR法、Sanger测序法(一代测序)和二代测序。PCR法具有敏感性高的特点,且技术已经成熟,但每对引物只能检测一种突变,无法同时检测太多样品和位点,通量较低。Sanger测序法的成本较低,但所需样品用量大,且对低频突变的检测敏感性低。二代测序具有通量高的特点,测序成本也在逐年下降,但目前检测点突变常用的方法工具检测特异性不高(如Varscan),对低频的检测敏感性也偏低(如Mutect),或者使用了局部组装步骤导致运行时间过长(如Mutect2),不能很好地满足点突变检测的需求。
[0003]第三代测序技术,又称三代测序技术(Third generation sequencing)或单分子实时DNA测序技术,是一种在DNA测序时,不需要经过PCR扩增即可实现对每一条DNA分子的单独测序的技术。目前第三代测序技术原理主要分为以Pacbio的SMRT技术为代表的单分子荧光测序以及以牛津纳米孔公司和齐碳科技公司的纳米孔电泳技术为代表的纳米孔测序。三代测序的主要的技术特点之一是实现了DNA聚合酶内在自身的反应速度,一秒可以测10个碱基,测序速度是化学法测序的2万倍;其二是实现了DNA聚合酶内在自身的延续性,一个反应就可以测非常长的序列;二代测序可以测到上百个碱基,但是三代测序就可以测几千个碱基。进一步地,三代测序对DNA或RNA分子进行实时测序时无需进行PCR扩增或化学标记,避免在操作过程中引入的错误突变,高度保真,并且测序速度可以达到DNA为450bp/秒,RNA为70nt/秒,整体可以达到几兆碱基级别的超长读长。
[0004]目前基于三代测序检测点突变(包含胚系突变以及体细胞突变)的方法还不是很成熟,但全球范围内已经有一些研究课题组致力于开发一些算法来精确识别三代测序数据中的点突变(SNV和InDel),例如发表于Nature Communications杂志上的加利福尼亚大学开发的结合隐马尔可夫链模型的Longshot方法(DOI: 10.1038/s41467

019

12493

y),发表于Nature Machine Intelligence杂志上的香港大学开发的结合深度神经网络模型的Clair方法(doi: https://doi.org/10.1038/s42256

020

0167

4),公开于bioRxiv上基于google团队的DeepVariant开发优化的PEPPER

Margin

DeepVariant方法(doi: https://doi.org/10.1101/2021.03.04.433952)等。这些研究成果不仅仅丰富了基于三代测序数据的突变检测手段,更重要的是为三代测序的广阔发展及广泛的实际应用提供了技术保障。
[0005]然而,当前基于三代测序检测点突变在方法上还存在很大的挑战和问题。众所周知,三代测序的数据在单碱基识别的精准度上还存在一些问题,造成该问题的因素有很多,
比如样本质量,电流通过“motor”蛋白的稳定性及basecalling模型的精确度等,最终体现在数据层面上就是测序质量不高或测序错误的现状以及随机indel分布等的数据特征。故在基于三代测序的数据分析中,如何稳定地检出点突变并且还能较好地控制假阳性及假阴性的检测结果就显得尤为重要,其对检测算法的灵敏度及特异性的要求也提出了巨大的挑战。虽然现阶段有一些基于三代测序数据开发的检测点突变的方法(如上所述),但各自的缺点也非常明显,最主要的就是受限于测序质量以及依赖的比对算法或深度学习训练集的数据分布等,并且适用场景并不够广泛,鲁棒性(robust)不足。
[0006]因此,对现有的基于三代测序数据检测点突变的分析方法进行进一步的改进,使其在稳定地检出点突变的同时,还能较好地控制假阳性及假阴性的问题,具有非常重要的意义。

技术实现思路

[0007]因此,本专利技术的目的是针对现有技术的不足,提供一种基于三代测序数据检测点突变的分析方法,本专利技术提供的方法能够在数据分析层面上良好地解决了上述问题,不仅从数据特征上较为有效地规避掉随机indel或较高测序错误导致的比对率不高导致的假阴性的问题,同时设计结合碱基在测序序列位置上的“中间较准,两边较差”的理论观点、数据分析层面上的分子生物标签(UMI/UID)思想以及“权重”统计的方法对检测结果进行整体评估、纠错及矫正,更加有效地控制了假阳性的结果。
[0008]本专利技术的目的是通过以下技术方案实现的:一方面,本专利技术提供了一种基于三代测序数据检测点突变的分析方法,所述方法包括以下步骤:1)从参考基因组中提取包含待检测的点突变的第一序列子集;在所述参考基因组上进行固定长度L的短序列提取N次,所述短序列之间满足待检测的点突变在提取后的短序列上的位置与其在前一次提取的短序列上的位置之间具有固定距离D,;其中,N、D、L均为整数;最终得到第一序列子集,其包含N个含有待检测的点突变的短序列;2)从步骤1)的第一序列子集中提取种子序列,提取位置为每条短序列的首尾端各M个碱基,得到第二序列子集,其包含N对长度为M的种子序列,所述种子序列中不含待检测的点突变;3)对原始三代测序数据预处理,获得具有期望质量的原始数据集;4)使用步骤2)获得的第二序列子集的种子序列对从步骤3)得到的原始数据集中提取目的序列,获得N个包含目的序列的数据集;5)分别对步骤4)的N个包含目的序列的数据集进行点突变检测分析,得到N个结果;其中,每个结果包括待检测的位点的突变频率F,点突变的reads支持数AO,点突变位置的测序深度DP;6)对步骤5)的N个检测结果中的每个点突变的结果分配权重W;7)根据公式计算点突变结果及其频率;
若F
correct
≥1%,则为阳性,反之为阴性。
[0009]根据本专利技术所述的方法,其中,在步骤1)中,D表示在任意提取的序列中,点突变所处的位置之间的碱基距离。所述固定距离D可以为大于1的任意整数,不限于任何特定的理论,但是优选地距离D设置为;无需任何理论的限制,本领域技术人员可以任选地设置D的数值,例如设置为5≤D≤20,8≤D≤15等,例如D可以为5到20之间的任意整数。
[0010]本领域技术人员可以理解的是,如果第一次提取的短序列中,待检测的点突变在短序列上的位置为D0,则第X本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于三代测序数据检测点突变的分析方法,所述方法包括以下步骤:1)从参考基因组中提取包含待检测的点突变的第一序列子集;在所述参考基因组上进行固定长度L的短序列提取N次,所述短序列之间满足待检测的点突变在提取后的短序列上的位置与其在前一次提取的短序列上的位置之间具有固定距离D,并且,其中,N、D、L均为整数,最终得到第一序列子集,其包含N个含有待检测的点突变的短序列;2)从步骤1)的第一序列子集中提取种子序列,提取位置为每条短序列的首尾端各M个碱基,得到第二序列子集,其包含N对长度为M的种子序列;3)对原始三代测序数据预处理,获得具有期望质量的原始数据集;4)使用步骤2)获得的第二序列子集的种子序列对从步骤3)得到的原始数据集中提取目的序列,获得N个包含目的序列的数据集;5)分别对步骤4)的N个包含目的序列的数据集进行点突变检测分析,得到N个结果;其中,每个结果包括待检测的位点的突变频率F,点突变的reads支持数AO,点突变位置的测序深度DP;6)对步骤5)的N个检测结果中的每个点突变的结果分配权重W;7)根据公式计算点突变结果及其频率;若F
correct
≥1%,则为阳性,反之为阴性。2.根据权利要求1所述的方法,其中,在步骤1)中,。3.根据权利要求1所述的方法,其中,在步骤1)中,第一次提取的短序列中,待检测的点突变在短序列上的位置为D0,第X次提取时,所述点突变在该提取短序列中的位置L
x
满足L
x
=D0+(X

1)D;其中,。4.根据权利要求1所述的方法,其中,L为76

151bp。5.根据权利要求1所述的方法,其中,在步骤2)中,M≥5。6.根据权利要求1所述的分析方法,其中,在步骤3)中,对原始三代测序数据进行数据预处理,包括过滤低质量以及过短的测序reads;其中,所述低质量的阈值为Q5;和/或过短的测序reads的序列长度阈值为100bp。7.根据权利要求1所述的分析方法,其中,在步骤4)中,所述目的序列的长度L

≤L+50。8.根据权利要求1所述的分析方法,其中,在步骤5)中,所述分析使用GATK Best Practice分析流程。9.根据权利要求1所述的分析方法,其中,在步骤6)中,对N个检测结果中的每个点突变的结果分配权重,包括:权重W1至W
n
的总和为1;和在步骤1)中获得的N条短序列中,点突变在所述短序列的固定长度L上的位置越邻近中间,与所述短序列相关的检测结果分配的权重越大。
10.根据权利要求9所述的分析方法,其中,在步骤6)中,对N个检测结果中的每个点突变的结果分配权重,其中,N为偶数时,第个和第个和第个数据集具有最大的权重W
n/2
=W
n/2+1
,然后W
n
=W1,W
n
‑1=W2,W
n
‑2=W3,以此类推;其中,N为奇数时,第个数据集具有最大的权重W
n+1/2
,然后W
n
=W1,W
n
‑1=W2,W
n
‑2=W3,以此类推。11.一种基于三代测序数据检测点突变的分析方法,所述方法包括以下步骤:1)从参考基因组中提取包含待检测的点突变的第一序列子集;在所述参考基因组上进行固定长度L的短序列提取N次,第一次提...

【专利技术属性】
技术研发人员:郎继东孙继国
申请(专利权)人:成都齐碳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1