一种基于mTag的靶向测序数据预处理的方法、设备和介质技术

技术编号:36933533 阅读:16 留言:0更新日期:2023-03-22 18:55
本发明专利技术公开了一种基于mTag的靶向测序数据预处理的方法、设备和介质,属于生物数据处理技术领域。所述方法包括将测序reads基于mTag序列进行分类,包含reads数量较少的mTag类别为第一类别,其余为第二类别,对于各第一类别中各read,基于差异碱基的质量值对其mTag序列进行修正并重新分类;进一步选择包含适当reads数量的mTag类别,并从各mTag类别中选择一条代表性序列。利用本发明专利技术的方法,可以对mTag进行修正,避免PCR过程中或测序过程中引入的错误,并且可以精准地选择合适的mTag类别,还可以精准地选择mTag类别中的代表性序列,使得测序数据利用率更高,检测灵敏度和特异性也更好。异性也更好。异性也更好。

【技术实现步骤摘要】
一种基于mTag的靶向测序数据预处理的方法、设备和介质


[0001]本专利技术属于生物数据处理
,具体地,涉及一种基于mTag的靶向测序数据预处理的方法、设备和介质。

技术介绍

[0002]下一代测序(Next

generation sequencing,NGS)又称为高通量测序(High

throughput sequencing),是基于PCR和基因芯片发展而来的边合成边测序技术。高通量测序技术的特点主要有:测序读长短,通量高,准确度高。高通量测序相比一代测序大幅降低了成本,同时保持了较高准确性,并且大幅降低了测序时间,目前高通量测序已经在全组学得到广泛应用。
[0003]高通量测序得到的原始图像数据经碱基识别(BaseCalling)转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ格式存储,其中包含测序序列(reads)信息以及其对应的测序质量信息。
[0004]FASTQ格式文件中每个read由四行描述,如下所示:@HWI

ST507:248:D29JDACXX:8:1101:1715:1919:1:1:0:ACTTGA/1NTAATATTGGGCTAGAAAGTATCTTTGGGATTGCATGTTTTGATGCAGAATCATTGTGCCGTAGAATGC+BPYccaceceggghhfhhhhhhhhhhffhfhhgfahhchhhhhhfhbfghh_gfhhhhgghefffhhhh其中第一行以“@”开头后跟Illumina测序标识符,包括机器型号、上机次数、试剂型号、第几个lane、在flowcell上的坐标、barcode等;第二行是碱基序列;第三行以“+”开头后跟Illumina测序标识符(为节省存储空间,部分fq文件会省略“+”后的信息);第四行是对应第二行碱基序列的质量值,是用来衡量测序准确度的,字符范围[B,h],对应质量范围[2,40]。第四行每个字符对应的ASCII值减去64,即为该碱基的测序质量值,例如h对应ASCII值为104,104

64=40。质量值越高,测序错误率越低。
[0005]在NGS过程中可能会出现PCR重复,虽然重复似乎是单独的reads,但它们实际上是由于PCR和测序过程中的错误导致的技术噪音。分子标签(mTag)技术是在文库制备过程中与DNA片段连接的随机短核苷酸序列。这些mTag序列充当唯一识别码,将每个reads标记为来自单个片段的扩增,为确定PCR重复提供了更准确的机制。但目前如何对针对PCR重复引入的分子标签技术进行去噪尚缺乏统一的标准和方法。

技术实现思路

[0006]为了解决上述技术问题中的至少一个,本专利技术采用的技术方案如下:本专利技术第一方面提供一种基于mTag的靶向测序数据预处理的方法,包括以下步骤:S1,mTag分类与修正:将测序reads基于mTag序列进行分类,包含reads数量小于第一阈值P1的mTag类别为第一类别,其余为第二类别,对于各第一类别中各read,基于其mTag
序列中与各第二类别的mTag序列的差异碱基的质量值对其mTag序列进行修正并重新分类;S2,mTag类别选择:选择包含reads数量大于或等于第二阈值P2的mTag类别;S3,代表序列选择:从S2选择的各mTag类别中选择一条代表性序列,其中,P1=3~5;P2=1~10。
[0007]在本专利技术中,靶向测序的测序reads包括接头序列、mTag序列及目标序列。在修正前,首先基于目标序列与参考基因组进行比对,过滤掉无法比对至目标区域的测序reads。
[0008]在本专利技术中,mTag即分子标签(molecule tag),也叫特异性分子标签(Unique Molecular Indentifier,UMI),是一段随机或固定或随机固定混合的核苷酸短序列,通常设计为完全随机的核苷酸序列(如NNNNNN),也可以设计为包含固定碱基和随机碱基的核苷酸序列(如NNNCNNNNGNNNN)。在靶向测序的文库构建过程中,mTag通过连接的方式导入,如同分子条形码一样特异性地标记每个模板。mTag通过给每一个原始DNA片段加上一段特有的核苷酸标签序列,经过文库构建及PCR扩增过程之后,一起进行测序。根据不同的mTag序列区分不同来源的DNA模板,可以分辨哪些是PCR扩增及测序过程中产生的随机错误造成的假阳性突变,哪些是患者真正携带的突变,从而提高检测的灵敏度和特异性。根据上述分子标签的原理可知,具有相同mTag的测序序列(read)来源于同一DNA模板,因为进行分类时归为一个mTag类别。理论上,不同DNA模板产生的reads数量不会相差太大,如果某个mTag类别包含的reads数量过低,例如低于上述第一阈值P1,有可能是由于PCR过程中产生的错误,导致mTag序列出错,因此需要修正。
[0009]在本专利技术中,第一阈值P1的选择与测序深度也有一定的关系,一般情况下,由于目的区域靶向测序更加经济高效,可以实现500~1000
×
,甚至更高的测序深度,本专利技术设定第一阈值P1=3~10,即包含reads数目低于所述第一阈值时,预设该mTag是由于PCR扩增引入的错误(噪声)或者由于测序错误引入。但是如果经过与第二类别的mTag对比,在综合考虑mTag序列差异碱基的质量值后无法进行修正,则相应的mTag类别可能真实来自某个模板,包含的reads数目少是由于PCR的偏好性导致的,该mTag类别需要被保留用于后续分析。
[0010]在本专利技术中,质量值表示测序质量值,用于衡量测序准确度,即质量值越高,表明测序的错误率越低。测序错误率用E表示,碱基质量值用Q表示,则有下列关系:Q=

10log10(E)若碱基的质量值为10,则错误率为10%;若碱基质量值为20,则错误率为1%;若碱基质量值为30,则错误率为0.1%。
[0011]在本专利技术的一些实施方案中,步骤S1中基于各第一分类中各read的mTag序列中与各第二类别的mTag序列的差异碱基的质量值对其mTag序列进行修正并重新分类的步骤具体包括:S11,将待修正的第一类别的mTag序列分别与各第二类别的mTag序列进行比对,找相似性最高的第二类别,针对所述待修正的第一类别中的各read分别进行修正:

如果该read的mTag序列与相似性最高的第二类别的mTag序列的差异碱基位于该第二类别的mTag序列的固定碱基位点,则无论该read的分子标签该差异碱基质量值如何,均修正为该第二类别的mTag序列相应位置上的碱基类型;对于一些捕获测序,引入的mTag序列可能全部是随机的序列,则无需根据本步骤进行修正;

如果该read的mTag序列与相似性最高的第二类别的mTag序列的差异碱基位于
该第二类别的mTag序列的随机碱基位点,并且该差异碱基的质量值小于第三阈值P本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于mTag的靶向测序数据预处理的方法,其特征在于,包括以下步骤:S1,mTag分类与修正:将测序reads基于mTag序列进行分类,包含reads数量小于第一阈值P1的mTag类别为第一类别,其余为第二类别,对于各第一类别中各read,基于其mTag序列中与各第二类别的mTag序列的差异碱基的质量值对其mTag序列进行修正并重新分类;S2,mTag类别选择:选择包含reads数量大于或等于第二阈值P2的mTag类别;S3,代表序列选择:从S2选择的各mTag类别中选择一条代表性序列,其中,P1=3~5;P2=1~10。2.根据权利要求1所述的一种基于mTag的靶向测序数据预处理的方法,其特征在于,步骤S1中修正并重新分类的步骤具体包括:S11,将待修正的第一类别的mTag序列分别与各第二类别的mTag序列进行比对,找相似性最高的第二类别,针对所述待修正的第一类别中的各read分别进行修正:

如果该read的mTag序列与相似性最高的第二类别的mTag序列的差异碱基位于该第二类别的mTag序列的固定碱基位点,则无论该read的分子标签该差异碱基质量值如何,均修正为该第二类别的mTag序列相应位置上的碱基类型;

如果该read的mTag序列与相似性最高的第二类别的mTag序列的差异碱基位于该第二类别的mTag序列的随机碱基位点,并且该差异碱基的质量值小于第三阈值P3,则将该差异碱基修正为该第二类别的mTag序列相应位置上的碱基类型,否则不进行修正;

若经步骤

~

进行修正后,该read的mTag序列与相似性最高的第二类别的mTag序列的差异碱基占mTag序列长度比例小于第四阈值P4,则无论差异碱基质量值如何,直接将差异碱基修正为该第二类别的mTag序列相应位置的碱基类型,否则该read的mTag序列所有碱基均不进行修正;

对于经步骤

~

无法完成修正的reads,利用相似性第二高的第二类别重复步骤

~

,直至与所有第二类别进行上述修正步骤后均无法完成修正,S12,基于修正后的mTag序列对reads重新进行分类,其中,P3=10~13;P4=10%~30%。3.根据权利要求1所述的一种基于mTag的靶向测序数据预处理的方法,其特征在于,所述第二阈值P2利用以下方法确定:S21,选择具有至少N个reads的mTag类别进行分析时,得到在n个样本中位点的均方根误差,均方根误差的计算公式如下:;其中,N为1~5的正整数;RMSE为均方根误差,为第个样本中位点的观察频率,为第个样本中位点的期望频率;S22,N取不同值时,得到不同的RMSE值,将RMSE值最小时对应的N值设置为第二阈值P2。4.根据权利要求1所述的一种基于mTag的靶向测序数据预处理的方法,其特征在于,所述第二阈值P2利用以下方法确定:
S21

,基于每种mTag类别对应的reads数和累计reads数绘制散点图;S22

,从散点图中第一个点开始,计算任意...

【专利技术属性】
技术研发人员:方超陈志锋郎秋蕾
申请(专利权)人:杭州联川基因诊断技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1