一种基于mTag的靶向测序数据预处理的方法、设备和介质技术

技术编号：36933533 阅读：16 留言：0更新日期：2023-03-22 18:55

本发明专利技术公开了一种基于mTag的靶向测序数据预处理的方法、设备和介质，属于生物数据处理技术领域。所述方法包括将测序reads基于mTag序列进行分类，包含reads数量较少的mTag类别为第一类别，其余为第二类别，对于各第一类别中各read，基于差异碱基的质量值对其mTag序列进行修正并重新分类；进一步选择包含适当reads数量的mTag类别，并从各mTag类别中选择一条代表性序列。利用本发明专利技术的方法，可以对mTag进行修正，避免PCR过程中或测序过程中引入的错误，并且可以精准地选择合适的mTag类别，还可以精准地选择mTag类别中的代表性序列，使得测序数据利用率更高，检测灵敏度和特异性也更好。异性也更好。异性也更好。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于mTag的靶向测序数据预处理的方法、设备和介质

[0001]本专利技术属于生物数据处理
，具体地，涉及一种基于mTag的靶向测序数据预处理的方法、设备和介质。

技术介绍

[0002]下一代测序（Next
‑
generation sequencing，NGS）又称为高通量测序（High
‑
throughput sequencing），是基于PCR和基因芯片发展而来的边合成边测序技术。高通量测序技术的特点主要有：测序读长短，通量高，准确度高。高通量测序相比一代测序大幅降低了成本，同时保持了较高准确性，并且大幅降低了测序时间，目前高通量测序已经在全组学得到广泛应用。
[0003]高通量测序得到的原始图像数据经碱基识别（BaseCalling）转化为原始测序序列（Sequenced Reads），我们称之为Raw Data或Raw Reads，结果以FASTQ格式存储，其中包含测序序列（reads）信息以及其对应的测序质量信息。
[0004]FASTQ格式文件中每个read由四行描述，如下所示：@HWI
‑
ST507:248:D29JDACXX:8:1101:1715:1919:1:1:0:ACTTGA/1NTAATATTGGGCTAGAAAGTATCTTTGGGATTGCATGTTTTGATGCAGAATCATTGTGCCGTAGAATGC+BPYccaceceggghhfhhhhhhhhhhffhfhhgfahhchhhhhhfhbfgh...

【技术保护点】

【技术特征摘要】
1.一种基于mTag的靶向测序数据预处理的方法，其特征在于，包括以下步骤：S1，mTag分类与修正：将测序reads基于mTag序列进行分类，包含reads数量小于第一阈值P1的mTag类别为第一类别，其余为第二类别，对于各第一类别中各read，基于其mTag序列中与各第二类别的mTag序列的差异碱基的质量值对其mTag序列进行修正并重新分类；S2，mTag类别选择：选择包含reads数量大于或等于第二阈值P2的mTag类别；S3，代表序列选择：从S2选择的各mTag类别中选择一条代表性序列，其中，P1=3~5；P2=1~10。2.根据权利要求1所述的一种基于mTag的靶向测序数据预处理的方法，其特征在于，步骤S1中修正并重新分类的步骤具体包括：S11，将待修正的第一类别的mTag序列分别与各第二类别的mTag序列进行比对，找相似性最高的第二类别，针对所述待修正的第一类别中的各read分别进行修正：
①
如果该read的mTag序列与相似性最高的第二类别的mTag序列的差异碱基位于该第二类别的mTag序列的固定碱基位点，则无论该read的分子标签该差异碱基质量值如何，均修正为该第二类别的mTag序列相应位置上的碱基类型；
②
如果该read的mTag序列与相似性最高的第二类别的mTag序列的差异碱基位于该第二类别的mTag序列的随机碱基位点，并且该差异碱基的质量值小于第三阈值P3，则将该差异碱基修正为该第二类别的mTag序列相应位置上的碱基类型，否则不进行修正；
③
若经步骤
①
~
②
进行修正后，该read的mTag序列与相似性最高的第二类别的mTag序列的差异碱基占mTag序列长度比例小于第四阈值P4，则无论差异碱基质量值如何，直接将差异碱基修正为该第二类别的mTag序列相应位置的碱基类型，否则该read的mTag序列所有碱基均不进行修正；
④
对于经步骤
①
~
③
无法完成修正的reads，利用相似性第二高的第二类别重复步骤
①
~
③
，直至与所有第二类别进行上述修正步骤后均无法完成修正，S12，基于修正后的mTag序列对reads重新进行分类，其中，P3=10~13；P4=10%~30%。3.根据权利要求1所述的一种基于mTag的靶向测序数据预处理的方法，其特征在于，所述第二阈值P2利用以下方法确定：S21，选择具有至少N个reads的mTag类别进行分析时，得到在n个样本中位点的均方根误差，均方根误差的计算公式如下：；其中，N为1~5的正整数；RMSE为均方根误差，为第个样本中位点的观察频率，为第个样本中位点的期望频率；S22，N取不同值时，得到不同的RMSE值，将RMSE值最小时对应的N值设置为第二阈值P2。4.根据权利要求1所述的一种基于mTag的靶向测序数据预处理的方法，其特征在于，所述第二阈值P2利用以下方法确定：
S21
’
，基于每种mTag类别对应的reads数和累计reads数绘制散点图；S22
’
，从散点图中第一个点开始，计算任意...

【专利技术属性】
技术研发人员：方超，陈志锋，郎秋蕾，
申请(专利权)人：杭州联川基因诊断技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人