【技术实现步骤摘要】
一种基于mTag的靶向测序数据预处理的方法、设备和介质
[0001]本专利技术属于生物数据处理
,具体地,涉及一种基于mTag的靶向测序数据预处理的方法、设备和介质。
技术介绍
[0002]下一代测序(Next
‑
generation sequencing,NGS)又称为高通量测序(High
‑
throughput sequencing),是基于PCR和基因芯片发展而来的边合成边测序技术。高通量测序技术的特点主要有:测序读长短,通量高,准确度高。高通量测序相比一代测序大幅降低了成本,同时保持了较高准确性,并且大幅降低了测序时间,目前高通量测序已经在全组学得到广泛应用。
[0003]高通量测序得到的原始图像数据经碱基识别(BaseCalling)转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ格式存储,其中包含测序序列(reads)信息以及其对应的测序质量信息。
[0004]FASTQ格式文件中每个read由四行描述,如下所示:@HWI
‑
ST507:248:D29JDACXX:8:1101:1715:1919:1:1:0:ACTTGA/1NTAATATTGGGCTAGAAAGTATCTTTGGGATTGCATGTTTTGATGCAGAATCATTGTGCCGTAGAATGC+BPYccaceceggghhfhhhhhhhhhhffhfhhgfahhchhhhhhfhbfgh ...
【技术保护点】
【技术特征摘要】
1.一种基于mTag的靶向测序数据预处理的方法,其特征在于,包括以下步骤:S1,mTag分类与修正:将测序reads基于mTag序列进行分类,包含reads数量小于第一阈值P1的mTag类别为第一类别,其余为第二类别,对于各第一类别中各read,基于其mTag序列中与各第二类别的mTag序列的差异碱基的质量值对其mTag序列进行修正并重新分类;S2,mTag类别选择:选择包含reads数量大于或等于第二阈值P2的mTag类别;S3,代表序列选择:从S2选择的各mTag类别中选择一条代表性序列,其中,P1=3~5;P2=1~10。2.根据权利要求1所述的一种基于mTag的靶向测序数据预处理的方法,其特征在于,步骤S1中修正并重新分类的步骤具体包括:S11,将待修正的第一类别的mTag序列分别与各第二类别的mTag序列进行比对,找相似性最高的第二类别,针对所述待修正的第一类别中的各read分别进行修正:
①
如果该read的mTag序列与相似性最高的第二类别的mTag序列的差异碱基位于该第二类别的mTag序列的固定碱基位点,则无论该read的分子标签该差异碱基质量值如何,均修正为该第二类别的mTag序列相应位置上的碱基类型;
②
如果该read的mTag序列与相似性最高的第二类别的mTag序列的差异碱基位于该第二类别的mTag序列的随机碱基位点,并且该差异碱基的质量值小于第三阈值P3,则将该差异碱基修正为该第二类别的mTag序列相应位置上的碱基类型,否则不进行修正;
③
若经步骤
①
~
②
进行修正后,该read的mTag序列与相似性最高的第二类别的mTag序列的差异碱基占mTag序列长度比例小于第四阈值P4,则无论差异碱基质量值如何,直接将差异碱基修正为该第二类别的mTag序列相应位置的碱基类型,否则该read的mTag序列所有碱基均不进行修正;
④
对于经步骤
①
~
③
无法完成修正的reads,利用相似性第二高的第二类别重复步骤
①
~
③
,直至与所有第二类别进行上述修正步骤后均无法完成修正,S12,基于修正后的mTag序列对reads重新进行分类,其中,P3=10~13;P4=10%~30%。3.根据权利要求1所述的一种基于mTag的靶向测序数据预处理的方法,其特征在于,所述第二阈值P2利用以下方法确定:S21,选择具有至少N个reads的mTag类别进行分析时,得到在n个样本中位点的均方根误差,均方根误差的计算公式如下:;其中,N为1~5的正整数;RMSE为均方根误差,为第个样本中位点的观察频率,为第个样本中位点的期望频率;S22,N取不同值时,得到不同的RMSE值,将RMSE值最小时对应的N值设置为第二阈值P2。4.根据权利要求1所述的一种基于mTag的靶向测序数据预处理的方法,其特征在于,所述第二阈值P2利用以下方法确定:
S21
’
,基于每种mTag类别对应的reads数和累计reads数绘制散点图;S22
’
,从散点图中第一个点开始,计算任意...
【专利技术属性】
技术研发人员:方超,陈志锋,郎秋蕾,
申请(专利权)人:杭州联川基因诊断技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。