System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 确定读段质量的方法和测序方法技术_技高网

确定读段质量的方法和测序方法技术

技术编号:41074107 阅读:15 留言:0更新日期:2024-04-24 11:31
本申请涉及确定读段质量的方法,其包括:获取边合成边测序的读段,读段由读取轮数据和轮空轮数据构成,读段的读取轮数据反映对应于图像集的指定位置的模板上存在碱基延伸信号、轮空轮数据反映对应于图像集的指定位置的模板上不存在碱基延伸信号,图像集包括测序运行期间的一轮或多轮测序产生的、包含指定位置及其周围背景信号的多个图像;基于图像集、读取轮数据和轮空轮数据的信息,确定预定特征组合中每个特征的值;基于预定特征组合中的特征的值和预先训练的预测模型,预测读段被分类为指定类别读段的概率;基于所述概率,确定读段的测序质量。通过采用上述确定读段质量的方法,能够有效地对单分子双色测序的读段进行质量评价。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体的,涉及核酸检测数据处理领域,更具体的,涉及确定读段质量的方法及其应用。


技术介绍

1、二代基因测序,也称为高通量测序或者平行大规模测序,广泛使用q30、q20等参数来评价测序序列(读段)的质量,该质量分数能够反映测序序列的错误概率以及可靠程度,能用于区分测序错误造成的数据波动还是生物样本本身带来的数据波动[mbandi,s.k.,etal(2014),a glance at quality score:implication for de novo transcriptomereconstruction of illumina reads,frontiers in genetics,5,17.;garber,m.,et al(2011),computational methods for transcriptome annotation and quantificationusing rna-seq,nature methods,8(6),469-477.;kelley,d.r.,et al(2010),quake:quality-aware detection and correction of sequencing errors,genome biology,11(11),r116.;us8965076b2;us2018051329a1]。

2、各种测序原理、各类测序平台经常都有相适配或适用的测序序列质量定量评估方案,更可靠和/或更加普适的测序序列的质量评价方法仍是值得关注的问题,特别是针对或者同样适用于非主流测序平台的测序数据的质量评估方法,例如适用于三代测序、单分子测序的测序序列质量的定量评估,或者同时适用于二代测序、三代测序、四代测序、单分子测序、单分子边合成边测序等多种平台的测序序列质量的定量评估方案等。


技术实现思路

1、本专利技术旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。

2、本申请基于专利技术人的下列发现和试验测试而作出:

3、在二代基因测序技术中,通常涉及扩增来放大目标信号,一般使用q30、q20等参数评价测序序列的质量来反映测序序列的错误概率和可靠程度,从而助力区分开来源于检测错误的数据波动和来源于生物样本的数据波动[mbandi,s.k.,et al(2014),a glance atquality score:implication for de novo transcriptome reconstruction ofillumina reads,frontiers in genetics,5,17.;garber,m.,et al(2011),computational methods for transcriptome annotation and quantification usingrna-seq,nature methods,8(6),469-477.;kelley,d.r.,et al(2010),quake:quality-aware detection and correction of sequencing errors,genome biology,11(11),r116.;us8965076b2;us2018051329a1]。然而,将这个质量评估方案、质量分数计算方法应用于定量评估单分子测序所产生的数据,如用来评估真迈生物、太平洋生物、牛津纳米孔等公司的单分子测序平台所产生的测序数据的质量,表现出不适用或者说不能真实地反映出这些测序平台的测序序列的质量,而且,针对单分子测序的测序数据专利技术人目前还未见有已公开的评估方法。

4、单分子检测,一般指不涉及克隆如利用扩增来放大目标分子的信号的检测。例如单分子测序,一般指不涉及对待测核酸分子进行扩增的测序。可以理解地,单分子检测的目标信号很弱或者说信噪比很低,很容易由于噪声或杂质信号的干扰而丢失或难被检出。因此,单分子测序所产生的测序数据的错误率通常较高,甚至包含非样本来源的杂质或干扰或噪声序列;这些错误率较高和/或非样本来源的序列会占用大量的数据处理或分析资源例如增加比对计算所需的时间,并且即便利用较佳或较适配的参考序列进行比对,很多情况下根据比对结果也难以区分测序错误带来的数据波动和生物样本/待测样本本身特征造成的数据波动。例如,这些序列中的一部分有可能随机比对到某参考序列如人参考基因组上,在样本情况复杂、涉及不同物种来源的测序中,如检测人源样本中的病原体,这些随机比对上的测序序列可能对不同物种测序序列的拆分以及后续的生信分析造成不良影响或干扰。

5、鉴于此,本专利技术的实施方式提供一种确定读段质量的方法,包括:获取来自基于芯片成像检测、对芯片上的模板进行边合成边测序的读段,读段由读取轮数据和轮空轮数据构成,读段的读取轮数据反映对应于图像集的指定位置的模板上存在碱基延伸信号、轮空轮数据反映对应于图像集的指定位置的模板上不存在碱基延伸信号,图像集包括测序运行期间的一轮或多轮测序产生的、包含指定位置及其周围背景信号的多个图像;基于图像集、读取轮数据和轮空轮数据中的至少一类信息,确定预定特征组合中每个特征的值,预定特征组合中的每个特征为与该读段的产生有关的、可量化的特征;基于预定特征组合中的特征的值和预先训练的预测模型,预测读段被分类为指定类别读段的概率;和基于概率,确定读段的测序质量,预先训练的预测模型为能够基于读段的预定特征组合中的特征的值计算该读段属于指定类别读段的概率的分类器,读段的质量得分与该读段被分类为指定类别读段的概率正相关。

6、本专利技术的另一实施方式提供一种确定读段质量的方法,所称的读段来自基于芯片成像检测、对芯片上的模板进行边合成边测序而确定的序列,读段由读取轮数据和轮空轮数据构成,每条读段的读取轮数据反映对应于图像集的指定位置的模板上存在碱基延伸信号、轮空轮数据反映对应于图像集的指定位置的模板上不存在碱基延伸信号,图像集包括测序运行期间的一轮或多轮测序产生的、包含指定位置及其周围背景信号的多个图像,该方法包括:(1)针对读段,基于图像、读取轮数据和轮空轮数据中的至少一类信息获取预定特征组合中的每个特征的取值;(2)针对读段,基于特征的取值,确定与取值对应的比对系数和非比对系数;(3)基于比对系数、非比对系数以及预定的比对常数和预定的非比对常数,确定读段的质量得分,其中,预定特征组合包括测序运行期间产生的、与读段有关的多个特征。

7、本专利技术的又一实施方式提供一种确定读段质量的方法,所称的读段来自基于芯片成像检测、对芯片上的模板进行边合成边测序而确定的序列,读段由读取轮数据和轮空轮数据构成,每条读段的读取轮数据反映对应于图像集的指定位置的模板上存在碱基延伸信号、轮空轮数据反映对应于图像集的指定位置的模板上不存在碱基延伸信号,图像集包括测序运行期间的一轮或多轮测序产生的、包含指定位置及其周围背景信号的多个图像,该方法包括:(1)针对读段,基于图像、读取轮数据和轮空轮数据中的一类信息获本文档来自技高网...

【技术保护点】

1.一种确定读段质量的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,一轮测序包括使所述模板与四种核苷酸接触一次进行单碱基延伸以及采集相应的图像以识别碱基延伸信号的过程,经过所述一轮测序在所述读段上表现为增加了对应于所述四种核苷酸的四个数据位;

3.根据权利要求1或2所述的方法,其特征在于,通过下列步骤对所述预测模型进行训练:

4.一种确定读段质量的方法,其特征在于,所述读段来自基于芯片成像检测、对芯片上的模板进行边合成边测序而确定的序列,所述读段由读取轮数据和轮空轮数据构成,每条所述读段的读取轮数据反映对应于图像集的指定位置的模板上存在碱基延伸信号、所述轮空轮数据反映对应于所述图像集的所述指定位置的模板上不存在碱基延伸信号,所述图像集包括测序运行期间的一轮或多轮测序产生的、包含所述指定位置及其周围背景信号的多个图像,所述方法包括:

5.根据权利要求4所述的方法,其特征在于,所述预定特征组合包括特征(b),特征(a)、(c)和(e)中的至少一种以及特征(d)、(f)和(g)中的至少一种:

6.一种确定读段质量的方法,其特征在于,所述读段来自基于芯片成像检测、对芯片上的模板进行边合成边测序而确定的序列,所述读段由读取轮数据和轮空轮数据构成,每条所述读段的读取轮数据反映对应于图像集的指定位置的模板上存在碱基延伸信号、所述轮空轮数据反映对应于所述图像集的所述指定位置的模板上不存在碱基延伸信号,所述图像集包括测序运行期间的一轮或多轮测序产生的、包含所述指定位置及其周围背景信号的多个图像,所述方法包括:

7.根据权利要求6所述的方法,其特征在于,所述预定特征包括特征(b),特征(a)、(c)和(e)中的至少一种以及特征(d)、(f)和(g)中的至少一种:

8.一种测序方法,其特征在于,包括:

9.一种计算设备,其特征在于,包括:处理器和存储器;

10.一种计算机可读存储介质,其特征在于,所述存储介质包括计算机指令,当所述指令被计算机执行时,使得所述计算机实现如权利要求1~7任一项所述的方法。

...

【技术特征摘要】

1.一种确定读段质量的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,一轮测序包括使所述模板与四种核苷酸接触一次进行单碱基延伸以及采集相应的图像以识别碱基延伸信号的过程,经过所述一轮测序在所述读段上表现为增加了对应于所述四种核苷酸的四个数据位;

3.根据权利要求1或2所述的方法,其特征在于,通过下列步骤对所述预测模型进行训练:

4.一种确定读段质量的方法,其特征在于,所述读段来自基于芯片成像检测、对芯片上的模板进行边合成边测序而确定的序列,所述读段由读取轮数据和轮空轮数据构成,每条所述读段的读取轮数据反映对应于图像集的指定位置的模板上存在碱基延伸信号、所述轮空轮数据反映对应于所述图像集的所述指定位置的模板上不存在碱基延伸信号,所述图像集包括测序运行期间的一轮或多轮测序产生的、包含所述指定位置及其周围背景信号的多个图像,所述方法包括:

5.根据权利要求4所述的方法,其特征在于,所述预定特征组合包括特征(b),特征(a)、(c)和(e)中的至少...

【专利技术属性】
技术研发人员:陈巍月金欢雷苗
申请(专利权)人:深圳市真迈生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1