判断测序数据饱和的方法、计算机可读介质和应用技术

技术编号:22103425 阅读:163 留言:0更新日期:2019-09-14 03:50
本发明专利技术提供了一种判断测序数据饱和的方法、计算机可读介质和应用,涉及测序技术领域。该方法包括如下步骤:(a)提供所述测序数据,所述测序数据为包含X条reads的数据集A;(b)将所述X条reads依据预设的序列相似阈值聚类生成N个Cluster;(c)获得概率Probalility;所述Probalility为抽取第k‑1条reads获得的Cluster数目为i‑1,再抽取一条reads,获得的Cluster数目为i的概率;其中k为小于等于X的正整数,i为小于等于N的正整数;(d)获得衡量数据饱和程度的指标Saturated,所述数据饱和程度指标Saturated越趋近于0,所述测序数据越趋于饱和。该方法可以较为精确的以数值反应测序数据的饱和程度,以使测序数据的饱和度判断更为精准,以保证后续数据分析的准确度。

Method of Judging Saturation of Sequencing Data, Computer Readable Media and Its Application

【技术实现步骤摘要】
判断测序数据饱和的方法、计算机可读介质和应用
本专利技术涉及测序
,尤其是涉及一种判断测序数据饱和的方法、计算机可读介质和应用。
技术介绍
测序技术是指分析核酸的碱基序列,例如DNA测序就是分析DNA的腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤的(G)排列方式。自从1977年FredrickSanger等建立的双脱氧链终止法测序技术以来,测序技术历经了几十年的快速发展。2005年以来,以Roche454、Illumina、LifeSOLID/IonTorrent、PacBioRS为代表的新一代测序技术的出现,使得测序的通量快速增加,测序成本极大降低。高通量测序(High-throughputsequencing)技术可以对数百万个DNA分子进行同时测序,能够细致全貌的分析一个物种的转录组和基因组,因此也称其为深度测序(deepsequencing)、“下一代”测序技术("Next-generation"sequencing,NGS)或二代测序。高通量测序通常又被称为大规模平行测序技术(massivelyparallelsequencing,MPS),它可以同时完成测序模板互补链的合成与序列数据的读取。一般来说高通量测序包含下列连续的步骤:(1)将待测序样品构建成可上机测序的文库;(2)向测序系统加入脱氧核苷酸;(3)检验和确定被加入的脱氧核苷酸类型;(4)去除测序反应的各种酶、荧光标记物或脱氧核苷酸的3’阻断基团的洗脱反应,以实现“边合成边测序(sequencingbysynthesis,SBS)”或者“边连接边测序(sequencingbyligation,SBL)”。三代测序技术是以PacBio公司的单分子实时测序技术(SingleMoleculeRealTimeSequencing,SMRT-seq)和OxfordNanoporeTechnologies的纳米孔单分子测序技术为代表。三代测序最大的特点是单分子实时测序,测序过程无需进行PCR,较二代测序读长更长,PacBioSMRT-seq平均读长超过15kb,OxfordNanopore读段最常可达2Mb。以PacBioSMRT为例,以边合成边测序为基础,以固定有DNA聚合酶的芯片为载体,当DNA模板被聚合酶捕获后,4种不同荧光标记的碱基进入监测区域并与聚合酶结合实现DNA互补链的合成,通过计算光的波长和峰值可判断进入的碱基类型,即可确定DNA模板的序列。衡量测序数据多少的主要指标是测序深度,测序深度是指测序得到的总碱基数与待测基因组大小的比值,可以理解为基因组中每个碱基被测序到的平均次数,测序深度=reads长度×比对的reads数目/参考序列长度,由于测序时目的片段上各片段读取的数据量并不平均,因此测序深度无法明确反映测序数据是否饱和,是否还存在未检测到的片段存在。有鉴于此,特提出本专利技术。
技术实现思路
本专利技术的第一目的在于提供一种判断测序数据饱和的方法,该方法可以较为精确的以数值反应测序数据的饱和程度。本专利技术的第二目的在于提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行所述判断测序数据饱和的方法。本专利技术的第三目的在于提供上述判断测序数据饱和的方法或上述具有处理器可执行的非易失的程序代码的计算机可读介质在生物信息学分析中的应用。为解决上述技术问题,本专利技术特采用如下技术方案:一种判断测序数据饱和的方法,包括如下步骤:(a)提供所述测序数据,所述测序数据为包含X条reads的数据集A;(b)将所述X条reads依据预设的序列相似阈值聚类生成N个Cluster;(c)获得概率Probalility;所述Probalility为抽取第k-1条reads获得的Cluster数目为i-1,再抽取一条reads,获得的Cluster数目为i的概率;其中k为小于等于X的正整数,i为小于等于N的正整数;(d)获得衡量数据饱和程度的指标Saturated,所述数据饱和程度指标Saturated越趋近于0,所述测序数据越趋于饱和;所述数据饱和程度指标Saturated按照公式(Ⅰ)计算得到:优选地,所述Probalility按照公式(Ⅱ)计算的到:其中,P(i,k)按照公式(Ⅲ)计算的到:其中,U表示对于数据集B,当采集k条reads时,获得的Cluster数目为i的所有组合。优选地,获取N个相同类型的测序数据的数据集A,获取每个数据集A在相同的预设的序列相似阈值L下的数据饱和程度的指标Saturated,以该N个数据集A的数据饱和程度的指标Saturated的平均值和方差的和作为所述类型的测序数据的在序列相似阈值L下的饱和程度的指标Saturated参考值R,当测序数据在预设的序列相似阈值L下的饱和程度的指标Saturated不大于所述参考值R时,所述测序数据饱和。优选地,所述N为不小于100的正整数。优选地,所述reads为cleanreads。优选地,所述测序数据包括二代测序数据或三代测序数据。优选地,所述测序数据来源于扩增子测序数据;优选地,所述扩增子测序包括16S测序、18SrDNA测序、ITS测序或功能基因区域测序。优选地,所述测序数据来源于16SrDNA,所述预设的序列相似阈值L为97%;当所述衡量数据饱和的指标Saturated为0~0.44时,判定测序数据饱和。本专利技术还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述判断测序数据饱和的方法。本专利技术还提供了上述判断测序数据饱和的方法或上述具有处理器可执行的非易失的程序代码的计算机可读介质在生物信息学分析中的应用。与现有技术相比,本专利技术具有如下有益效果:本专利技术提供的判断测序数据饱和的方法以不放回的抽取测序数据中的reads时,Cluster增加的变化率为依据判定数据是否饱和,其中Cluster为X条reads依据预设的序列相似阈值聚类生成集合。并定义了数据饱和程度的指标Saturated,当数据饱和程度指标Saturated越接近0时,所述测序数据越趋于饱和。传统的以测序深度判断测序饱和的方法无法明确反映测序数据是否饱和,是否还存在未检测到的片段存在,只能以每个碱基平均的被测序的次数表述测序数据对待测样品的覆盖度,本专利技术提供的方法可以较为精确的以数值反应测序数据的饱和程度,以使测序数据的饱和度判断更为精准,从而保证后续数据分析的准确度。同时本申请定义的数据饱和程度指标Saturated统一了评判标准,可以方便不同批次的数据进行比较。本申请提供的具有处理器可执行的非易失的程序代码的计算机可读介质中,所述程序代码可以使所述处理器执行上述判断测序数据饱和的方法,方便快捷。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术中模拟数据A001至A005抽取的reads数与Probalility值的关系;图2为本专利技术实施例1提供的16S测序数据抽取的reads数与Probal本文档来自技高网
...

【技术保护点】
1.一种判断测序数据饱和的方法,其特征在于,包括如下步骤:(a)提供所述测序数据,所述测序数据为包含X条reads的数据集A;(b)将所述X条reads依据预设的序列相似阈值聚类生成N个Cluster;(c)获得概率Probalility;所述Probalility为抽取第k‑1条reads获得的Cluster数目为i‑1,再抽取一条reads,获得的Cluster数目为i的概率;其中k为小于等于X的正整数,i为小于等于N的正整数;(d)获得衡量数据饱和程度的指标Saturated,所述数据饱和程度指标Saturated越趋近于0,所述测序数据越趋于饱和;所述数据饱和程度指标Saturated按照公式(Ⅰ)计算得到:

【技术特征摘要】
1.一种判断测序数据饱和的方法,其特征在于,包括如下步骤:(a)提供所述测序数据,所述测序数据为包含X条reads的数据集A;(b)将所述X条reads依据预设的序列相似阈值聚类生成N个Cluster;(c)获得概率Probalility;所述Probalility为抽取第k-1条reads获得的Cluster数目为i-1,再抽取一条reads,获得的Cluster数目为i的概率;其中k为小于等于X的正整数,i为小于等于N的正整数;(d)获得衡量数据饱和程度的指标Saturated,所述数据饱和程度指标Saturated越趋近于0,所述测序数据越趋于饱和;所述数据饱和程度指标Saturated按照公式(Ⅰ)计算得到:2.根据权利要求1所述的判断测序数据饱和的方法,其特征在于,所述Probalility按照公式(Ⅱ)计算的到:其中,P(i,k)按照公式(Ⅲ)计算的到:其中,U表示对于数据集B,当采集k条reads时,获得的Cluster数目为i的所有组合。3.根据权利要求1所述的判断测序数据饱和的方法,其特征在于,获取N个相同类型的测序数据的数据集A,获取每个数据集A在相同的预设的序列相似阈值L下的数据饱和程度的指标Saturated,以该N个数据集A的数据饱和程度的指标Saturated的平均值和方差的和作为所述类型的测序数据的在序列相似...

【专利技术属性】
技术研发人员:贾瑞凯叶桦肖芳郭森贾延凯廖国娟
申请(专利权)人:苏州金唯智生物科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1