判断测序数据饱和的方法、计算机可读介质和应用技术

技术编号：22103425 阅读：163 留言：0更新日期：2019-09-14 03:50

本发明专利技术提供了一种判断测序数据饱和的方法、计算机可读介质和应用，涉及测序技术领域。该方法包括如下步骤：(a)提供所述测序数据，所述测序数据为包含X条reads的数据集A；(b)将所述X条reads依据预设的序列相似阈值聚类生成N个Cluster；(c)获得概率Probalility；所述Probalility为抽取第k‑1条reads获得的Cluster数目为i‑1，再抽取一条reads，获得的Cluster数目为i的概率；其中k为小于等于X的正整数，i为小于等于N的正整数；(d)获得衡量数据饱和程度的指标Saturated，所述数据饱和程度指标Saturated越趋近于0，所述测序数据越趋于饱和。该方法可以较为精确的以数值反应测序数据的饱和程度，以使测序数据的饱和度判断更为精准，以保证后续数据分析的准确度。

Method of Judging Saturation of Sequencing Data, Computer Readable Media and Its Application

全部详细技术资料下载

【技术实现步骤摘要】
判断测序数据饱和的方法、计算机可读介质和应用
本专利技术涉及测序
，尤其是涉及一种判断测序数据饱和的方法、计算机可读介质和应用。
技术介绍
测序技术是指分析核酸的碱基序列，例如DNA测序就是分析DNA的腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤的(G)排列方式。自从1977年FredrickSanger等建立的双脱氧链终止法测序技术以来，测序技术历经了几十年的快速发展。2005年以来，以Roche454、Illumina、LifeSOLID/IonTorrent、PacBioRS为代表的新一代测序技术的出现，使得测序的通量快速增加，测序成本极大降低。高通量测序(High-throughputsequencing)技术可以对数百万个DNA分子进行同时测序，能够细致全貌的分析一个物种的转录组和基因组，因此也称其为深度测序(deepsequencing)、“下一代”测序技术("Next-generation"sequencing，NGS)或二代测序。高通量测序通常又被称为大规模平行测序技术(massivelyparallelsequencing，MPS)，它可以同时完成测序模板互补链的合成与序列数据的读取。一般来说高通量测序包含下列连续的步骤：(1)将待测序样品构建成可上机测序的文库；(2)向测序系统加入脱氧核苷酸；(3)检验和确定被加入的脱氧核苷酸类型；(4)去除测序反应的各种酶、荧光标记物或脱氧核苷酸的3’阻断基团的洗脱反应，以实现“边合成边测序(sequencingbysynthesis，SBS)”或者“边连接边测序(sequencingby...

【技术保护点】
1.一种判断测序数据饱和的方法，其特征在于，包括如下步骤：(a)提供所述测序数据，所述测序数据为包含X条reads的数据集A；(b)将所述X条reads依据预设的序列相似阈值聚类生成N个Cluster；(c)获得概率Probalility；所述Probalility为抽取第k‑1条reads获得的Cluster数目为i‑1，再抽取一条reads，获得的Cluster数目为i的概率；其中k为小于等于X的正整数，i为小于等于N的正整数；(d)获得衡量数据饱和程度的指标Saturated，所述数据饱和程度指标Saturated越趋近于0，所述测序数据越趋于饱和；所述数据饱和程度指标Saturated按照公式(Ⅰ)计算得到：

【技术特征摘要】
1.一种判断测序数据饱和的方法，其特征在于，包括如下步骤：(a)提供所述测序数据，所述测序数据为包含X条reads的数据集A；(b)将所述X条reads依据预设的序列相似阈值聚类生成N个Cluster；(c)获得概率Probalility；所述Probalility为抽取第k-1条reads获得的Cluster数目为i-1，再抽取一条reads，获得的Cluster数目为i的概率；其中k为小于等于X的正整数，i为小于等于N的正整数；(d)获得衡量数据饱和程度的指标Saturated，所述数据饱和程度指标Saturated越趋近于0，所述测序数据越趋于饱和；所述数据饱和程度指标Saturated按照公式(Ⅰ)计算得到：2.根据权利要求1所述的判断测序数据饱和的方法，其特征在于，所述Probalility按照公式(Ⅱ)计算的到：其中，P(i，k)按照公式(Ⅲ)计算的到：其中，U表示对于数据集B，当采集k条reads时，获得的Cluster数目为i的所有组合。3.根据权利要求1所述的判断测序数据饱和的方法，其特征在于，获取N个相同类型的测序数据的数据集A，获取每个数据集A在相同的预设的序列相似阈值L下的数据饱和程度的指标Saturated，以该N个数据集A的数据饱和程度的指标Saturated的平均值和方差的和作为所述类型的测序数据的在序列相似...

【专利技术属性】
技术研发人员：贾瑞凯，叶桦，肖芳，郭森，贾延凯，廖国娟，
申请(专利权)人：苏州金唯智生物科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人