紧凑的下一代测序数据集及使用其的高效测序处理制造技术

技术编号:10680520 阅读:202 留言:0更新日期:2014-11-26 13:30
在包括通过处理组织样本采集的碱基序列的基因测序读数上操作的方法中,生成基因测序读数的紧凑文本表示。所述紧凑文本表示包括:(1)文本串,其表示碱基序列,以及(2)碱基质量文本域,其识别碱基序列的最长子序列,针对所述最长子序列,子序列的碱基的碱基质量分数满足碱基质量分数阈值;以及将基因测序读数的紧凑文本表示存储在原始读数存储器中。为了提供灵活性,所述碱基质量文本域可以识别针对两个或更多不同碱基质量分数阈值的每个的最长子序列。在读数比对期间,针对基因测序读数的偏移边界能够使用碱基质量文本域的内容高效地进行选择。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】在包括通过处理组织样本采集的碱基序列的基因测序读数上操作的方法中,生成基因测序读数的紧凑文本表示。所述紧凑文本表示包括:(1)文本串,其表示碱基序列,以及(2)碱基质量文本域,其识别碱基序列的最长子序列,针对所述最长子序列,子序列的碱基的碱基质量分数满足碱基质量分数阈值;以及将基因测序读数的紧凑文本表示存储在原始读数存储器中。为了提供灵活性,所述碱基质量文本域可以识别针对两个或更多不同碱基质量分数阈值的每个的最长子序列。在读数比对期间,针对基因测序读数的偏移边界能够使用碱基质量文本域的内容高效地进行选择。【专利说明】紧凑的下一代测序数据集及使用其的高效测序处理
下文涉及基因分析领域,并涉及诸如包括肿瘤学领域、兽医学领域等医学领域的相同的应用。
技术介绍
高效的基因测序系统,有时被称为“下一代测序”(NGS)系统,能够迅速且实质上自动地对整个基因组进行测序。尽管NGS精确度已经足够用于临床应用,并且预期随着技术成熟而得到改善,但是与诸如桑格(Sanger)测序的较慢的常规技术相比,现有的NGS系统有时表现出较低的读数精确度。 为了评估读数精确度(或可靠性),通常针对读数的每个碱基计算碱基质量分数。在Sanger测序的情况下,通过计算用于所测序的碱基的参数(诸如峰形和分辨率),并将这些值与凭借经验建立的查找表进行比较,根据谱图数据计算Phred质量分数。Phred分数通常被认为与错误地响应碱基的概率对数相关。例如,Q = 20的phred分数(Q)对应于99%的碱基响应(basecall)精确度,而Q = 30对应于99.9%的精确度,Q = 40对应于99.99%的精确度,等等。NGS方法采用并行处理技术,其通过数量级增强生产量。 常规phred分数计算不严格适用于NGS技术,但大多数NGS平台生成“像phred —样的”碱基质量分数,其相当于或按比例缩放到根据谱图数据计算的常规Phred分数。本领域中,这些“像phred —样的”碱基质量分数有时被称为phred分数。 用于读数的公用存储器格式为FASTA格式,其中,碱基腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶⑴的存在分别由美国信息交换标准码(ASCII)字母“A”、“C”、“G”和“T”表示。对于RNA,碱基胸腺嘧啶(T)替换为碱基尿嘧啶(U)。FASTA不存储质量分数信肩、O 另一方面,FASTQ格式合并质量分数。读数的FASTQ表示通常以ASCII格式,并且包括四行:标题行,其作为序列标识符;序列行,其列出由适当的ASCII字母“A”、“C”、“G”和“T”(用于DNA)或“U”(用于RNA)表示的有序的碱基序列;分隔符行,其通常仅由加号(“ + ”)标记构成(在某些FASTQ格式中,该行还可以包括诸如序列标识符的其他信息,例如对标题的镜像);以及碱基质量分数行,其列出使用合适的编码的碱基质量分数(例如,将phred分数0-93映射至ASCII代码33-126,以避免在0_32范围内众多的“不可打印”的ASCII 字符)。 因此,用于FASTQ读取条目的总存储器为2Ι^@ + +Κ,其中Ljw为读数长度(即,构成读数的碱基的数目),并且为标题中的字符的数目。“+Κ”为常数偏移,其解释了“ + ”分隔符和分隔四行的任何定界字符(例如,回车或回车/换行),而乘数因子2解释了每个碱基由碱基字符(“A”、“C”、“G”、“T”或“U”)和碱基质量分数二者表示的事实。对于合理长度的读数(例如,多于几个碱基),大多数条目存储器由序列组成,总存储量为大约序列。 原始读数文件的大小在NGS中能够是大的。对于全基因组数据集,最小的大小由基因组中的碱基数目施加,例如,在完整的单倍体人类基因组中的30亿个碱基对(bps)的数量级。在实践中,由于读数之间的重叠和复制,以及碱基质量值的存储,原始读数文件实质上大于此。因此,用于人类对象的全基因组数据集能够是几千兆字节的数量级。作为示意性范例,利用10bp读数和30倍覆盖范围测序的每个基因组可以由分割为多个文件的共计?150GB的数据组成。典型的FASTQ文件大小为?6.9GB,大约20个这样的文件可以足够存储整个人类基因组。大小为?6.9GB的单个文件能够通过存储在压缩gzip格式中被减少到大约2.3GB。 大的基因组数据集的大小和迅速减少的执行NGS成本的结合意味着基因数据存储器是测序应用总成本的主要部分,并且随着测序成本更加低廉并且产生更大的数据集,该部分成本预计将继续增加。此外,大的原始读数数据集转化为更高的计算成本用于下游处理(诸如比对)。 下文预期克服上述局限性及其他局限性的改进的设备和方法。
技术实现思路
根据一个方面,一种电子数据处理设备被配置为生成基因测序读数的紧凑文本表示,其包括具有碱基质量分数的对应有序序列的核苷酸碱基的有序序列。紧凑文本表示包括(I)文本串,其表不核昔酸喊基的有序序列,以及(2)喊基质量文本域,其识别核昔酸喊基的有序序列中的最长子序列,针对所述最长子序列,对应的碱基质量分数满足碱基质量分数阈值。原始读数存储器被配置为存储紧凑文本表示。 根据另一方面,公开了一种在包括通过处理组织样本采集的碱基序列的基因测序读数上操作的方法。所述方法包括:生成基因测序读数的紧凑文本表示,所述紧凑文本表示包括:(I)文本串,其表不喊基序列,以及(2)喊基质量文本域,其识别喊基序列中的最长子序列,针对所述最长子序列,子序列的碱基的碱基质量分数满足碱基质量分数阈值;以及,将基因测序读数的紧凑文本表示存储在原始读数存储器中。所述生成由电子数据处理设备适当地执行。 根据另一个方面,非暂态存储介质存储由电子数据处理设备可执行的指令,以处理包括核苷酸碱基的有序序列的基因测序读数,以生成基因测序读数的紧凑文本表示,所述紧凑文本表不包括:(I)文本串,其表不核昔酸喊基的有序序列,以及(2)喊基质量文本域,其识别核苷酸碱基的有序序列中的最长子序列,针对所述最长子序列,碱基质量分数满足碱基质量分数阈值。 一个优点在于在没有对应的重要信息内容的损失的情况下减少了用于读数的存储器。 另一优点在于更快且更有效的比对。 另一优点在于便于整体读数质量的有效统计特征。 另一优点在于提供上述优点的同时保留了用于读数存储器的文本格式并且同时保留了与现有下游处理部件(诸如比对器)的兼容性。 对于本领域普通技术人员,在阅读下面的详细说明后,许多附加的优点和益处将变得显而易见。 【专利附图】【附图说明】 本专利技术可以采取各种形式的部件和部件的布置,以及各种处理操作和处理操作的布置。附图仅用于图示优选实施例的目的,不应当被解释为限制本专利技术。 图1示意性地示出了在本文中描述的包括紧凑的读数存储器的基因分析系统。 图2示出了以常规FASTQ格式的原始读数文件的一部分。 图3示意性地示出了图1的系统的读数格式化模块的操作。 图4示出了由图1和图3的系统的读数格式化模块处理后的图2的原始读数文件部分。 图5示出了由图1的系统的任选的读数重格式化模块处理后的图4的原始读数文件的部分。 【具体实施方式】 在本文中公开的是以保留大部分有用信息的同时允许本文档来自技高网
...
紧凑的下一代测序数据集及使用其的高效测序处理

【技术保护点】
一种装置,包括:电子数据处理设备(30),其被配置为生成基因测序读数的紧凑文本表示,其包括具有碱基质量分数的对应有序序列的核苷酸碱基的有序序列,所述紧凑文本表示包括:(1)文本串,其表示核苷酸碱基的所述有序序列,以及(2)碱基质量文本域,其识别核苷酸碱基的所述有序序列中的最长子序列,针对所述最长子序列,对应的碱基质量分数满足碱基质量分数阈值;以及原始读数存储器(22),其被配置为存储所述紧凑文本表示。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:S·库马尔R·辛格B·查克拉巴蒂S·库马尔
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:荷兰;NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1