质量分数压缩制造技术

技术编号:36496552 阅读:18 留言:0更新日期:2023-02-01 15:15
本发明专利技术公开了用于压缩核酸序列数据的方法、系统和计算机程序。该方法可包括:获得核酸序列数据,该核酸序列数据表示:(i)读段序列,和(ii)多个质量分数;确定该读段序列是否包括至少一个N碱基;基于确定该读段序列不包括至少一个N碱基,通过使用第一编码过程来生成第一经编码数据集,该第一编码过程使用以(x

【技术实现步骤摘要】
【国外来华专利技术】质量分数压缩
[0001]相关申请的交叉引用
[0002]本申请要求2020年11月5日提交的美国申请序列号63/110,308的权益,该申请的全部内容以引用方式并入本文。

技术介绍

[0003]在一些情况下,基因组测序描述鉴定核苷酸或基因组数据的其他组分部分的方法。计算机可用于分析一组或多组基因组数据,并且将组分部分(诸如核苷酸)的集合与其在给定参考基因组中的相应位置相关。以此方式,计算机可以将分子标志物的集合“映射”到参考基因组上。

技术实现思路

[0004]通常,本公开涉及用于压缩由测序引擎基于基因组数据而生成的质量分数的方法、系统和计算机程序。在一个具体实施中,由测序引擎基于基因组数据而生成的质量分数最初可通过将一个或多个质量分数分组到表示一组质量分数的数据项序列内的单个数据项中来进行压缩。然后,可以将数据项序列进一步压缩或编码成最终压缩形式。
[0005]根据本公开的一个创新方面,公开了一种用于压缩核酸序列数据的方法。在一个方面,该方法可包括:由一个或多个计算机获得核酸序列数据,该核酸序列数据表示(i)读段序列,该读段序列包括对应于由核酸测序设备生成的多个碱基检出(base calls)的数据,和(ii)多个质量分数,其中该多个质量分数中的每个质量分数指示读段序列的特定碱基检出由核酸测序设备正确生成的可能性;由一个或多个计算机确定读段序列是否包括至少一个“N”碱基;基于确定读段序列不包括至少一个“N”碱基,由一个或多个计算机通过使用第一编码过程来生成第一经编码数据集,第一编码过程使用以(xr/>‑
1)为底数的数对读段序列的质量分数中的每个质量分数进行编码,其中x是表示由核酸测序设备使用的不同质量分数的数量的整数;以及由一个或多个计算机使用第二编码过程对第一经编码数据集进行编码,从而压缩待压缩的数据。
[0006]其他版本包括执行由在计算机可读存储设备上编码的指令所定义的方法的动作的对应系统、装置和计算机程序。
[0007]这些和其他版本可任选地包括以下特征中的一个或多个特征。例如,在一些具体实施中,x等于3。
[0008]在一些具体实施中,第一编码过程可包括由一个或多个计算机通过将读段序列的该多个质量分数中的每组五个质量分数中的每个质量分数表示为以3为底数的数,将一组五个质量分数编码到单个字节中。
[0009]在一些具体实施中,该方法还可包括:基于确定读段序列包括至少一个“N”碱基,由一个或多个计算机通过使用第三编码过程来生成第二编码数据集,第三编码过程用于将读段序列的每组四个质量分数编码到存储器的单个字节中;以及由一个或多个计算机使用第四编码过程对第二编码数据进行编码。
[0010]在一些具体实施中,第二编码过程和第四编码过程是相同的。
[0011]在一些具体实施中,所获得的数据可包括FASTQ文件。
[0012]在一些具体实施中,第一经编码数据集是该多个质量分数的压缩版本。
[0013]在一些具体实施中,第二编码过程是压缩过程。
[0014]在一些具体实施中,压缩过程包括范围编码器的通过部分匹配(PPMD)进行预测的具体实施。
[0015]在一些具体实施中,对于第一经编码数据集的给定值,根据4位上下文相对于给定值在第一经编码数据集内的位置来压缩给定值。
[0016]根据本公开的另一个创新方面,公开了另一种用于压缩核酸序列数据的方法。在一个方面,该方法可包括:由一个或多个计算机获得核酸序列数据,该核酸序列数据表示(i)读段序列,该读段序列包括对应于由核酸测序设备生成的多个碱基检出的数据,和(ii)多个质量分数,其中该多个质量分数中的每个质量分数指示读段序列的特定碱基检出由核酸测序设备正确生成的可能性;由一个或多个计算机确定该多个质量分数中每个质量分数组的发生频率,其中每个质量分数组包括该多个质量分数的质量分数子集;对于该多个质量分数的第一子集中的每个特定质量分数:由一个或多个计算机确定质量分数是具有满足预先确定的阈值的发生频率的特定质量分数组的成员;基于确定质量分数是具有满足预先确定的阈值的发生频率的特定质量分数组的成员,由一个或多个计算机使用预先确定的组映射来生成将用作减小序列中的单个条目的第一数据,其中将用作减小序列中的单个条目的第一数据表示特定质量分数组;以及由一个或多个计算机通过聚合用于特定质量分数组中的每个特定质量分数组的所生成的第一数据来生成减小序列。
[0017]其他版本包括执行由在计算机可读存储设备上编码的指令所定义的方法的动作的对应系统、装置和计算机程序。
[0018]这些和其他版本可任选地包括以下特征中的一个或多个特征。例如,在一些具体实施中,所获得的数据包括FASTQ文件。
[0019]在一些具体实施中,该多个质量分数中的每个质量分数是表示质量分数的ASCII值的数据。
[0020]在一些具体实施中,该方法还包括:对于该多个质量分数的第二子集中的每个特定质量分数:由一个或多个计算机确定质量分数的序列的第二子集中的特定质量分数不是具有满足预先确定的阈值的发生频率的特定质量分数组的成员;以及由一个或多个计算机使用预先确定的单个映射来生成将用作减小序列中的单个条目的第二数据,其中将用作减小序列中的单个条目的第二数据表示不是具有满足预先确定的阈值的发生频率的特定质量分数组的成员的质量分数,其中预先确定的单个映射定义多个单个质量分数中的每个单个质量分数与对应的单个条目之间的一对一映射。
[0021]在一些具体实施中,由一个或多个计算机生成减小序列可包括:由一个或多个计算机聚合用于特定质量分数组中的每个特定质量分数组的所生成的第一数据;以及由一个或多个计算机聚合用于不是具有满足预先确定的阈值的发生频率的特定质量分数组的成员的质量分数中的每个质量分数的所生成的第二数据。
[0022]在一些具体实施中,该方法还可包括由一个或多个计算机识别该多个质量分数中的多个质量分数组。
[0023]在一些具体实施中,预先确定的组映射定义多个不同的质量分数组中的每个质量分数组与对应的单个条目之间的一对一映射。
[0024]根据本公开的另一个创新方面,公开了另一种用于压缩核酸序列数据的方法。在一个方面,该方法可包括:由一个或多个计算机获得核酸序列数据,该核酸序列数据表示(i)读段序列,该读段序列包括对应于由核酸测序设备生成的多个碱基检出的数据,和(ii)多个质量分数,其中该多个质量分数中的每个质量分数指示读段序列的特定碱基检出由核酸测序设备正确识别的可能性;由一个或多个计算机确定该多个质量分数中每个质量分数组的发生频率,其中每个质量分数组包括该多个质量分数的质量分数子集;对于该多个质量分数的第一子集中的每个特定质量分数:由一个或多个计算机确定该多个质量分数的第一子集中的特定质量分数不是具有满足预先确定的阈值的发生频率的特定质量分数组的成员;由一个或多个计算机使用预先确定的单个映射来生成将用作减小序列中的单个条目的第一数据,其中将用作减小序列中的单个条目的第一数据表示不是具本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于压缩核酸序列数据的方法,所述方法包括:由一个或多个计算机获得核酸序列数据,所述核酸序列数据表示:(i)读段序列,所述读段序列包括对应于由核酸测序设备生成的多个碱基检出的数据,和(ii)多个质量分数,其中所述多个质量分数中的每个质量分数指示所述读段序列的特定碱基检出由核酸测序设备正确生成的可能性;由一个或多个计算机确定所述读段序列是否包括至少一个“N”碱基;基于确定所述读段序列不包括至少一个“N”碱基,由一个或多个计算机通过使用第一编码过程来生成第一经编码数据集,所述第一编码过程使用以(x

1)为底数的数对所述读段序列的所述质量分数中的每个质量分数进行编码,其中x是表示由所述核酸测序设备使用的不同质量分数的数量的整数;以及由一个或多个计算机使用第二编码过程对所述第一经编码数据集进行编码,从而压缩待压缩的数据。2.根据权利要求1所述的方法,其中x等于3。3.根据权利要求2所述的方法,其中所述第一编码过程包括由一个或多个计算机通过将所述读段序列的所述多个质量分数中的每组五个质量分数中的每个质量分数表示为以3为底数的数,将所述一组五个质量分数编码到单个字节中。4.根据权利要求1所述的方法,还包括:基于确定所述读段序列包括至少一个“N”碱基,由一个或多个计算机通过使用第三编码过程来生成第二编码数据集,所述第三编码过程用于将所述读段序列的每组四个质量分数编码到存储器的单个字节中;以及由一个或多个计算机使用第四编码过程对所述第二编码数据进行编码。5.根据权利要求4所述的方法,其中所述第二编码过程和所述第四编码过程是相同的。6.根据权利要求1所述的方法,其中所获得的数据包括FASTQ文件。7.根据权利要求1所述的方法,其中所述第一经编码数据集是所述多个质量分数的压缩版本。8.根据权利要求1所述的方法,其中所述第二编码过程是压缩过程。9.根据权利要求8所述的方法,其中所述压缩过程包括范围编码器的通过部分匹配(PPMD)进行预测的具体实施。10.根据权利要求9所述的方法,其中对于所述第一经编码数据集的给定值,根据4位上下文相对于所述给定值在所述第一经编码数据集内的位置来压缩所述给定值。11.一种用于压缩核酸序列数据的系统,所述系统包括:一个或多个数据处理装置;和具有存储在其上的指令的一个或多个计算机可读存储设备,所述指令在由所述一个或多个数据处理装置执行时,使所述一个或多个数据处理装置执行操作,所述操作包括:由所述一个或多个计算机获得核酸序列数据,所述核酸序列数据表示:(i)读段序列,所述读段序列包括对应于由核酸测序设备生成的多个碱基检出的数据,和(ii)多个质量分数,其中所述多个质量分数中的每个质量分数指示所述读段序列的特
定碱基检出由核酸测序设备正确生成的可能性;由所述一个或多个计算机确定所述读段序列是否包括至少一个“N”碱基;基于确定所述读段序列不包括至少一个“N”碱基,由所述一个或多个计算机通过使用第一编码过程来生成第一经编码数据集,所述第一编码过程使用以(x

1)为底数的数对所述读段序列的所述质量分数中的每个质量分数进行编码,其中x是表示由所述核酸测序设备使用的不同质量分数的数量的整数;以及由所述一个或多个计算机使用第二编码过程对所述第一经编码数据集进行编码,从而压缩待压缩的数据。12.根据权利要求11所述的系统,其中x等于3。13.根据权利要求12所述的系统,其中所述第一编码过程包括由所述一个或多个计算机通过将所述读段序列的所述多个质量分数中的每组五个质量分数中的每个质量分数表示为以3为底数的数,将所述一组五个质量分数编码到单个字节中。14.根据权利要求11所述的系统,所述操作还包括:基于确定所述读段序列包括至少一个“N”碱基,由所述一个或多个计算机通过使用第三编码过程来生成第二编码数据集,所述第三编码过程用于将所述读段序列的每组四个质量分数编码到存储器的单个字节中;以及由所述一个或多个计算机使用第四编码过程对所述第二编码数据进行编码。15.根据权利要求14所述的系统,其中所述第二编码过程和所述第四编码过程是相同的。16.根据权利要求11所述的系统,其中所获得的数据包括FASTQ文件。17.根据权利要求11所述的系统,其中所述第一经编码数据集是所述多个质量分数的压缩版本。18.根据权利要求11所述的系统,其中所述第二编码过程是压缩过程。19.根据权利要求18所述的系统,其中所述压缩过程包括范围编码器的通过部分匹配(PPMD)进行预测的具体实施。20.根据权利要求19所述的系统,其中对于所述第一经编码数据集的给定值,根据4位上下文相对于所述给定值在所述第一经编码数据集内的位置来压缩所述给定值。21.一种具有存储在其上的指令的计算机可读存储设备,所述指令在由数据处理装置执行时,使所述数据处理装置执行操作,所述操作包括:获得核酸序列数据,所述核酸序列数据表示:(i)读段序列,所述读段序列包括对应于由核酸测序设备生成的多个碱基检出的数据,和(ii)多个质量分数,其中所述多个质量分数中的每个质量分数指示所述读段序列的特定碱基检出由核酸测序设备正确生成的可能性;由一个或多个计算机确定所述读段序列是否包括至少一个“N”碱基;基于确定所述读段序列不包括至少一个“N”碱基,通过使用第一编码过程来生成第一经编码数据集,所述第一编码过程使用以(x

1)为底数的数对所述读段序列的所述质量分数中的每个质量分数进行编码,其中x是表示由所述核酸测序设备使用的不同质量分数的
数量的整数;以及使用第二编码过程对所述第一经编码数据集进行编码,从而压缩待压缩的数据。22.根据权利要求21所述的计算机可读存储设备,其中x等于3。23.根据权利要求22所述的计算机可读存储设备,其中所述第一编码过程包括通过将所述读段序列的所述多个质量分数中的每组五个质量分数中的每个质量分数表示为以3为底数的数,将所述一组五个质量分数编码到单个字节中。24.根据权利要求21所述的计算机可读存储设备,所述操作还包括:基于确定所述读段序列包括至少一个“N”碱基,通过使用第三编码过程来生成第二编码数据集,所述第三编码过程用于将所述读段序列的每组四个质量分数编码到存储器的单个字节中;以及使用第四编码过程对所述第二编码数据进行编码。25.根据权利要求24所述的计算机可读存储设备,其中所述第二编码过程和所述第四编码过程是相同的。26.根据权利要求21所述的计算机可读存储设备,其中所获得的数据包括FASTQ文件。27.根据权利要求21所述的计算机可读存储设备,其中所述第一经编码数据集是所述多个质量分数的压缩版本。28.根据权利要求21所述的计算机可读存储设备,其中所述第二编码过程是压缩过程。29.根据权利要求28所述的计算机可读存储设备,其中所述压缩过程包括范围编码器的通过部分匹配(PPMD)进行预测的具体实施。30.根据权利要求29所述的计算机可读存储设备,其中对于所述第一经编码数据集的给定值,根据4位上下文相对于所述给定值在所述第一经编码数据集内的位置来压缩所述给定值。31.一种用于压缩核酸序列数据的方法,所述方法包括:由一个或多个计算机获得核酸序列数据,所述核酸序列数据表示:(i)读段序列,所述读段序列包括对应于由核酸测序设备生成的多个碱基检出的数据,和(ii)多个质量分数,其中所述多个质量分数中的每个质量分数指示所述读段序列的特定碱基检出由核酸测序设备正确生成的可能性;由一个或多个计算机确定所述多个质量分数中每个质量分数组的发生频率,其中每个质量分数组包括所述多个质量分数的质量分数子集;对于所述多个质量分数的第一子集中的每个特定质量分数:由一个或多个计算机确定所述质量分数是具有满足预先确定的阈值的发生频率的特定质量分数组的成员;基于确定所述质量分数是具有满足所述预先确定的阈值的发生频率的特定质量分数组的成员,由一个或多个计算机使用预先确定的组映射来生成将用作减小序列中的单个条目的第一数据,其中将用作所述减小序列中的所述单个条目的所述第一数据表示所述特定质量分数组;以及由一个或多个计算机通过聚合用于所述特定质量分数组中的每个特定质量分数组的所生成的第一数据来生成所述减小序列。
32.根据权利要求31所述的方法,其中所获得的数据包括FASTQ文件。33.根据权利要求31所述的方法,其中所述多个质量分数中的每个质量分数是表示所述质量分数的ASCII值的数据。34.根据权利要求31所述的方法,还包括:对于所述多个质量分数的第二子集中的每个特定质量分数:由一个或多个计算机确定所述质量分数的序列的所述第二子集中的所述特定质量分数不是具有满足预先确定的阈值的发生频率的特定质量分数组的成员;以及由一个或多个计算机使用预先确定的单个映射来生成将用作减小序列中的单个条目的第二数据,其中将用作所述减小序列中的所述单个条目的所述第二数据表示不是具有满足所述预先确定的阈值的发生频率的特定质量分数组的成员的所述质量分数,其中所述预先确定的单个映射定义多个单个质量分数中的每个单个质量分数与对应的单个条目之间的一对一映射。35.根据权利要求34所述的方法,其中由一个或多个计算机生成所述减小序列包括:由一个或多个计算机聚合用于所述特定质量分数组中的每个特定质量分数组的所生成的第一数据;以及由一个或多个计算机聚合用于不是具有满足所述预先确定的阈值的发生频率的特定质量分数组的成员的所述质量分数中的每个质量分数的所生成的第二数据。36.根据权利要求31所述的方法,还包括由一个或多个计算机识别所述多个质量分数中的多个质量分数组。37.根据权利要求31所述的方法,其中所述预先确定的组映射定义多个不同的质量分数组中的每个质量分数组与对应的单个条目之间的一对一映射。38.一种用于压缩核酸序列数据的系统,所述系统包括:一个或多个数据处理装置;和具有存储在其上的指令的一个或多个计算机可读存储设备,所述指令在由所述一个或多个数据处理装置执行时,使所述一个或多个数据处理装置执行操作,所述操作包括:由所述一个或多个计算机获得核酸序列数据,所述核酸序列数据表示:(i)读段序列,所述读段序列包括对应于由核酸测序设备生成的多个碱基检出的数据,和(ii)多个质量分数,其中所述多个质量分数中的每个质量分数指示所述读段序列的特定碱基检出由核酸测序设备正确生成的可能性;由所述一个或多个计算机确定所述多个质量分数中每个质量分数组的发生频率,其中每个质量分数组包括所述多个质量分数的质量分数子集;对于所述多个质量分数的第一子集中的每个特定质量分数:由所述一个或多个计算机确定所述质量分数是具有满足预先确定的阈值的发生频率的特定质量分数组的成员;基于确定所述质量分数是具有满足所述预先确定的阈值的发生频率的特定质量分数组的成员,由所述一个或多个计算机使用预先确定的组映射来生成将用作减小序列中的单个条目的第一数据,其中将用作所述减小序列中的所述单个条目的所述第一数据表示所述
特定质量分数组;以及由所述一个或多个计算机通过聚合用于所述特定质量分数组中的每个特定质量分数组的所生成的第一数据来生成所述减小序列。39.根据权利要求38所述的系统,其中所获得的数据包括FASTQ文件。40.根据权利要求38所述的系统,其中所述多个质量分数中的每个质量分数是表示所述质量分数的ASCII值的数据。41.根据权利要求38所述的系统,所述操作还包括:对于所述多个质量分数的第二子集中的每个特定质量分数:由所述一个或多个计算机确定所述质量分数的序列的所述第二子集中的所述特定质量分数不是具有满足预先确定的阈值的发生频率的特定质量分数组的成员;以及由所述一个或多个计算机使用预先确定的单个映射来生成将用作减小序列中的单个条目的第二数据,其中将用作所述减小序列中的所述单个条目的所述第二数据表示不是具有满足所述预先确定的阈值的发生频率的特定质量分数组的成员的所述质量分数,其中所...

【专利技术属性】
技术研发人员:G
申请(专利权)人:因美纳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1