针对FASTQ数据的多线程快速存储无损压缩方法及其系统技术方案

技术编号：13999276 阅读：467 留言：0更新日期：2016-11-15 13:07

本发明专利技术提供一种针对FASTQ数据的多线程快速存储无损压缩方法，应用于DNA序列的压缩，其中，所述方法包括：数据分类步骤：输入原始FASTQ数据，并将所述原始FASTQ数据的短读分成元数据、质量分数和碱基序列三个数据流；数据压缩步骤：针对元数据，利用增量编码方式进行检测并消除元数据的冗余信息；针对质量分数，利用比特级别的PPM预测模型和算术编码进行压缩；针对碱基序列，利用固定阶位的改良型算术编码进行压缩；数据输出步骤：将不同数据流的压缩结果进行归档合并，输出经过压缩后的最终数据。本发明专利技术还提供一种针对FASTQ数据的多线程快速存储无损压缩系统。本发明专利技术提供的技术方案能提高压缩效率和压缩速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据压缩领域，尤其涉及一种针对FASTQ数据的多线程快速存储无损压缩方法及其系统。
技术介绍
随着DNA测序技术的发展，基因组测序成本越来越低。2014年，测定一个人类基因组的成本控制在1000美元的里程碑已经到来。由于测序效率的提高，DNA序列数据量呈现出爆炸性增长。由于DNA测序数据的增长速度远远超过了计算机微处理器和存储设备的增长速度，存储和分析DNA测序技术和大型基因组项目所产生的DNA数据“海啸”已经成为制约DNA测序产业进一步发展的一个重要瓶颈。而且，由于DNA测序技术正从高通量测序(High-Throughput Sequencing)，又称为下一代测序(Next Generation Sequencing)发展到单分子测序技术(又称为第三代测序技术)，FASTQ数据的短读从50～200bp不等的固定长度发展到1kbp～300kbp不等的不定长度，数据变化之大进一步制约DNA测序产业的发展，因此迫切需要相关的数据压缩技术投入使用。然而，目前一些主流高效的通用压缩软件如gzip(http://www.gzip.org/)、bzip2(http://gzip.org/)和LZMA(http://www.7-zip.org/sdk.html)。gzip软件对于要压缩的文件首先会采用基于LZ77算法的变种压缩方式，对得到的结果再根据情况使用静态Huffman编码或者动态Huffman编码方法进行压缩。bzip2软件把要压缩的数据进行分块处理(100～900KB每块)，对于重复出现的字符序列使用BWT(Burrows-Wheeler t...

【技术保护点】
一种针对FASTQ数据的多线程快速存储无损压缩方法，应用于DNA序列的压缩，其特征在于，所述方法包括：数据分类步骤：输入原始FASTQ数据，并将所述原始FASTQ数据的短读分成元数据、质量分数和碱基序列三个数据流；数据压缩步骤：针对元数据，利用增量编码方式进行检测并消除元数据的冗余信息；针对质量分数，利用比特级别的PPM预测模型和算术编码进行压缩；针对碱基序列，利用固定阶位的改良型算术编码进行压缩；数据输出步骤：将不同数据流的压缩结果进行归档合并，输出经过压缩后的最终数据。

【技术特征摘要】
1.一种针对FASTQ数据的多线程快速存储无损压缩方法，应用于DNA序列的压缩，其特征在于，所述方法包括：数据分类步骤：输入原始FASTQ数据，并将所述原始FASTQ数据的短读分成元数据、质量分数和碱基序列三个数据流；数据压缩步骤：针对元数据，利用增量编码方式进行检测并消除元数据的冗余信息；针对质量分数，利用比特级别的PPM预测模型和算术编码进行压缩；针对碱基序列，利用固定阶位的改良型算术编码进行压缩；数据输出步骤：将不同数据流的压缩结果进行归档合并，输出经过压缩后的最终数据。2.如权利要求1所述的针对FASTQ数据的多线程快速存储无损压缩方法，其特征在于，在所述数据压缩步骤中采用了Pthreads的线程级并行编程方式来同时处理所述三个数据流的压缩。3.如权利要求2所述的针对FASTQ数据的多线程快速存储无损压缩方法，其特征在于，所述数据压缩步骤具体包括：针对质量分数，采用游程长读编码方式对质量分数的数据流进行初次压缩以实现预处理；利用比特级别的PPM预测模型和算术编码对经过预处理后的压缩数据进行再次压缩。4.如权利要求2所述的针对FASTQ数据的多线程快速存储无损压缩方法，其特征在于，所述数据压缩步骤具体包括：针对碱基序列，判断DNA序列的压缩模式是基于非参考基因的压缩模式还是基于参考基因的压缩模式；如果是基于非参考基因的压缩模式，则利用固定阶位的改良型算术编码将碱基序列的数据流进行压缩；如果是基于参考基因的压缩模式，则通过DNA数据匹配工具对DNA短读序列进行比对并剔除冗余，记录相应的匹配信息并以SAM格式文件保存，然后利用固定阶位的改良型算术编码将保存的SAM格式文件...

【专利技术属性】
技术研发人员：朱泽轩，黄志安，孙怡雯，文振焜，
申请(专利权)人：深圳大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人