一种二代测序数据的压缩方法技术

技术编号：13343000 阅读：84 留言：0更新日期：2016-07-13 20:49

本发明专利技术公开了一种二代测序数据的压缩方法。方法包括：对每个样本的二代测序数据，根据第一预设长度进行分割，生成BSSL初始文件；根据第二预设长度构建切割标签文件；根据切割标签文件对BSSL初始文件进行处理，获得BSSL中间文件；将BSSL中间文件合并得到BSSL最终文件；统计BSSL最终文件中种子序列的频次分布结果，根据结果得到种子文件；结合测序数据的格式特征，确定压缩规则，基于种子文件，对每个样本的二代测序数据进行压缩。本发明专利技术通过将二代测序数据进行分割以并行处理，提高处理速度，同时结合种子序列选择并得到种子文件，根据二代测序数据的格式特征和种子文件对二代测序数据进行压缩，从而可将二代测序数据的存储空间大大缩小。

全部详细技术资料下载

【技术实现步骤摘要】
一种二代测序数据的压缩方法
本专利技术涉及生物信息和数据压缩
，尤其涉及一种二代测序数据的压缩方法。
技术介绍
DNA（脱氧核糖核酸）是细胞中用以长期存储生物遗传指令信息的双螺旋长链状聚合物。它是由四种碱基：腺嘌呤（A）、胸腺嘧啶（T）、鸟嘌呤（G）和胞嘧啶（C）两两配对而成的碱基对序列。随着人类基因组计划等大型国际合作研究项目的实施，一系列包括基因组学、转录组学、RNA（核糖核酸）组学和蛋白质组学等在内的研究导致了海量数据的产生，进而对数据存储和传输提出了更多的挑战。数据压缩有利于节约存储空间，提高数据交换及网络传输效率，这一点对于海量生物信息数据来说同样重要。到目前为止，已有针对生物数据的压缩而开发的算法和工具，如Gencompress、DNAcompress、RNACompress等。但是，这些算法和工具的压缩比例不高。
技术实现思路
本专利技术提供一种二代测序数据的压缩方法，包括：初文件生成步骤：对每个样本的二代测序数据，根据第一预设长度进行分割，生成固定长度碱基序列BSSL初始文件；标签文件生成步骤：根据第二预设长度构建切割标签文件；中间文件生成步骤：根据所述切割标签文件对所述BSSL初始文件进行处理，获得以切割标签为界的BSSL中间文件；终文件生成步骤：将得到的所有所述BSSL中间文件合并，得到BSSL最终文件；种子文件生成步骤：对所述BSSL最终文件，统计种子序列的频次分布结果，根据所述频次分布结果对所述BSSL最终文件进行选择，得到种子文件；压缩步骤：结合二代测序数据的格式特征，确定压缩规则，基于所述种子文件并根据所述压缩规则，对所述每个...
一种二代测序数据的压缩方法

【技术保护点】
一种二代测序数据的压缩方法，其特征在于，包括：初文件生成步骤：对每个样本的二代测序数据，根据第一预设长度进行分割，生成固定长度碱基序列BSSL初始文件；标签文件生成步骤：根据第二预设长度构建切割标签文件；中间文件生成步骤：根据所述切割标签文件对所述BSSL初始文件进行处理，获得以切割标签为界的BSSL中间文件；终文件生成步骤：将得到的所有所述BSSL中间文件合并，得到BSSL最终文件；种子文件生成步骤：对所述BSSL最终文件，统计种子序列的频次分布结果，根据所述频次分布结果对所述BSSL最终文件进行选择，得到种子文件；压缩步骤：结合二代测序数据的格式特征，确定压缩规则，基于所述种子文件并根据所述压缩规则，对所述每个样本的二代测序数据进行压缩。

【技术特征摘要】
1.一种二代测序数据的压缩方法，其特征在于，包括：初文件生成步骤：对每个样本的二代测序数据，根据第一预设长度进行分割，生成固定长度碱基序列初始文件；标签文件生成步骤：根据第二预设长度构建切割标签文件；中间文件生成步骤：根据所述切割标签文件对所述固定长度碱基序列初始文件进行处理，获得以切割标签为界的固定长度碱基序列中间文件；终文件生成步骤：将得到的所有所述固定长度碱基序列中间文件合并，得到固定长度碱基序列最终文件；种子文件生成步骤：对所述固定长度碱基序列最终文件，统计种子序列的频次分布结果，根据所述频次分布结果对所述固定长度碱基序列最终文件进行选择，得到种子文件；压缩步骤：结合二代测序数据的格式特征，确定压缩规则，基于所述种子文件并根据所述压缩规则，对所述每个样本的二代测序数据进行压缩。2.如权利要求1所述的方法，其特征在于，所述初文件生成步骤包括：根据所述第一预设长度，将每个样本的二代测序数据分割成多个小文件；对每个所述小文件，按预设序列固定长度生成所述固定长度碱基序列初始文件。3.如权利要求1所述的方法，其特征在于，所述标签文件生成步骤包括：根据所述第二预设长度，编写切割标签生成程序，所述切割标签是长度固定的短的碱基序列的全集合；运行所述切割标签生成程序，得到所述切割标签文件。4.如权利要求1所述的方法，其特征在于，所述中间文件生成步骤包括：根据所述切割标签文件，编写中间文件生成程序；运行所述中间文件生成程序，得到和切割标签相关的多个文件夹；将所述多个文件夹中的文件合并，排序成以各个文件夹名称命...

【专利技术属性】
技术研发人员：严志祥，杨洁，操利超，游丽金，张勇，周欣，
申请(专利权)人：深圳华大基因研究院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人