本发明专利技术公开了一种二代测序数据的压缩方法。方法包括:对每个样本的二代测序数据,根据第一预设长度进行分割,生成BSSL初始文件;根据第二预设长度构建切割标签文件;根据切割标签文件对BSSL初始文件进行处理,获得BSSL中间文件;将BSSL中间文件合并得到BSSL最终文件;统计BSSL最终文件中种子序列的频次分布结果,根据结果得到种子文件;结合测序数据的格式特征,确定压缩规则,基于种子文件,对每个样本的二代测序数据进行压缩。本发明专利技术通过将二代测序数据进行分割以并行处理,提高处理速度,同时结合种子序列选择并得到种子文件,根据二代测序数据的格式特征和种子文件对二代测序数据进行压缩,从而可将二代测序数据的存储空间大大缩小。
【技术实现步骤摘要】
一种二代测序数据的压缩方法
本专利技术涉及生物信息和数据压缩
,尤其涉及一种二代测序数据的压缩方法。
技术介绍
DNA(脱氧核糖核酸)是细胞中用以长期存储生物遗传指令信息的双螺旋长链状聚合物。它是由四种碱基:腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C)两两配对而成的碱基对序列。随着人类基因组计划等大型国际合作研究项目的实施,一系列包括基因组学、转录组学、RNA(核糖核酸)组学和蛋白质组学等在内的研究导致了海量数据的产生,进而对数据存储和传输提出了更多的挑战。数据压缩有利于节约存储空间,提高数据交换及网络传输效率,这一点对于海量生物信息数据来说同样重要。到目前为止,已有针对生物数据的压缩而开发的算法和工具,如Gencompress、DNAcompress、RNACompress等。但是,这些算法和工具的压缩比例不高。
技术实现思路
本专利技术提供一种二代测序数据的压缩方法,包括:初文件生成步骤:对每个样本的二代测序数据,根据第一预设长度进行分割,生成固定长度碱基序列BSSL初始文件;标签文件生成步骤:根据第二预设长度构建切割标签文件;中间文件生成步骤:根据所述切割标签文件对所述BSSL初始文件进行处理,获得以切割标签为界的BSSL中间文件;终文件生成步骤:将得到的所有所述BSSL中间文件合并,得到BSSL最终文件;种子文件生成步骤:对所述BSSL最终文件,统计种子序列的频次分布结果,根据所述频次分布结果对所述BSSL最终文件进行选择,得到种子文件;压缩步骤:结合二代测序数据的格式特征,确定压缩规则,基于所述种子文件并根据所述压缩规则,对所述每个样本的二代测序数据进行压缩。进一步地,所述初文件生成步骤包括:根据第一预设长度,将每个样本的二代测序数据分割成多个小文件;对每个所述小文件,按预设序列固定长度生成BSSL初始文件。进一步地,所述标签文件生成步骤包括:根据第二预设长度,编写切割标签生成程序,所述切割标签是长度固定的短的碱基序列的全集合;运行所述切割标签生成程序,得到切割标签文件。进一步地,所述中间文件生成步骤包括:根据所述切割标签文件,编写中间文件生成程序;运行所述中间文件生成程序,得到和切割标签相关的多个文件夹;将所述多个文件夹中的文件合并,排序成以各个文件夹名称命名的多个文件,所述多个文件为所述BSSL中间文件。进一步地,所述终文件生成步骤包括:将所述BSSL中间文件按次序合并,得到一个所述BSSL最终文件,其中所述BSSL最终文件中的每条序列为BSSL条目。进一步地,所述种子文件生成步骤包括:统计所述BSSL最终文件中种子序列的出现次数;根据统计结果从所述BSSL最终文件中选出预设数目个所述BSSL条目,选择结果构成所述种子文件。进一步地,所述压缩步骤包括:根据二代测序数据的格式特征,编写压缩程序,其中,对于二代测序数据的第一行,压缩时丢弃“*”开始后的所有信息,只保留序列的标识符;对于二代测序数据的第二行,丢弃非确定碱基出现在非末尾位置的读段序列,利用ASCII码进行编码;对于测序数据的第三行,不进行压缩处理;对于测序数据的第四行,将碱基质量值大于第一预设阈值的质量值全部处理为等于第一预设阈值,将碱基质量值小于第二预设阈值的质量值全部处理为第二预设阈值减去第一预设阈值,并将具有相同字符多于预设数量个的字符修改为该字符及其相同字符的个数的形式。其中,所述利用ASCII码进行编码包括:利用ASCII码对所述种子文件进行编码,并将所述每个样本的二代测序数据中的第二行替换为编码后的种子文件,如果存在不能采用编码后的种子文件替换的序列,则将该序列中的每三个碱基替换为一个ASCII码。本专利技术的有益效果是:通过将二代测序数据进行分割,并行处理分割后得到的文件,提高处理速度,同时结合种子序列选择并得到种子文件,然后根据二代测序数据的格式特征和种子文件对二代测序数据进行压缩,从而可将二代测序数据的存储空间大大缩小。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。图1为fastq格式的一种示例的示意图;图2为本专利技术一种实施例的二代测序数据压缩方法的流程示意图;图3至图8分别为采用ASCII码进行编码的示意图。具体实施方式fastq格式是一种用于存储生物序列(主要是核酸序列)及其测序质量分数的基于文本的格式,目前已成为高通量测序仪输出序列的标准格式。一个fastq文件中每个序列通常由四行组成,如图1的示例所示:第一行(line1)以“@”开头,后面接序列的标识符和可选的描述信息;第二行(line2)是测序的序列;第三行(line3)以“+”开头,后面可接相同于第一行的序列的描述信息;第四行(line4)是每个碱基的测序质量分数,质量分数用相应数值的ASCII码表示。显然,fastq数据的reads(读段,指测序出来的一条条碱基序列)主要由A、T、G、C四种碱基构成(部分存在没有测定且尚不明确的碱基N)。对于一条reads,以固定的碱基长度对其做分割,由该固定碱基长度组成的碱基序列(BSSL,basesequencewithsetlength,简称固定长度碱基序列)便称为一个BSSL条目。由于高深度基因组fastq数据相当庞大,存在几亿至几十亿条reads,对于某些BSSL条目,在整个基因组fastq数据中,重复出现次数可高达几十万至几百万次。而对不同的碱基长度值,各BSSL条目的重复频次也会有所差异。本专利技术利用fastq数据中某些BSSL条目的高频次重复出现的特性,以千人基因组fastq数据为示例进行BSSL分析,寻找最佳碱基长度值,构建合适的BSSL条目高重复频次表(种子文件,seed),建立相关的压缩算法,将可使fastq存储空间大大缩小。具体地,提出了一种二代测序数据的压缩方法,如图2所示,包括步骤S11~S16。步骤S11用于生成初文件,即,对每个样本的二代测序数据,根据第一预设长度进行分割,生成BSSL初始文件。在该步骤S11中,首先根据第一预设长度,将每个样本的二代测序数据分割成多个小文件,然后对每个小文件,按预设序列固定长度生成BSSL初始文件。第一预设长度可以根据经验值来设定,也可以通过若干次试验确定出,例如,首先设定为具有一定梯度的预设长度,比如10、20、30、40、50等,然后比较最终生成的BSSL文件(即步骤S14中的BSSL最终文件),如果BSSL文件大小越小,说明对应的第一预设长度越优,由此可以确定出第一预设长度。步骤S12用于生成标签文件,即根据第二预设长度构建切割标签文件。在步骤S12中,根据第二预设长度,编写切割标签生成程序,该切割标签是指长度固定的短的碱基序列的全集合,然后运行切割标签生成程序,得到切割标签文件。切割标签文件是由碱基A、T、C、G构成,如果其长度为5,则一共有4^5=1024个标签;切割标签文件的作用是用来有序分割BSSL初始文件。步骤S13用于生成中间文件,即根据切割标签文件对步骤S11得到的BSSL初始文件进行处理,获得以切割标签为界的BSSL中间文件,即该文件以标签为序列的起点和终点。在步骤S13中,根据步骤S12得到的切割标签文件,编写中间文件生成程序,然后运行该本文档来自技高网...
【技术保护点】
一种二代测序数据的压缩方法,其特征在于,包括:初文件生成步骤:对每个样本的二代测序数据,根据第一预设长度进行分割,生成固定长度碱基序列BSSL初始文件;标签文件生成步骤:根据第二预设长度构建切割标签文件;中间文件生成步骤:根据所述切割标签文件对所述BSSL初始文件进行处理,获得以切割标签为界的BSSL中间文件;终文件生成步骤:将得到的所有所述BSSL中间文件合并,得到BSSL最终文件;种子文件生成步骤:对所述BSSL最终文件,统计种子序列的频次分布结果,根据所述频次分布结果对所述BSSL最终文件进行选择,得到种子文件;压缩步骤:结合二代测序数据的格式特征,确定压缩规则,基于所述种子文件并根据所述压缩规则,对所述每个样本的二代测序数据进行压缩。
【技术特征摘要】
1.一种二代测序数据的压缩方法,其特征在于,包括:初文件生成步骤:对每个样本的二代测序数据,根据第一预设长度进行分割,生成固定长度碱基序列初始文件;标签文件生成步骤:根据第二预设长度构建切割标签文件;中间文件生成步骤:根据所述切割标签文件对所述固定长度碱基序列初始文件进行处理,获得以切割标签为界的固定长度碱基序列中间文件;终文件生成步骤:将得到的所有所述固定长度碱基序列中间文件合并,得到固定长度碱基序列最终文件;种子文件生成步骤:对所述固定长度碱基序列最终文件,统计种子序列的频次分布结果,根据所述频次分布结果对所述固定长度碱基序列最终文件进行选择,得到种子文件;压缩步骤:结合二代测序数据的格式特征,确定压缩规则,基于所述种子文件并根据所述压缩规则,对所述每个样本的二代测序数据进行压缩。2.如权利要求1所述的方法,其特征在于,所述初文件生成步骤包括:根据所述第一预设长度,将每个样本的二代测序数据分割成多个小文件;对每个所述小文件,按预设序列固定长度生成所述固定长度碱基序列初始文件。3.如权利要求1所述的方法,其特征在于,所述标签文件生成步骤包括:根据所述第二预设长度,编写切割标签生成程序,所述切割标签是长度固定的短的碱基序列的全集合;运行所述切割标签生成程序,得到所述切割标签文件。4.如权利要求1所述的方法,其特征在于,所述中间文件生成步骤包括:根据所述切割标签文件,编写中间文件生成程序;运行所述中间文件生成程序,得到和切割标签相关的多个文件夹;将所述多个文件夹中的文件合并,排序成以各个文件夹名称命...
【专利技术属性】
技术研发人员:严志祥,杨洁,操利超,游丽金,张勇,周欣,
申请(专利权)人:深圳华大基因研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。