高通量测序数据质量过滤方法和过滤装置制造方法及图纸

技术编号:15499927 阅读:135 留言:0更新日期:2017-06-03 22:01
本发明专利技术公开了一种对高通量测序数据进行质量过滤的方法和装置,所述方法包括:根据所述高通量测序数据为并行计算做准备;通过并行计算过滤掉准备好的数据中质量不达标的数据。确定质量转换方式;数据切分;生成并行计算的执行实体。将第一文件和第二文件分别转换为第一RDD和第二RDD;将第一RDD和第二RDD分别切分为第一partition组和第二partition组;将第一RDD和第二RDD合并为第三RDD;将第三RDD切分为第三partition组。生成对第三partition组进行并行计算的执行实体task。采用本发明专利技术的技术方案,能够大大提高对高通量测序数据进行质量过滤的执行速度。

High throughput sequencing, data quality filtering method and filtering device

The invention discloses a method and a device for sequencing data quality filter of high throughput, the method comprises the following steps: preparing according to the high-throughput sequencing data for parallel computing; parallel computing by filtering out the prepared data in data quality standards. Determining the quality conversion method; data segmentation; generating the executing entities of parallel computing. The first file and the second file are converted to the first RDD and second RDD; the first RDD and second RDD respectively, divided into the first partition group and second partition group; the first RDD and the second RDD and third RDD; third RDD divided into third partition group. Generates an executing entity task that performs parallel computations on the third partition group. By adopting the technical proposal of the invention, the execution speed of mass filtering for high throughput sequencing data can be greatly improved.

【技术实现步骤摘要】
高通量测序数据质量过滤方法和过滤装置
本专利技术涉及生物和计算机领域,特别涉及通过大数据技术对高通量测序数据进行质量过滤的方法和装置。
技术介绍
基于高通量测序数据寻找和致病基因、癌症治疗、个性化用药相关的染色体突变位点为临床应用提供了不可估量的前景。由于测序技术的不断进步,获取到的数据越来越多,如何快速地处理不断增加的高通量测序数据已成为亟待解决的问题。在获取到高通量测序数据后,需要对原始数据进行过滤,将低质量的数据过滤掉,保留高质量的数据进行下一步处理。目前常用的过滤软件Trime对1.1GX2的高通量测序数据进行双端过滤需要九分钟以上,随着数据的不断增大,质量过滤需要的时间也越来越长。如何缩短质量过滤消耗的时间,让高质量的数据尽快地进入下游的分析环节,从而缩短科研人员、患者等待分析结果的时间,已成为亟待解决的问题。
技术实现思路
有鉴于此,本专利技术基于分布式计算框架提供了一种对高通量测序数据进行质量过滤的方法和装置,能够将低质量的数据过滤掉,与以往的过滤方法相比,大大提升了处理速度。本专利技术的实施例提供了一种对高通量测序数据进行质量过滤的方法,所述方法包括:根据所述高通量测序数据为并行计算做准备;通过并行计算过滤掉准备好的数据中质量不达标的数据。优选地,所述根据所述高通量测序数据为并行计算做准备包括:根据所述高通量测序数据中的质量数据确定质量转换方式;对已确定质量转换方式的高通量测序数据进行切分;生成对切分后的数据进行并行计算的执行实体。优选地,所述对已确定质量转换方式的高通量测序数据进行切分包括:将包含已确定质量转换方式的高通量测序数据的第一文件和第二文件分别转换为各自对应的第一RDD和第二RDD;将第一RDD和第二RDD分别切分为各自对应的第一partition组和第二partition组;根据第一文件和第二文件中对应的数据将第一RDD和第二RDD合并为第三RDD;将第三RDD切分为第三partition组。优选地,所述生成对切分后的数据进行并行计算的执行实体为:生成对第三partition组进行并行计算的执行实体task。优选地,其特征在于,所述通过并行计算过滤掉准备好的数据中质量不达标的数据包括:根据预定质量值阈值和质量值转换方式通过执行实体对所述高通量测序数据并行地进行过滤;根据预定序列长度阈值通过执行实体对保留下来的高通量测序数据并行地进行过滤。优选地,所述根据预定质量值阈值、所述质量值转换方式对所述高通量测序数据进行过滤包括:如果所述高通量测序数据某一记录中的质量行中的某一位置上的质量值小于预定质量值阈值,则通过执行实体并行地过滤掉所述质量行该位置及以后的数据,以及同一记录中的序列行中的对应位置及以后的数据。优选地,所述根据预定序列长度阈值对保留下来的高通量测序数据进行过滤包括:在保留下来的高通量测序数据中,如果第一文件和第二文件相对应的两个记录中有任意一个记录中的序列行长度小于预定长度阈值,则通过执行实体并行地过滤掉第一文件和第二文件中相对应的这两个记录。另一方面,本专利技术的实施例还提供了一种对高通量测序数据进行质量过滤的装置,所述装置包括:并行准备模块,用于根据所述高通量测序数据为并行计算做准备;质量过滤模块,用于通过并行计算过滤掉准备好的数据中质量不达标的数据。优选地,所述并行准备模块包括:质量转换方式确定单元:用于根据所述高通量测序数据中的质量数据确定质量转换方式;数据切分单元:用于对已确定质量转换方式的高通量测序数据进行切分;执行实体生成单元:用于生成对切分后的数据进行并行计算的执行实体。优选地,所述数据切分单元具体用于:将包含已确定质量转换方式的高通量测序数据的第一文件和第二文件分别转换为各自对应的第一RDD和第二RDD;将第一RDD和第二RDD分别切分为各自对应的第一partition组和第二partition组;根据第一文件和第二文件中对应的数据将第一RDD和第二RDD合并为第三RDD;将第三RDD切分为第三partition组。优选地,所述执行实体生成单元具体用于:生成对第三partition组进行并行计算的执行实体task。优选地,所述质量过滤模块具体用于:根据预定质量值阈值和质量值转换方式通过执行实体对所述高通量测序数据并行地进行过滤;根据预定序列长度阈值通过执行实体对保留下来的高通量测序数据并行地进行过滤。优选地,所述质量过滤模块用于根据预定质量值阈值和质量值转换方式通过执行实体对所述高通量测序数据并行地进行过滤包括:如果所述高通量测序数据某一记录中的质量行中的某一位置上的质量值小于预定质量值阈值,则通过执行实体并行地过滤掉所述质量行该位置及以后的数据,以及同一记录中的序列行中的对应位置及以后的数据。优选地,所述质量过滤模块用于根据预定质量值阈值和质量值转换方式通过执行实体对所述高通量测序数据并行地进行过滤包括:在保留下来的高通量测序数据中,如果第一文件和第二文件相对应的两个记录中有任意一个记录中的序列行长度小于预定长度阈值,则通过执行实体并行地过滤掉第一文件和第二文件中相对应的这两个记录。本专利技术提供的技术方案采用大数据处理技术Spark集群开发了用于对高通量测序数据进行质量过滤的软件工具Sfastq_filter,极大地提高了对高通量测序数据进行质量过滤的速度:Sfastq_filter在12核18G的配置环境下双端过滤1.1GX2的数据,只需要三分钟,与传统的Trime软件相比处理速度快两倍以上。如果机器配置更高,数据量更大,那么对比效果也会更加明显。附图说明图1为本专利技术实施例一提供的对高通量测序数据进行质量过滤的方法的示意图;图2为本专利技术实施例二提供的对高通量测序数据进行质量过滤的方法的示意图;图3为本专利技术实施例三提供的对高通量测序数据进行质量过滤的方法的示意图;图4为本专利技术实施例四至六提供的对高通量测序数据进行质量过滤的装置的示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,以下将参照本专利技术实施例中的附图,通过实施方式清楚、完整地描述本专利技术的技术方案,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。在本专利技术的实施例中,相关名词解释如下:高通量测序数据:用高通量测序方法获得的数据;高通量测序:能够一次并行对几十万到几百万条DNA片段进行序列测定的测序方法;第一阈值:在本专利技术的实施例中为58,在实际应用中可以根据具体情况取适当的值;第二阈值:在本专利技术的实施例中为76,在实际应用中可以根据具体情况取适当的值;第一碱基质量值转换方式:将质量行中每一位置上的质量数据(即ASCII码字符的ASCII码值)减去第一阈值,得到对应碱基的质量值;第二碱基质量值转换方式:将质量行中每一位置上的质量数据(即ASCII码字符的ASCII码值)减去第二阈值,得到对应碱基的质量值。第一文件、第二文件:作为Sfastq_filter软件的输入文件成对出现的高通量测序数据文件;其中第一文件和第二文件中的记录是一一对应的。质量达标:如果第一文件和第二文件中一一对应的两个记录中的质量行某一位置及该位置以前的质量数据的质量值均大于等于预定质量值阈值,且这两个一一对应的记录中的序列行的碱基数均大于等于预定序列长度阈值,那么满足上述条件的高通量测序数据的记录称为质量本文档来自技高网...
高通量测序数据质量过滤方法和过滤装置

【技术保护点】
一种对高通量测序数据进行质量过滤的方法,其特征在于,所述方法包括:根据所述高通量测序数据为并行计算做准备;通过并行计算过滤掉准备好的数据中质量不达标的数据。

【技术特征摘要】
1.一种对高通量测序数据进行质量过滤的方法,其特征在于,所述方法包括:根据所述高通量测序数据为并行计算做准备;通过并行计算过滤掉准备好的数据中质量不达标的数据。2.根据权利要求1所述的对高通量测序数据进行质量过滤的方法,其特征在于,所述根据所述高通量测序数据为并行计算做准备包括:根据所述高通量测序数据中的质量数据确定质量转换方式;对已确定质量转换方式的高通量测序数据进行切分;生成对切分后的数据进行并行计算的执行实体。3.根据权利要求2所述的对高通量测序数据进行质量过滤的方法,其特征在于,所述对已确定质量转换方式的高通量测序数据进行切分包括:将包含已确定质量转换方式的高通量测序数据的第一文件和第二文件分别转换为各自对应的第一RDD和第二RDD;将第一RDD和第二RDD分别切分为各自对应的第一partition组和第二partition组;根据第一文件和第二文件中对应的数据将第一RDD和第二RDD合并为第三RDD;将第三RDD切分为第三partition组。4.根据权利要求3所述的对高通量测序数据进行质量过滤的方法,其特征在于,所述生成对切分后的数据进行并行计算的执行实体为:生成对第三partition组进行并行计算的执行实体task。5.根据权利要求2-4中任意一项所述的对高通量测序数据进行质量过滤的方法,其特征在于,所述通过并行计算过滤掉准备好的数据中质量不达标的数据包括:根据预定质量值阈值和质量值转换方式通过执行实体对所述高通量测序数据并行地进行过滤;根据预定序列长度阈值通过执行实体对保留下来的高通量测序数据并行地进行过滤。6.根据权利要求5对高通量测序数据进行质量过滤的方法,其特征在于,所述根据预定质量值阈值、所述质量值转换方式对所述高通量测序数据进行过滤包括:如果所述高通量测序数据某一记录中的质量行中的某一位置上的质量值小于预定质量值阈值,则通过执行实体并行地过滤掉所述质量行该位置及以后的数据,以及同一记录中的序列行中的对应位置及以后的数据。7.根据权利要求6对高通量测序数据进行质量过滤的方法,其特征在于,所述根据预定序列长度阈值对保留下来的高通量测序数据进行过滤包括:在保留下来的高通量测序数据中,如果第一文件和第二文件相对应的两个记录中有任意一个记录中的序列行长度小于预定长度阈值,则通过执行实体并行地过滤掉第一文件和第二文件中相对应的这两个记录。8.一种对高通量测序数据进行质量过滤的装置,...

【专利技术属性】
技术研发人员:陈晨王震于伟文
申请(专利权)人:上海华点云生物科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1