The invention discloses a method and a device for sequencing data quality filter of high throughput, the method comprises the following steps: preparing according to the high-throughput sequencing data for parallel computing; parallel computing by filtering out the prepared data in data quality standards. Determining the quality conversion method; data segmentation; generating the executing entities of parallel computing. The first file and the second file are converted to the first RDD and second RDD; the first RDD and second RDD respectively, divided into the first partition group and second partition group; the first RDD and the second RDD and third RDD; third RDD divided into third partition group. Generates an executing entity task that performs parallel computations on the third partition group. By adopting the technical proposal of the invention, the execution speed of mass filtering for high throughput sequencing data can be greatly improved.
【技术实现步骤摘要】
高通量测序数据质量过滤方法和过滤装置
本专利技术涉及生物和计算机领域,特别涉及通过大数据技术对高通量测序数据进行质量过滤的方法和装置。
技术介绍
基于高通量测序数据寻找和致病基因、癌症治疗、个性化用药相关的染色体突变位点为临床应用提供了不可估量的前景。由于测序技术的不断进步,获取到的数据越来越多,如何快速地处理不断增加的高通量测序数据已成为亟待解决的问题。在获取到高通量测序数据后,需要对原始数据进行过滤,将低质量的数据过滤掉,保留高质量的数据进行下一步处理。目前常用的过滤软件Trime对1.1GX2的高通量测序数据进行双端过滤需要九分钟以上,随着数据的不断增大,质量过滤需要的时间也越来越长。如何缩短质量过滤消耗的时间,让高质量的数据尽快地进入下游的分析环节,从而缩短科研人员、患者等待分析结果的时间,已成为亟待解决的问题。
技术实现思路
有鉴于此,本专利技术基于分布式计算框架提供了一种对高通量测序数据进行质量过滤的方法和装置,能够将低质量的数据过滤掉,与以往的过滤方法相比,大大提升了处理速度。本专利技术的实施例提供了一种对高通量测序数据进行质量过滤的方法,所述方法包括:根据所述高通量测序数据为并行计算做准备;通过并行计算过滤掉准备好的数据中质量不达标的数据。优选地,所述根据所述高通量测序数据为并行计算做准备包括:根据所述高通量测序数据中的质量数据确定质量转换方式;对已确定质量转换方式的高通量测序数据进行切分;生成对切分后的数据进行并行计算的执行实体。优选地,所述对已确定质量转换方式的高通量测序数据进行切分包括:将包含已确定质量转换方式的高通量测序数据的第一文件和 ...
【技术保护点】
一种对高通量测序数据进行质量过滤的方法,其特征在于,所述方法包括:根据所述高通量测序数据为并行计算做准备;通过并行计算过滤掉准备好的数据中质量不达标的数据。
【技术特征摘要】
1.一种对高通量测序数据进行质量过滤的方法,其特征在于,所述方法包括:根据所述高通量测序数据为并行计算做准备;通过并行计算过滤掉准备好的数据中质量不达标的数据。2.根据权利要求1所述的对高通量测序数据进行质量过滤的方法,其特征在于,所述根据所述高通量测序数据为并行计算做准备包括:根据所述高通量测序数据中的质量数据确定质量转换方式;对已确定质量转换方式的高通量测序数据进行切分;生成对切分后的数据进行并行计算的执行实体。3.根据权利要求2所述的对高通量测序数据进行质量过滤的方法,其特征在于,所述对已确定质量转换方式的高通量测序数据进行切分包括:将包含已确定质量转换方式的高通量测序数据的第一文件和第二文件分别转换为各自对应的第一RDD和第二RDD;将第一RDD和第二RDD分别切分为各自对应的第一partition组和第二partition组;根据第一文件和第二文件中对应的数据将第一RDD和第二RDD合并为第三RDD;将第三RDD切分为第三partition组。4.根据权利要求3所述的对高通量测序数据进行质量过滤的方法,其特征在于,所述生成对切分后的数据进行并行计算的执行实体为:生成对第三partition组进行并行计算的执行实体task。5.根据权利要求2-4中任意一项所述的对高通量测序数据进行质量过滤的方法,其特征在于,所述通过并行计算过滤掉准备好的数据中质量不达标的数据包括:根据预定质量值阈值和质量值转换方式通过执行实体对所述高通量测序数据并行地进行过滤;根据预定序列长度阈值通过执行实体对保留下来的高通量测序数据并行地进行过滤。6.根据权利要求5对高通量测序数据进行质量过滤的方法,其特征在于,所述根据预定质量值阈值、所述质量值转换方式对所述高通量测序数据进行过滤包括:如果所述高通量测序数据某一记录中的质量行中的某一位置上的质量值小于预定质量值阈值,则通过执行实体并行地过滤掉所述质量行该位置及以后的数据,以及同一记录中的序列行中的对应位置及以后的数据。7.根据权利要求6对高通量测序数据进行质量过滤的方法,其特征在于,所述根据预定序列长度阈值对保留下来的高通量测序数据进行过滤包括:在保留下来的高通量测序数据中,如果第一文件和第二文件相对应的两个记录中有任意一个记录中的序列行长度小于预定长度阈值,则通过执行实体并行地过滤掉第一文件和第二文件中相对应的这两个记录。8.一种对高通量测序数据进行质量过滤的装置,...
【专利技术属性】
技术研发人员:陈晨,王震,于伟文,
申请(专利权)人:上海华点云生物科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。