测序建库的引物序列处理方法、装置、设备及存储介质制造方法及图纸

技术编号:19178072 阅读:26 留言:0更新日期:2018-10-17 00:30
本发明专利技术涉及一种测序建库的引物序列处理方法、装置、设备及存储介质。该方法包括获取将测序数据比对到参考基因组得到的测序比对文件、从所述测序比对文件得到正向比对结果和反向比对结果、确定正向比对结果中的各read对应的扩增子,以及确定反向比对结果中的各read对应的扩增子等步骤。该测序建库的引物序列处理方法、装置、设备和存储介质通过对测序结果进行处理,可以精准识别扩增片段中的引物部分,经过后续处理,如软切或硬切,可以排除该引物部分对测序结果分析的影响,可以最大限度的保留待测序片段的数据信息,保证测序结果分析的准确性和可靠性。

Primer sequence processing method, device, device and storage medium for sequencing Library

The invention relates to a primer sequence processing method, device, equipment and storage medium for sequencing database. The method includes obtaining the sequence alignment file obtained by comparing the sequence data with the reference genome, obtaining the forward alignment result and the reverse alignment result from the sequence alignment file, determining the amplifiers corresponding to the reads in the forward alignment result, and determining the amplifiers corresponding to the reads in the reverse alignment result. The primer sequence processing method, device, equipment and storage medium of the library can accurately identify the primer part of the amplified fragment by processing the sequencing results. After subsequent processing, such as soft or hard cutting, the influence of the primer part on the analysis of the sequencing results can be eliminated and the unknown primer part can be retained to the maximum extent. The data information of sequence fragments ensures the accuracy and reliability of the analysis of sequencing results.

【技术实现步骤摘要】
测序建库的引物序列处理方法、装置、设备及存储介质
本专利技术涉及二代测序
,尤其是涉及一种测序建库的引物序列处理方法、装置、设备及存储介质。
技术介绍
一般通过扩增构建的NGS(Next-generationsequencing,下一代测序、二代测序,又名High-throughputsequencing,即下一代测序)测序文库,在分析时会将扩增范围外的引物对应的测序结果排除,因为这部分测序结果有一半来源于引物而不是扩增的待测片段,从而导致了引物部分测序数据的丢失,而如果不排除这部分序列便会引入分析误差。对于一个较大的扩增片段,往往需要多对引物进行多重扩增才能扩增完整,在扩增片段的中间也有引物序列,这时候就不能简单地通过扩增片段范围来排除,否则就会导致引物序列掺入测序结果从而引入分析误差。例如引物对应的待测序片段上有一个突变,而引物是和参考序列一致没有突变的,因此直接分析测序结果会导致该突变的突变频率降低。
技术实现思路
基于此,针对上述技术问题,有必要提供一种测序建库的引物序列处理方法、装置、设备及存储介质。本专利技术解决上述技术问题的技术方案如下。一种测序建库的引物序列处理方法,包括如下步骤:获取将测序数据比对到参考基因组得到的测序比对文件;从所述测序比对文件得到正向比对结果和反向比对结果;对所述正向比对结果中的各read,从起始位置大于当前read的原始比对起始位置的所有扩增子中,确定起始位置最接近当前read的原始比对起始位置的扩增子作为与当前read对应的扩增子,得到正向比对结果中各read对应的扩增子;对所述反向比对结果中的各read,从终止位置小于当前read的原始比对终止位置的所有扩增子中,确定终止位置最接近当前read的原始比对终止位置的扩增子作为与当前read对应的扩增子,得到反向比对结果中各read对应的扩增子。在其中一个实施例中,在得到正向比对结果中各read对应的扩增子之后,还包括:将正向比对的各read的比对起始位置由其原始比对起始位置重新确定为与各read对应的扩增子的起始位置。在其中一个实施例中,在得到正向比对结果中各read对应的扩增子之后,还包括:对正向比对的各read的原始比对起始位置与与其对应的扩增子的起始位置之间的序列部分进行软切、硬切、或提取出原始序列数据后,在所述原始序列数据中切除该序列部分的序列数据。在其中一个实施例中,所述测序比对文件为bam格式文件,所述软切包括:根据正向比对结果中的各read对应的扩增子的起始位置与各read的原始比对起始位置之间的碱基数量,确定各read的正向引物待切碱基数量;将所述测序比对文件的CIGAR值中前面与所述正向引物待切碱基数量相同数量的碱基全部确定为软切标记的碱基,后面的其他碱基根据所述正向引物待切碱基数量、相应read的总碱基数量以及原始标记重新标记。在其中一个实施例中,在得到反向比对结果中各read对应的扩增子之后,还包括:将与反向比对的各read对应的配对read的比对起始位置由其原始比对起始位置重新确定为与各read对应的扩增子的起始位置。在其中一个实施例中,在得到反向比对结果中各read对应的扩增子之后,还包括:对反向比对的各read的原始比对终止位置与与其对应的扩增子的终止位置之间的序列部分进行软切、硬切、或提取出原始序列数据后,在所述原始序列数据中切除该序列部分的序列数据。在其中一个实施例中,所述测序比对文件为bam格式文件,所述软切包括:根据反向比对结果中的各read对应的扩增子的终止位置与各read的原始比对终止位置之间的碱基数量,确定各read的反向引物待切碱基数量;将所述测序比对文件的CIGAR值中后面与所述反向引物待切碱基数量相同数量的碱基全部确定为软切标记的碱基,前面的其他碱基根据所述反向引物待切碱基数量、相应read的总碱基数量以及原始标记重新标记。一种测序建库的引物序列处理装置,包括:测序比对文件获取模块,用于获取将测序数据比对到参考基因组得到的测序比对文件;正反比对结果分析模块,用于从所述测序比对文件得到正向比对结果和反向比对结果;正向比对结果处理模块,用于对所述正向比对结果中的各read,从起始位置大于当前read的原始比对起始位置的所有扩增子中,确定起始位置最接近当前read的原始比对起始位置的扩增子作为与当前read对应的扩增子,得到正向比对结果中各read对应的扩增子;反向比对结果处理模块,用于对所述反向比对结果中的各read,从终止位置小于当前read的原始比对终止位置的所有扩增子中,确定终止位置最接近当前read的原始比对终止位置的扩增子作为与当前read对应的扩增子,得到反向比对结果中各read对应的扩增子。一种计算机设备,具有处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的测序建库的引物序列处理方法的步骤。一种计算机存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述任一实施例所述的测序建库的引物序列处理方法的步骤。上述测序建库的引物序列处理方法、装置、设备和存储介质通过对测序结果进行处理,可以精准识别扩增片段中的引物部分,经过后续处理,如软切或硬切,可以排除该引物部分对测序结果分析的影响,可以最大限度的保留待测序片段的数据信息,保证测序结果分析的准确性和可靠性。附图说明图1为一实施例的测序建库的引物序列处理方法的流程图;图2为另一实施例的测序建库的引物序列处理方法的流程图;图3为对图2中正向比对结果中的各read的软切流程图;图4为对图2中反向比对结果中的各read的软切流程图;图5为软切流程示意图;图6为软切效果示意图;图7为软切对突变的影响示意图;图8为一实施例的测序建库的引物序列处理装置的结构示意图;图9为另一实施例的测序建库的引物序列处理装置的结构示意图。具体实施方式为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述。附图中给出了本专利技术的较佳实施例。但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本专利技术的公开内容的理解更加透彻全面。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。本文所述的“read”是高通量测序平台(如各类二代测序平台)所产生的测序序列;所述的“正向比对结果”是指read与参考序列的比对方向相同、序列一致,所述的“反向比对结果”是指read与参考序列的比对方向相反、序列反向互补;所述的“比对起始位置”是指read比对到参考序列的最左侧位置坐标;所述的“软切”即softclip,是指read比对效果不好,需屏蔽掉read的一部分后才能比对上参考序列,被屏蔽的部分仍保留在bam文件中,“硬切”即hardclip,是指与“软切”类似,但被屏蔽的部分没有保留在bam文件中;所述的“CIGAR”是ConciseIdiosyncraticGappedAlignmentReport的缩写,记录了read的比对信息本文档来自技高网
...

【技术保护点】
1.一种测序建库的引物序列处理方法,其特征在于,包括如下步骤:获取将测序数据比对到参考基因组得到的测序比对文件;从所述测序比对文件得到正向比对结果和反向比对结果;对所述正向比对结果中的各read,从起始位置大于当前read的原始比对起始位置的所有扩增子中,确定起始位置最接近当前read的原始比对起始位置的扩增子作为与当前read对应的扩增子,得到正向比对结果中各read对应的扩增子;对所述反向比对结果中的各read,从终止位置小于当前read的原始比对终止位置的所有扩增子中,确定终止位置最接近当前read的原始比对终止位置的扩增子作为与当前read对应的扩增子,得到反向比对结果中各read对应的扩增子。

【技术特征摘要】
1.一种测序建库的引物序列处理方法,其特征在于,包括如下步骤:获取将测序数据比对到参考基因组得到的测序比对文件;从所述测序比对文件得到正向比对结果和反向比对结果;对所述正向比对结果中的各read,从起始位置大于当前read的原始比对起始位置的所有扩增子中,确定起始位置最接近当前read的原始比对起始位置的扩增子作为与当前read对应的扩增子,得到正向比对结果中各read对应的扩增子;对所述反向比对结果中的各read,从终止位置小于当前read的原始比对终止位置的所有扩增子中,确定终止位置最接近当前read的原始比对终止位置的扩增子作为与当前read对应的扩增子,得到反向比对结果中各read对应的扩增子。2.如权利要求1所述的测序建库的引物序列处理方法,其特征在于,在得到正向比对结果中各read对应的扩增子之后,还包括:将正向比对的各read的比对起始位置由其原始比对起始位置重新确定为与各read对应的扩增子的起始位置。3.如权利要求1所述的测序建库的引物序列处理方法,其特征在于,在得到正向比对结果中各read对应的扩增子之后,还包括:对正向比对的各read的原始比对起始位置与与其对应的扩增子的起始位置之间的序列部分进行软切、硬切、或提取出原始序列数据后,在所述原始序列数据中切除该序列部分的序列数据。4.如权利要求3所述的测序建库的引物序列处理方法,其特征在于,所述测序比对文件为bam格式文件,所述软切包括:根据正向比对结果中的各read对应的扩增子的起始位置与各read的原始比对起始位置之间的碱基数量,确定各read的正向引物待切碱基数量;将所述测序比对文件的CIGAR值中前面与所述正向引物待切碱基数量相同数量的碱基全部确定为软切标记的碱基,后面的其他碱基根据所述正向引物待切碱基数量、相应read的总碱基数量以及原始标记重新标记。5.如权利要求1~4中任一项所述的测序建库的引物序列处理方法,其特征在于,在得到反向比对结果中各read对应的扩增子之后,还包括:将反向比对的与各read对应的配对read的比对起始位置由其原始比对起始位置重新确定为与各read对应的...

【专利技术属性】
技术研发人员:刘晶星毛琳琳严慧赵薇薇于世辉
申请(专利权)人:广州金域医学检验中心有限公司广州金域医学检验集团股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1