The invention relates to a primer sequence processing method, device, equipment and storage medium for sequencing database. The method includes obtaining the sequence alignment file obtained by comparing the sequence data with the reference genome, obtaining the forward alignment result and the reverse alignment result from the sequence alignment file, determining the amplifiers corresponding to the reads in the forward alignment result, and determining the amplifiers corresponding to the reads in the reverse alignment result. The primer sequence processing method, device, equipment and storage medium of the library can accurately identify the primer part of the amplified fragment by processing the sequencing results. After subsequent processing, such as soft or hard cutting, the influence of the primer part on the analysis of the sequencing results can be eliminated and the unknown primer part can be retained to the maximum extent. The data information of sequence fragments ensures the accuracy and reliability of the analysis of sequencing results.
【技术实现步骤摘要】
测序建库的引物序列处理方法、装置、设备及存储介质
本专利技术涉及二代测序
,尤其是涉及一种测序建库的引物序列处理方法、装置、设备及存储介质。
技术介绍
一般通过扩增构建的NGS(Next-generationsequencing,下一代测序、二代测序,又名High-throughputsequencing,即下一代测序)测序文库,在分析时会将扩增范围外的引物对应的测序结果排除,因为这部分测序结果有一半来源于引物而不是扩增的待测片段,从而导致了引物部分测序数据的丢失,而如果不排除这部分序列便会引入分析误差。对于一个较大的扩增片段,往往需要多对引物进行多重扩增才能扩增完整,在扩增片段的中间也有引物序列,这时候就不能简单地通过扩增片段范围来排除,否则就会导致引物序列掺入测序结果从而引入分析误差。例如引物对应的待测序片段上有一个突变,而引物是和参考序列一致没有突变的,因此直接分析测序结果会导致该突变的突变频率降低。
技术实现思路
基于此,针对上述技术问题,有必要提供一种测序建库的引物序列处理方法、装置、设备及存储介质。本专利技术解决上述技术问题的技术方案如下。一种测序建库的引物序列处理方法,包括如下步骤:获取将测序数据比对到参考基因组得到的测序比对文件;从所述测序比对文件得到正向比对结果和反向比对结果;对所述正向比对结果中的各read,从起始位置大于当前read的原始比对起始位置的所有扩增子中,确定起始位置最接近当前read的原始比对起始位置的扩增子作为与当前read对应的扩增子,得到正向比对结果中各read对应的扩增子;对所述反向比对结果中的各read,从终止 ...
【技术保护点】
1.一种测序建库的引物序列处理方法,其特征在于,包括如下步骤:获取将测序数据比对到参考基因组得到的测序比对文件;从所述测序比对文件得到正向比对结果和反向比对结果;对所述正向比对结果中的各read,从起始位置大于当前read的原始比对起始位置的所有扩增子中,确定起始位置最接近当前read的原始比对起始位置的扩增子作为与当前read对应的扩增子,得到正向比对结果中各read对应的扩增子;对所述反向比对结果中的各read,从终止位置小于当前read的原始比对终止位置的所有扩增子中,确定终止位置最接近当前read的原始比对终止位置的扩增子作为与当前read对应的扩增子,得到反向比对结果中各read对应的扩增子。
【技术特征摘要】
1.一种测序建库的引物序列处理方法,其特征在于,包括如下步骤:获取将测序数据比对到参考基因组得到的测序比对文件;从所述测序比对文件得到正向比对结果和反向比对结果;对所述正向比对结果中的各read,从起始位置大于当前read的原始比对起始位置的所有扩增子中,确定起始位置最接近当前read的原始比对起始位置的扩增子作为与当前read对应的扩增子,得到正向比对结果中各read对应的扩增子;对所述反向比对结果中的各read,从终止位置小于当前read的原始比对终止位置的所有扩增子中,确定终止位置最接近当前read的原始比对终止位置的扩增子作为与当前read对应的扩增子,得到反向比对结果中各read对应的扩增子。2.如权利要求1所述的测序建库的引物序列处理方法,其特征在于,在得到正向比对结果中各read对应的扩增子之后,还包括:将正向比对的各read的比对起始位置由其原始比对起始位置重新确定为与各read对应的扩增子的起始位置。3.如权利要求1所述的测序建库的引物序列处理方法,其特征在于,在得到正向比对结果中各read对应的扩增子之后,还包括:对正向比对的各read的原始比对起始位置与与其对应的扩增子的起始位置之间的序列部分进行软切、硬切、或提取出原始序列数据后,在所述原始序列数据中切除该序列部分的序列数据。4.如权利要求3所述的测序建库的引物序列处理方法,其特征在于,所述测序比对文件为bam格式文件,所述软切包括:根据正向比对结果中的各read对应的扩增子的起始位置与各read的原始比对起始位置之间的碱基数量,确定各read的正向引物待切碱基数量;将所述测序比对文件的CIGAR值中前面与所述正向引物待切碱基数量相同数量的碱基全部确定为软切标记的碱基,后面的其他碱基根据所述正向引物待切碱基数量、相应read的总碱基数量以及原始标记重新标记。5.如权利要求1~4中任一项所述的测序建库的引物序列处理方法,其特征在于,在得到反向比对结果中各read对应的扩增子之后,还包括:将反向比对的与各read对应的配对read的比对起始位置由其原始比对起始位置重新确定为与各read对应的...
【专利技术属性】
技术研发人员:刘晶星,毛琳琳,严慧,赵薇薇,于世辉,
申请(专利权)人:广州金域医学检验中心有限公司,广州金域医学检验集团股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。