一种测序序列纠错方法、系统及设备技术方案

技术编号:2912606 阅读:214 留言:0更新日期:2012-04-11 18:40
本发明专利技术适用于基因工程技术领域,提供了一种测序序列纠错方法、系统及设备,所述方法包括下述步骤:接收测序序列,根据预设的高频阀值构造高频短串表;遍历接收到的各测序序列,结合所述高频短串表在各测序序列上查找连续为高频短串最多的区域;根据相应接收到的测序序列和所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列;根据构造的所述左序列和/或右序列,以及查找到的所述区域还原相应测序序列。在本发明专利技术中,根据预设的高频阀值构造高频短串表,结合构建的高频短串表将各测序序列中非连续高频短串区域的序列恢复为连续高频短串区域的序列,提高后续对测序序列进行分析、处理的准确性。

【技术实现步骤摘要】

本专利技术属于基因工程
,尤其涉及一种测序序列纠错方法、系统及设备
技术介绍
基于现有的基因测序技术,碱基测错的可能性是存在的,碱基测错后对于后续的数据分析、短序列组装等都存在一定的影响,现有的纠错策略只是是简单的屏蔽掉低频的短串,删除含有一定比例低频短串的序列,实际上并没有进行有效的纠正,纠错效果很差。综上所述,现有测序序列纠错方法的纠错效果很差。
技术实现思路
本专利技术实施例的目的在于提供一种测序序列纠错方法,旨在解决现有测序序列纠错方法的纠错效果很差的问题。本专利技术实施例是这样实现的,一种测序序列纠错方法,所述方法包括下述步骤:接收测序序列,根据预设的高频阀值构造高频短串表;遍历接收到的各测序序列,结合所述高频短串表在各测序序列上查找连续为高频短串最多的区域;根据相应接收到的测序序列和所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列;根据构造的所述左序列和/或右序列,以及查找到的所述区域还原相应测序序列。-->本专利技术实施例的另一目的在于提供一种测序序列纠错系统,所述系统包括:高频短串统计单元,用于接收测序序列,根据预设的高频阀值构造高频短串表;高频区域查找单元,用于遍历接收到的各测序序列,结合所述高频短串表在各测序序列上查找连续为高频短串最多的区域;序列构造单元,用于根据相应接收到的测序序列和所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列;以及序列还原单元,用于根据构造的所述左序列和/或右序列,以及查找到的所述区域还原相应测序序列。本专利技术实施例的另一目的在于提供包含上述测序序列纠错系统的基因组装设备。在本专利技术实施例中,根据预设的高频阀值构造高频短串表,结合构建的高频短串表将各测序序列中非连续高频短串区域的序列恢复为连续高频短串区域的序列,实现了一种测序序列纠错方法,提高后续对测序序列进行分析、处理的准确性,且所需内存小、耗时短。附图说明图1是本专利技术实施例提供的测序序列纠错方法的实现流程图;图2是本专利技术实施例提供的左侧树的结构示意图;图3是本专利技术实施例提供的测序序列纠错系统的结构图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。在本专利技术实施例中,根据预设的高频阀值构造高频短串表,结合构建的高-->频短串表将各测序序列中非连续高频短串区域的序列恢复为连续高频短串区域的序列。图1示出了本专利技术实施例提供的测序序列纠错方法的实现流程,详述如下:在步骤S101中,接收测序序列,根据预设的高频阀值构造高频短串(kmer)表;在步骤S102中,遍历接收到的各测序序列,结合高频短串表在各测序序列上查找连续为高频短串最多的区域;在步骤S103中,根据相应接收到的测序序列和高频短串表,在查找到的区域左侧和/或右侧构造全是高频短串的左序列和/或右序列;在步骤S104中,根据构造的左序列和/或右序列,以及查找到的区域还原相应测序序列。在本专利技术实施例中,上述步骤S101具体为:1.接收测序序列,将接收到的各测序序列逐个碱基切割成预设长度的短串;2.将切割得到的且出现次数超过预设高频阀值的短串添加到高频短串表。这里,接收到的各测序序列长度在处理程序逻辑上没有限制,但一般在200碱基长度(bp)以下,短串的预设长度n为17bp,预设的高频阀值为5次,认为出现5次以上的短串即为高频短串,将高频短串添加到高频短串表。当然,短串的预设长度n可以取从1到小于测序序列碱基长度内的任意整数,但是在n的取值大于17bp时内存和运算时间的开销会加大,在n的取值小于17bp时纠错效果不理想,所以n最好取17bp。高频阀值可以根据切割成的短串的频率分布来确定,频率分布在理论上应该存在两个峰值,第一个峰是由于测序错误造成的,第二个峰是由于基因组序列本身的生物特性造成的,所以一般取第一个峰值为高频阀值。接着,查找各测序序列连续高频短串最多的区域,步骤S102具体为:1.遍历接收到的各测序序列,结合高频短序表,在各测序序列上查找连续为高频短串的区域,即顺序遍历测序序列的短串,如果该短串出现在高频短串-->表中,则认为该短串为高频短串;否则,认为该短串不是高频短串,这样遍历完各测序序列即可得到各测序序列相应的连续为高频短串的区域;2.在各测序序列中取查找到的最长的区域作为其连续为高频短串最多的区域,这里假设各测序序列中连续为高频短串最多的区域为[s1,s2],其中s1、s2为查找到的最长的连续为高频短串的区域的起始碱基、结束碱基距离相应测序序列首个碱基的数目。如果一个测序序列为X1X2X3......X1n-1X1n,其中ln为该测序序列的碱基长度,Xi表示该序列的第i个碱基,该测序序列最长的连续为高频短串的区域为[26,46],则X26X27......X46为该测序序列中最长的高频序列。然后,根据原测序序列和高频短串表,在[s1,s2]的左侧和右侧各构造一条全是高频短串的序列,上述步骤S103具体为:步骤1.从相应测序序列的第s1个碱基开始取n-1长度的序列作为树的根节点,以A、C、G、T四种碱基为各节点的叶子构造一棵深度为s1的左侧树,其构造的树如图2所示,这里,深度s1即为26;步骤2.遍历左侧树,找到一条全是高频短串的路径,根据该路径从叶子节点向上构造全是高频短串的左序列。这里,从根节点开始向下遍历树,根节点为长度为n-1的序列N1,其子节点L1依次为A、C、G、T四种碱基,考察短串kmer1=L1+N1是否是高频短串,即判断高频短串表中是否有该短串,如果否,则结束相应碱基对应的路径;如果是,则进一步判断L1的值是否与相应测序序列X1X2X3......X49X50中相应碱基Xs1-1的值相同,如果相同则1级节点分数score1=0,否则1级节点分数score1=1,并继续在kmer1左端取n-1长度的序列N2,按照上述方式考察短串kmer2=L2+N2,其子节点L2依次为A、C、G、T四种碱基。按照该规则向叶子节点迭代、判断,并在迭代结束后,找到一条总分数score=Σi=1s1-1scorei]]>最小路径,其中scorei为相应路径中第i级节点的分数。找到的最小路径即为全是高频短串的路径,根据该路径从叶子节点向根节点遍历得到的序列即为需要构造的全是高频-->短序的左序列。当然,如果迭代结束后,得到多条总分数score都相等且都最小的路径,则随机取一条,然后从叶子节点向根节点遍历得到需要构造的全是高频短序的左序列。当然,也可以从下向上遍历树,来查找一条全是高频短串的路径。步骤3.从相应测序序列的第s2个碱基开始取n-1长度的序列作为树的根节点,以A、C、G、T四种碱基为各节点的叶子构造一棵深度为ln-(s2-1)的右侧树,其中ln为该测试序列的碱基长度,其构造方式与上述步骤1相同,不再赘述;步骤4.遍历右侧树,找到一条全是高频短串的路径,根据该路径从根节点向下构造全是高频短串的右序列,其查找最小路径的方式与上述步骤2相应,不再赘述。在得到相应测序序列左侧和右侧的全是高频短串的序列后,将得到的左本文档来自技高网...

【技术保护点】
一种测序序列纠错方法,其特征在于,所述方法包括下述步骤: 接收测序序列,根据预设的高频阀值构造高频短串表; 遍历接收到的各测序序列,结合所述高频短串表在各测序序列上查找连续为高频短串最多的区域; 根据相应接收到的测序序列和 所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列; 根据构造的所述左序列和/或右序列,以及查找到的所述区域还原相应测序序列。

【技术特征摘要】
1、一种测序序列纠错方法,其特征在于,所述方法包括下述步骤:接收测序序列,根据预设的高频阀值构造高频短串表;遍历接收到的各测序序列,结合所述高频短串表在各测序序列上查找连续为高频短串最多的区域;根据相应接收到的测序序列和所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列;根据构造的所述左序列和/或右序列,以及查找到的所述区域还原相应测序序列。2、如权利要求1所述的方法,其特征在于,所述接收测序序列,根据预设的高频阀值构造高频短串表的步骤具体为:接收测序序列,将接收到的各测序序列逐个碱基切割成预设长度的短串;将切割得到的且出现次数超过预设高频阀值的短串添加到所述高频短串表。3、如权利要求2所述的方法,其特征在于,所述预设的高频阀值根据切割成的预设长度的短串的频率分布确定,所述预设长度为17个碱基长度。4、如权利要求1所述的方法,其特征在于,所述根据相应接收到的测序序列和所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列的步骤具体为:从相应测序序列的第s1个碱基开始取n-1长度的序列作为树的根节点,以A、C、G、T四种碱基为各节点的叶子构造一棵深度为s1的左侧树;遍历所述左侧树,找到一条全是高频短串的路径,根据所述路径从叶子节点向上构造全是高频短串的左序列;从相应测序序列的第s2个碱基开始取n-1长度的序列作为树的根节点,以A、C、G、T四种碱基为各节点的叶子构造一棵深度为ln-(s2-1)的右侧树;遍历所述右侧树,找到一条全是高频短串的路径,根据所述路径从根节点向下构造全是高频短串的右序列;其中,s1、s2分别为查找到的所述连续为高频短串最多的区域的起始碱基、结束碱基距离相应测序序列首个碱基的数目,n为所述高频短串的碱基长度,ln为相应测序序列的碱基长度。5、如权利要求1所述的方法,其特征在于,所述接收到的测序序列的长度小于等于200碱基长度。6、一种测序序列纠错系统...

【专利技术属性】
技术研发人员:石仲斌李瑞强朱红梅阮珏李胜霆王俊杨焕明汪建
申请(专利权)人:深圳华大基因研究院
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1