【技术实现步骤摘要】
本专利技术的实施例涉及一种用于分析基因组的碱基序列的技术。
技术介绍
用于生产高容量短序列的第二代测序方式(NGS:Next Generation Sequencing)因其低廉的成本和迅速生成数据的能力而正在迅速地替代传统的桑格(Sanger)测序方式。并且,开发出了多种聚焦于准确度的NGS序列重组程序。然而,近来随着第二代测序技术的发展,制作片段序列的费用降低为过去的一半以下,随之可用数据的量增加,因此需要开发一种能够在短时间内准确地处理高容量短序列的技术。序列重组的第一个步骤为通过碱基序列比对(alignment)算法而将短片段映射(mapping)于参考序列的正确位置上。其中的问题在于即使是同种个体,也可能因多种遗传性变异而导致基因组序列上的差异。而且,测序过程中的误差也可能导致碱基序列上的差异。因此,碱基序列比对算法必须有效考虑这种差异和变异而提高映射准确度。总而言之,为了对基因组信息进行分析,需要尽量多而准确的所有基因组信息数据。而且,为了达到这一目的,首先是要开发出具有很高的准确度和较大处理量的碱基序列比对算法。然而,现有技术中的方法在满足这些需求条件方面存在局限性。
技术实现思路
本专利技术实施例的目的在于提供一种可在确保映射准确度的同时通过改善映射时的复杂度而提高处理速度的碱基序列比对方案。为了解决如上所述的技术问题,根据本专利技术一个实施例的碱基序列比对系统包括:片 ...
【技术保护点】
一种碱基序列比对系统,包括:片段序列生成单元,用于由短片段生成多个片段序列;筛选单元,用于构成只包含所生成的所述多个片段序列当中与参考序列相匹配的片段序列的候选片段序列集合;映射个数计算单元,将所述参考序列划分为多个区间,并计算所述多个区间各自的所述候选片段序列的总映射个数;比对单元,选择计算出的所述总映射个数为基准个数以上的区间,并对所选择的区间执行针对所述短片段的全局比对。
【技术特征摘要】
2012.10.29 KR 10-2012-01204481.一种碱基序列比对系统,包括:
片段序列生成单元,用于由短片段生成多个片段序列;
筛选单元,用于构成只包含所生成的所述多个片段序列当中与参考序列
相匹配的片段序列的候选片段序列集合;
映射个数计算单元,将所述参考序列划分为多个区间,并计算所述多个
区间各自的所述候选片段序列的总映射个数;
比对单元,选择计算出的所述总映射个数为基准个数以上的区间,并对
所选择的区间执行针对所述短片段的全局比对。
2.如权利要求1所述的碱基序列比对系统,其特征在于,从所述短片段
的第一个碱基开始每移动设定的间距,所述片段序列生成单元便读取与设定
大小一样大的所述短片段的值,从而生成所述片段序列。
3.如权利要求1所述的碱基序列比对系统,其特征在于,与所述参考序
列相匹配的片段序列为与所述参考序列进行精确匹配的结果不一致的碱基数
为设定个数以下的片段序列。
4.如权利要求1所述的碱基序列比对系统,其特征在于,还包括片段序
列扩增单元,用于计算所述候选片段序列各自在所述参考序列中的映射重复
数,并选择计算出的所述映射重复数超过设定值的片段序列,且将所选择的
片段序列的大小扩增,直到所述候选片段序列在所述参考序列中的映射位置
个数达到所述设定值以下。
5.如权利要求4所述的碱基序列比对系统,其特征在于,所述片段序列
扩增单元用于在所述选择的片段序列的起始端或末端上增加对应于相应位置
的所述短片段上的碱基。
6.如权利要求1所述的碱基序列比对系统,其特征在于,所述比对单元
选择所述候选片段序列当中映射于所述选择的区间的候选片段序列,并在所
选择的各候选片段序列的在所述参考序列内的映射位置上执行针对所述短片
段的全局比对。
7.如权利要求6所述的碱基序列比对系统,其特征在于,所述比对单元
将所述选择的区间划分为多个小区间,并判断待执行所述全局比对的所述参
考序列中的位置所属的小区间内是否已执行全局比对,且进行所述判断的结
\t果,只在尚未执行全局比对的情况下执行所述全局比对。
8.如权利要求1所述的碱基序列比对系统,其特征在于,所述映射个数
计算单元在计算所述总映射个数的同时计算所述多个区间各自的所述候选片
段序列的总映射长度,而所述比对单元在所述总映射个数为基准个数以上的
区间当中选择所述总映射长度为设定基准长度以上的区间,并对选择的区间
执行针对所述短片段的全局比对。
9.如权利要求8所述的碱基序列比对系统,其特征在于,在所述选择的
区间为多个的情况下,所述比对单元根据多个区间各自的总映射个数或总映
射长度而依次对所述短片段执行全局比对。
10.如权利要求8所述的碱基序列比对系统,其特征在于,所述基准个
数至少为2个。
11.如权利要求8所述的碱基序列比对系统,其特征在于,所述基准长
度为利用如下两个数学式计算的值当中较大的值:
H=L–f×e–2s,以及
H=f+s,
其中,H为基准长度,L为短片段的长度,f为片段序列的长度,e为短
片段...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。