碱基序列比对系统及方法技术方案

技术编号:10044598 阅读:300 留言:0更新日期:2014-05-14 16:04
本发明专利技术公开一种碱基序列比对系统及方法。根据本发明专利技术的一个实施例的碱基序列比对系统,包括:片段序列生成单元,用于由短片段生成多个片段(fragment)序列;筛选单元,用于构成只包含生成的所述多个片段序列当中与参考序列相匹配的片段序列的候选片段序列集合;映射个数计算单元,将所述参考序列划分为多个区间,并计算所述多个区间各自的所述候选片段序列的总映射个数;比对单元,选择计算出的所述总映射个数为基准个数以上的区间,并对选择的区间执行针对所述短片段的全局比对(global alignment)。

【技术实现步骤摘要】

本专利技术的实施例涉及一种用于分析基因组的碱基序列的技术。
技术介绍
用于生产高容量短序列的第二代测序方式(NGS:Next Generation Sequencing)因其低廉的成本和迅速生成数据的能力而正在迅速地替代传统的桑格(Sanger)测序方式。并且,开发出了多种聚焦于准确度的NGS序列重组程序。然而,近来随着第二代测序技术的发展,制作片段序列的费用降低为过去的一半以下,随之可用数据的量增加,因此需要开发一种能够在短时间内准确地处理高容量短序列的技术。序列重组的第一个步骤为通过碱基序列比对(alignment)算法而将短片段映射(mapping)于参考序列的正确位置上。其中的问题在于即使是同种个体,也可能因多种遗传性变异而导致基因组序列上的差异。而且,测序过程中的误差也可能导致碱基序列上的差异。因此,碱基序列比对算法必须有效考虑这种差异和变异而提高映射准确度。总而言之,为了对基因组信息进行分析,需要尽量多而准确的所有基因组信息数据。而且,为了达到这一目的,首先是要开发出具有很高的准确度和较大处理量的碱基序列比对算法。然而,现有技术中的方法在满足这些需求条件方面存在局限性。
技术实现思路
本专利技术实施例的目的在于提供一种可在确保映射准确度的同时通过改善映射时的复杂度而提高处理速度的碱基序列比对方案。为了解决如上所述的技术问题,根据本专利技术一个实施例的碱基序列比对系统包括:片段序列生成单元,用于由短片段生成多个片段(fragment)序列;筛选单元,用于构成只包含所生成的所述多个片段序列当中与参考序列相匹配的片段序列的候选片段序列集合;映射个数计算单元,将所述参考序列划分为多个区间,并计算所述多个区间各自的所述候选片段序列的总映射个数;比对单元,选择计算出的所述总映射个数为基准个数以上的区间,并对所选择的区间执行针对所述短片段的全局比对(global alignment)。另外,为了解决如上所述的技术问题,根据本专利技术一个实施例的碱基序列比对方法包括如下步骤:在片段序列生成单元中,由短片段生成多个片段(fragment)序列;在筛选单元中,构成只包含所生成的所述多个片段序列当中与参考序列相匹配的片段序列的候选片段序列集合;在映射个数计算单元中,将所述参考序列划分为多个区间,并按所述多个区间分别计算所述候选片段序列的总映射个数;在比对单元中,选择计算出的所述总映射个数为基准个数以上的区间,并对所选择的区间执行针对所述短片段的全局比对(global alignment)。根据本专利技术的实施例,由于在进行短片段的比对时不再只是考虑短片段的特定区域,而是通过考虑整个短片段而选择种子序列(片段序列),因此与只考虑短片段的一部分的算法相比,可以提高准确度。而且,限制各片段序列在参考序列内的重复数,而对于超过该重复数的种子序列则使种子序列的长度扩增,从而具有可提高映射准确度的同时还可以加快速度的效果。并且,通过将参考序列划分为多个区域之后在其中选择短片段被映射的可能性较高的特定区域,并只在对应区域内执行全局比对(Global Alignment),从而可以大幅度减少全局比对时间。而且,省去寻找由短片段导出的片段序列的映射位置与组合的复杂过程,代之以直接对构成组合的可能性较高的片段序列执行全局比对,从而可以进一步提高全局比对速度,并通过存储全局比对位置而避免在对应位置周围重复执行全局比对,从而可以减少不必要的全局比对次数。附图说明图1为用于说明根据本专利技术一个实施例的碱基序列比对方法100的图。图2为用于举例说明根据本专利技术一个实施例的碱基序列比对方法100的步骤108中的最小误差估计值(MEB)e计算过程的图。图3为用于说明根据本专利技术一个实施例的碱基序列比对方法100的步骤112中的片段序列生成过程的图。图4为用于举例说明根据本专利技术一个实施例的参考序列内的映射对象区间选择过程的图。图5为用于说明根据本专利技术一个实施例的用于减少全局比对过程中不必要的全局比对次数的方法的示例图。图6为示出根据本专利技术一个实施例的碱基序列比对系统600的模块图。符号说明:600:碱基序列比对系统 602:片段序列生成单元604:筛选单元         606:映射个数计算单元608:比对单元         610:片段序列扩增单元具体实施方式以下,参照附图说明本专利技术的具体实施方式。然而这仅仅是示例,本发明并不局限于此。在对本专利技术进行说明时,如果遇到对有关本专利技术的公知技术的具体说明有可能不必要地干扰本专利技术的主旨的情况,则省略其详细说明。并且,后述的术语均为考虑本专利技术中的功能而进行定义的,其可能因使用者、运用人员的意图或习惯等而有所不同。因此,要以整个说明书的内容为基础对其进行定义。本专利技术的技术思想由权利要求书确定,以下的实施例只是为了将本专利技术的技术思想有效地传递给本专利技术所属
中具有普通知识的人员而采用的一种手段。在对本专利技术的实施例进行具体说明之前,首先对本专利技术中使用的术语进行如下说明。首先,“短片段(read)序列”(或者简称“短片段”)是指基因组测序仪(genome sequencer)中输出的长度较短的碱基序列数据。短片段的长度因基因组测序仪的种类而不同,通常构成为35~500bp(base pair)范围的多种长度,在DNA碱基的情况下,通常用字母A、C、G、T表示。“参考序列(reference sequence)”指可对利用所述短片段形成整个碱基序列提供参考的碱基序列。在碱基序列分析中,通过将基因组测序仪所输出的大量短片段参照参考序列进行映射而完成整个碱基序列。在本专利技术中,所述参考序列既可以是碱基序列分析时预先设定的序列(例如人类的整个碱基序列等),或者也可以将基因组测序仪中产生的碱基序列使用为参考序列。“碱基(base)”为构成参考序列及短片段的最小单位。如前所述,构成DNA的碱基可由A、C、G、T等四个字母表示的碱基构成,将这些分别称为碱基。换言之,对于DNA而言,可用四种碱基表示,短片段也是如此。“片段序列(fragment sequence)”(或者种子序列(seed))指为了短片段的映射而比较短片段与参考序列时作为单位的序列(Sequence)。理论上讲,为了将短片段映射于参考序列,需要把整个短片段从参考序列的最前端部分开始依次比较并计算短片段的映射位置。然而由于这种方法在本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201310368714.html" title="碱基序列比对系统及方法原文来自X技术">碱基序列比对系统及方法</a>

【技术保护点】
一种碱基序列比对系统,包括:片段序列生成单元,用于由短片段生成多个片段序列;筛选单元,用于构成只包含所生成的所述多个片段序列当中与参考序列相匹配的片段序列的候选片段序列集合;映射个数计算单元,将所述参考序列划分为多个区间,并计算所述多个区间各自的所述候选片段序列的总映射个数;比对单元,选择计算出的所述总映射个数为基准个数以上的区间,并对所选择的区间执行针对所述短片段的全局比对。

【技术特征摘要】
2012.10.29 KR 10-2012-01204481.一种碱基序列比对系统,包括:
片段序列生成单元,用于由短片段生成多个片段序列;
筛选单元,用于构成只包含所生成的所述多个片段序列当中与参考序列
相匹配的片段序列的候选片段序列集合;
映射个数计算单元,将所述参考序列划分为多个区间,并计算所述多个
区间各自的所述候选片段序列的总映射个数;
比对单元,选择计算出的所述总映射个数为基准个数以上的区间,并对
所选择的区间执行针对所述短片段的全局比对。
2.如权利要求1所述的碱基序列比对系统,其特征在于,从所述短片段
的第一个碱基开始每移动设定的间距,所述片段序列生成单元便读取与设定
大小一样大的所述短片段的值,从而生成所述片段序列。
3.如权利要求1所述的碱基序列比对系统,其特征在于,与所述参考序
列相匹配的片段序列为与所述参考序列进行精确匹配的结果不一致的碱基数
为设定个数以下的片段序列。
4.如权利要求1所述的碱基序列比对系统,其特征在于,还包括片段序
列扩增单元,用于计算所述候选片段序列各自在所述参考序列中的映射重复
数,并选择计算出的所述映射重复数超过设定值的片段序列,且将所选择的
片段序列的大小扩增,直到所述候选片段序列在所述参考序列中的映射位置
个数达到所述设定值以下。
5.如权利要求4所述的碱基序列比对系统,其特征在于,所述片段序列
扩增单元用于在所述选择的片段序列的起始端或末端上增加对应于相应位置
的所述短片段上的碱基。
6.如权利要求1所述的碱基序列比对系统,其特征在于,所述比对单元
选择所述候选片段序列当中映射于所述选择的区间的候选片段序列,并在所
选择的各候选片段序列的在所述参考序列内的映射位置上执行针对所述短片
段的全局比对。
7.如权利要求6所述的碱基序列比对系统,其特征在于,所述比对单元
将所述选择的区间划分为多个小区间,并判断待执行所述全局比对的所述参
考序列中的位置所属的小区间内是否已执行全局比对,且进行所述判断的结

\t果,只在尚未执行全局比对的情况下执行所述全局比对。
8.如权利要求1所述的碱基序列比对系统,其特征在于,所述映射个数
计算单元在计算所述总映射个数的同时计算所述多个区间各自的所述候选片
段序列的总映射长度,而所述比对单元在所述总映射个数为基准个数以上的
区间当中选择所述总映射长度为设定基准长度以上的区间,并对选择的区间
执行针对所述短片段的全局比对。
9.如权利要求8所述的碱基序列比对系统,其特征在于,在所述选择的
区间为多个的情况下,所述比对单元根据多个区间各自的总映射个数或总映
射长度而依次对所述短片段执行全局比对。
10.如权利要求8所述的碱基序列比对系统,其特征在于,所述基准个
数至少为2个。
11.如权利要求8所述的碱基序列比对系统,其特征在于,所述基准长
度为利用如下两个数学式计算的值当中较大的值:
H=L–f×e–2s,以及
H=f+s,
其中,H为基准长度,L为短片段的长度,f为片段序列的长度,e为短
片段...

【专利技术属性】
技术研发人员:朴旻胥
申请(专利权)人:三星SDS株式会社
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1