碱基序列重组系统及方法技术方案

技术编号:10040219 阅读:296 留言:0更新日期:2014-05-14 10:49
本发明专利技术公开一种碱基序列重组系统及方法。根据本发明专利技术的一个实施例的碱基序列重组系统包括:映射位置计算单元,从由短片段生成的多个种子序列中选择一个种子序列,并计算选择的种子序列在对象碱基序列中的映射位置;全局比对单元,从计算出的所述映射位置计算针对所述选择的种子序列的重复判断区域,并判断在计算出的所述重复判断区域中是否已执行全局比对,判断结果如果没有执行,则在计算出的所述映射位置上执行针对所述短片段的全局比对(Global Alignment)。

【技术实现步骤摘要】

本专利技术的实施例涉及一种用于分析基因组的碱基序列的技术。
技术介绍
用于生产高容量短序列的第二代测序方式(NGS:Next Generation Sequencing)因其低廉的成本和迅速生成数据的能力而正在迅速地替代传统的桑格(Sanger)测序方式。并且,开发出了多种聚焦于准确度的NGS序列重组程序。然而,近来随着第二代测序技术的发展,制作片段序列的费用降低为过去的一半以下,随之可用数据的量增加,因此需要开发一种能够在短时间内准确地处理高容量短序列的技术。序列重组的第一个步骤为通过碱基序列比对(alignment)算法而将短片段映射(mapping)于参考序列的正确位置上。其中的问题在于即使是同种个体,也可能因多种遗传性变异而导致基因组序列上的差异。而且,测序过程中的误差也可能导致碱基序列上的差异。因此,碱基序列比对算法必须有效考虑这种差异和变异而提高映射准确度。总而言之,为了对基因组信息进行分析,需要尽量多而准确的所有基因组信息数据。而且,为了达到这一目的,首先是要开发出具有很高的准确度和较大处理量的碱基序列比对算法。然而,现有技术中的方法在满足这些需求条件方面存在局限性。
技术实现思路
本专利技术实施例的目的在于提供一种可在确保映射准确度的同时通过改善映射时的复杂度而提高处理速度的碱基序列重组方案。为了解决如上所述的技术问题,根据本专利技术一个实施例的碱基序列重组系统包括:映射位置计算单元,从由短片段生成的多个种子序列中选择一个种子序列,并计算选择的种子序列在对象碱基序列中的映射位置;全局比对单元,从计算出的所述映射位置计算针对所述选择的种子序列的重复判断区域,并判断在计算出的所述重复判断区域中是否已执行全局比对,判断结果如果没有执行,则在计算出的所述映射位置上执行针对所述短片段的全局比对(Global Alignment)。另外,为了解决如上所述的技术问题,根据本专利技术一个实施例的碱基序列重组方法包括如下步骤:在映射位置计算单元中,从由短片段生成的多个种子序列中选择一个种子序列,并计算选择的种子序列在对象碱基序列中的映射位置;在全局比对单元中,从计算出的所述映射位置计算针对所述选择的种子序列的重复判断区域;在所述全局比对单元中,判断在计算出的所述重复判断区域中是否已执行全局比对,判断结果如果没有执行,则在计算出的所述映射位置上执行针对所述短片段的全局比对(Global Alignment)。另外,根据本专利技术一个实施例的装置包括:一个以上的处理器;存储器;以及一个以上的程序,而且,构成为所述一个以上的程序被存储于所述存储器中,并通过所述一个以上的处理器执行,其中,所述程序中包括用于执行如下步骤的命令:从由短片段生成的多个种子序列中选择一个种子序列,并计算选择的种子序列在对象碱基序列中的映射位置;从计算出的所述映射位置计算针对所述选择的种子序列的重复判断区域;判断在计算出的所述重复判断区域中是否已执行全局比对,判断结果如果没有执行,则在计算出的所述映射位置上执行针对所述短片段的全局比对。根据本专利技术的实施例,由于在碱基序列比对时存储已执行全局比对的位置之后在对应位置的周围不去执行全局比对,因此可以减少在碱基序列比对过程中造成大量耗时的全局比对执行次数,并可以由此大幅减少碱基序列比对时间。而且,通过将如上所述的不去重复执行全局比对的重复区域的大小设定为与短片段的长度成比例,从而不仅可以减少碱基序列比对时间,而且可以保持碱基序列比对的准确度。附图说明图1为用于说明根据本专利技术一个实施例的碱基序列重组方法的图。图2为用于举例说明根据本专利技术一个实施例的碱基序列比对方法的误差个数计算过程的图。图3为用于说明根据本专利技术一个实施例的全局比对过程的顺序图。图4a至图4e为用于举例说明根据本专利技术一个实施例的全局比对过程的图。图5为示出根据本专利技术一个实施例的碱基序列重组系统的模块图。符号说明:500:碱基序列重组系统  502:种子序列生成单元504:映射位置计算单元  506:全局比对单元具体实施方式以下,参照附图说明本专利技术的具体实施方式。然而这仅仅是示例,本发明并不局限于此。在对本专利技术进行说明时,如果遇到对有关本专利技术的公知技术的具体说明有可能不必要地干扰本专利技术的主旨的情况,则省略其详细说明。并且,后述的术语均为考虑本专利技术中的功能而进行定义的,其可能因使用者、运用人员的意图或习惯等而有所不同。因此,要以整个说明书的内容为基础对其进行定义。本专利技术的技术思想由权利要求书确定,以下的实施例只是为了将本专利技术的技术思想有效地传递给本专利技术所属
中具有普通知识的人员而采用的一种手段。在对本专利技术的实施例进行具体说明之前,首先对本专利技术中使用的术语进行如下说明。首先,“短片段(read)”是指基因组测序仪(genome sequencer)中输出的长度较短的碱基序列数据。短片段的长度因基因组测序仪的种类而不同,通常构成为35~500bp(base pair)范围的多种长度,在DNA碱基的情况下,通常用A、C、G、T等四个字母表示。“对象碱基序列”指可对利用所述短片段形成整个碱基序列提供参考的碱基序列(reference sequence)。在碱基序列分析中,通过将基因组测序仪所输出的大量短片段映射于对象碱基序列而完成整个碱基序列。在本专利技术中,所述对象碱基序列既可以是碱基序列分析时预先设定的序列(例如人类的整个碱基序列等),或者也可以将基因组测序仪中产生的碱基序列使用为对象碱基序列。“碱基(base)”为构成对象碱基序列及短片段的最小单位。如前所述,构成DNA的碱基可由A、C、G、T等四个字母表示的碱基构成,将这些分别称为碱基。换言之,对于DNA而言,可用四种碱基表示,短片段也是如此。“种子序列(seed)”指为了短片段的映射而比较短片段与对象碱基序列时作为单位的序列(Sequence)。理论上讲,为了将短片段映射于对象碱基序列,需要把整个短片段从对象碱基序列的最前端部分开始依次比较并计算短片段的映射位置。然而,由于这种方法在映射一个短片段时消耗过多的时间并要求过高的计算能力,因此实际上要先把作为由短片段的一部分所构成的片的种子序列映射于对象碱基序列而找出整个短片段的映射候选位置,然后将整个短片段映射于对应候选位置(全局比对:Global Alignment)。图1为用于说明根据本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201310369701.html" title="碱基序列重组系统及方法原文来自X技术">碱基序列重组系统及方法</a>

【技术保护点】
一种碱基序列重组系统,包括:映射位置计算单元,从由短片段生成的多个种子序列中选择一个种子序列,并计算选择的种子序列在对象碱基序列中的映射位置;全局比对单元,从计算出的所述映射位置计算对应于所述选择的种子序列的重复判断区域,并判断在计算出的所述重复判断区域中是否已执行全局比对,判断结果如果没有执行所述全局比对,则在计算出的所述映射位置上执行针对所述短片段的全局比对。

【技术特征摘要】
2012.10.29 KR 10-2012-01204471.一种碱基序列重组系统,包括:
映射位置计算单元,从由短片段生成的多个种子序列中选择一个种子序
列,并计算选择的种子序列在对象碱基序列中的映射位置;
全局比对单元,从计算出的所述映射位置计算对应于所述选择的种子序
列的重复判断区域,并判断在计算出的所述重复判断区域中是否已执行全局
比对,判断结果如果没有执行所述全局比对,则在计算出的所述映射位置上
执行针对所述短片段的全局比对。
2.如权利要求1所述的碱基序列重组系统,其特征在于,所述重复判断
区域为与所述选择的种子序列在所述对象碱基序列中的第k个映射位置之间
的距离为设定基准值以内的区域,其中,1≤k≤N,N为所述选择的种子序列
的长度。
3.如权利要求2所述的碱基序列重组系统,其特征在于,所述基准值被
设定为与所述短片段的长度成比例。
4.如权利要求3所述的碱基序列重组系统,其特征在于,所述基准值被
设定为所述短片段的长度的100%~170%。
5.如权利要求1所述的碱基序列重组系统,其特征在于,所述重复判断
区域为根据如下数学式进行计算:
ma-V≤重复判断区域≤mb+V,
其中,ma为所述选择的种子序列的第a个映射位置,mb为所述选择的种
子序列的第b个映射位置,N为所述选择的种子序列的长度,V为基准值,
并且,1≤a≤N,1≤b≤N。
6.如权利要求5所述的碱基序列重组系统,其特征在于,所述基准值被
设定为与所述短片段的长度成比例。
7.如权利要求6所述的碱基序列重组系统,其特征在于,所述基准值被
设定为所述短片段的长度的100%~170%。
8.如权利要求1所述的碱基序列重组系统,其特征在于,当已执行全局
比对的种子序列的映射位置被包含于所述重复判断区域内时,所述全局比对
单元将判断在所述重复判断区域内已执行全局比对。
9.一种碱基序列重组方法,包括如下步骤:
在映射位置计算单元中,从由短片段生成的多个种子序列中选择一个种
子序列,并计算选择的种子序列在对象碱基序列中的映射位置;
在全局比对单元中,从计算出的所述映射位置计算针对所述选择的种子
序列的重复判断区域;

【专利技术属性】
技术研发人员:朴旻
申请(专利权)人:三星SDS株式会社
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1