本发明专利技术公开一种考虑重复性的碱基序列重组系统及方法。根据本发明专利技术一个实施例的碱基序列重组系统包括:片段序列生成单元,用于由短片段(read)生成多个片段(fragment)序列;片段序列长度调整单元,从生成的所述多个片段序列当中选择对象碱基序列上的映射重复数超过设定基准值的片段序列,并调整选择的片段序列的长度,直到所述选择的片段序列的映射重复数达到所述基准值以下;比对单元,利用长度得到调整的所述片段序列执行全局比对(Global alignment)。
【技术实现步骤摘要】
本专利技术的实施例涉及一种用于分析基因组的碱基序列的技术。
技术介绍
用于生产高容量短序列的第二代测序方式(NGS:Next Generation Sequencing)因其低廉的成本和迅速生成数据的能力而正在迅速地替代传统的桑格(Sanger)测序方式。并且,开发出了多种聚焦于准确度的NGS序列重组程序。然而,近来随着第二代测序技术的发展,制作片段序列的费用降低为过去的一半以下,随之可用数据的量增加,因此需要开发一种能够在短时间内准确地处理高容量短序列的技术。序列重组的第一个步骤为通过碱基序列比对(alignment)算法而将短片段(read)映射(mapping)于参考序列的正确位置上。其中的问题在于即使是同种个体,也可能因多种遗传性变异而导致基因组序列上的差异。而且,测序过程中的误差也可能导致碱基序列上的差异。因此,碱基序列重组算法必须有效考虑这种差异和变异而提高映射准确度。总而言之,为了对基因组信息进行分析,需要尽量多而准确的所有基因组信息数据。而且,为了达到这一目的,首先是要开发出具有很高的准确度和较大处理量的碱基序列重组算法。然而,现有技术中的方法在满足这些需求条件方面存在局限性。
技术实现思路
本专利技术实施例的目的在于提供一种可在确保映射准确度的同时通过改善映射时的复杂度而提高处理速度的碱基序列重组方案。根据本专利技术一个实施例的碱基序列重组系统包括:片段序列生成单元,用于由短片段生成多个片段(fragment)序列;片段序列长度调整单元,从生成的所述多个片段序列当中选择对象碱基序列上的映射重复数超过设定基准值的片段序列,并调整选择的片段序列的长度,直到所述选择的片段序列的映射重复数达到所述基准值以下;比对单元,利用所述片段序列执行全局比对(Global alignment)。另外,根据本专利技术另一实施例的碱基序列重组系统包括:片段序列生成单元,用于由短片段生成多个片段(fragment)序列;筛选单元,用于从生成的所述多个片段序列中除去对象碱基序列上的映射重复数超过设定上限值的片段序列;比对单元,利用除了被除去的所述片段序列以外的其余片段序列而执行全局比对(Global alignment)。另外,根据本专利技术一个实施例的碱基序列重组方法包括如下步骤:在片段序列生成单元中,由短片段生成多个片段(fragment)序列;在片段序列长度调整单元中,从生成的所述多个片段序列当中选择对象碱基序列上的映射重复数超过设定基准值的片段序列,并调整选择的片段序列的长度,直到所述选择的片段序列的映射重复数达到所述基准值以下;在比对单元中,利用所述片段序列执行全局比对(Global alignment)。另外,根据本专利技术另一实施例的碱基序列重组方法包括如下步骤:在片段序列生成单元中,由短片段生成多个片段(fragment)序列;在筛选单元中,从生成的所述多个片段序列中除去对象碱基序列上的映射重复数超过设定上限值的片段序列;在比对单元中,利用除了被除去的所述片段序列以外的其余片段序列而执行全局比对(Global alignment)。根据本专利技术的实施例,并不固定由短片段生成的片段序列的长度,而是根据各片段序列在对象碱基序列内的映射重复数而适当地扩增其长度,或者除去重复数过多的片段序列,从而具有可以提高映射准确度的同时也能提高速度的效果。附图说明图1为用于说明根据本专利技术一个实施例的碱基序列重组方法的图。图2为用于举例表示根据本专利技术一个实施例的碱基序列重组方法中的最小误差估计值(MEB)e计算过程的图。图3为用于说明根据本专利技术一个实施例的碱基序列重组方法中的片段序列提取过程示例的图。图4为根据本专利技术一个实施例的碱基序列重组系统400的模块图。图5为根据本专利技术另一实施例的碱基序列重组系统500的模块图。符号说明:400、500:碱基序列重组系统 402、502:片段序列生成单元404:片段序列长度调整单元 406、506:比对单元408、504:筛选单元具体实施方式以下,参照附图说明本专利技术的具体实施方式。然而这仅仅是示例,本发明并不局限于此。在对本专利技术进行说明时,如果遇到对有关本专利技术的公知技术的具体说明有可能不必要地干扰本专利技术的主旨的情况,则省略其详细说明。并且,后述的术语均为考虑本专利技术中的功能而进行定义的,其可能因使用者、运用人员的意图或习惯等而有所不同。因此,要以整个说明书的内容为基础对其进行定义。本专利技术的技术思想由权利要求书确定,以下的实施例只是为了将本专利技术的技术思想有效地传递给本专利技术所属
中具有普通知识的人员而采用的一种手段。在对本专利技术的实施例进行具体说明之前,首先对本专利技术中使用的术语进行如下说明。首先,“短片段(read)序列”(或者简称为“短片段”)是指基因组测序仪(genome sequencer)中输出的短碱基序列数据。短片段的长度因基因组测序仪的种类而不同,通常构成为35~500bp(base pair)范围的多种长度,在DNA碱基的情况下,通常用字母A、C、G、T表示。“对象碱基序列”指可对利用所述短片段形成整个碱基序列提供参考的碱基序列(reference sequence)。在碱基序列分析中,通过参考对象碱基序列而将基因组测序仪所输出的大量短片段进行映射来完成整个碱基序列。在本专利技术中,所述对象碱基序列既可以是碱基序列分析时预先设定的序列(例如人类的整个碱基序列等),或者也可以将基因组测序仪中产生的碱基序列使用为对象碱基序列。“碱基(base)”为构成对象碱基序列及短片段的最小单位。如前所述,构成DNA的碱基可由A、C、G、T等四个字母表示,将这些分别称为碱基。换言之,对于DNA而言,可用四种碱基表示,短片段也是如此。“片段(fragment)序列”(或者简称为“片段”)指为了短片段的映射而作为比较短片段与对象碱基序列时的单位的序列。从理论上讲,为了将短片段映射于对象碱基序列,需要把整个短片段从对象碱基序列的最前端部分开始依次比较的同时计算短片段的映射位置。然而,由于这种方法在映射一个短片段时消耗过多的时间并要求过高的计算能力,因此实际上要先把短片段的一部分所构成的片即片段序列映射于对象碱基序列而找出整个短片段的映射候选位置,然后将整个短片段映射于对应候选位置(Global Alignment)。图1为用于说明根据本专利技术一个实施例的碱基序列重组本文档来自技高网...
【技术保护点】
一种碱基序列重组系统,包括:片段序列生成单元,用于由短片段生成多个片段序列;片段序列长度调整单元,从生成的所述多个片段序列当中选择对象碱基序列上的映射重复数超过设定基准值的片段序列,并调整选择的片段序列的长度,直到所述选择的片段序列的映射重复数达到所述基准值以下;比对单元,利用所述片段序列执行全局比对。
【技术特征摘要】
2012.10.29 KR 10-2012-01206351.一种碱基序列重组系统,包括:
片段序列生成单元,用于由短片段生成多个片段序列;
片段序列长度调整单元,从生成的所述多个片段序列当中选择对象碱基
序列上的映射重复数超过设定基准值的片段序列,并调整选择的片段序列的
长度,直到所述选择的片段序列的映射重复数达到所述基准值以下;
比对单元,利用所述片段序列执行全局比对。
2.如权利要求1所述的碱基序列重组系统,其中,所述片段序列长度调
整单元在所述选择的片段序列上附加构成所述短片段的一部分的一个以上的
碱基。
3.如权利要求2所述的碱基序列重组系统,其中,所述片段序列长度调
整单元在所述选择的片段序列的起始端或末端上增加对应于相应位置的所述
短片段上的碱基。
4.如权利要求1所述的碱基序列重组系统,其中,所述片段序列长度调
整单元在长度得到调整的片段序列没有被映射于所述对象碱基序列的情况
下,除去所述长度得到调整的片段序列。
5.如权利要求1所述的碱基序列重组系统,还包括筛选单元,用于当生
成的所述多个片段序列中存在对象碱基序列上的映射重复数超过设定上限值
的片段序列时,除去对应片段序列。
6.如权利要求5所述的碱基序列重组系统,其中,所述上限值为10000。
7.一种碱基序列重组系统,包括:
片段序列生成单元,用于由短片段生成多个片段序列;
筛选单元,用于从生成的所述多个片段序列中除去对象碱基序列上的映
射重复数超过设定上限值的片段序列;
比对单元,利用除了被除去的所述片段序列以外的其余片段序列而执行
全局比对。
8.如权利要求7所述的碱基序列重组系统,其中,所述上限值为10000。
9.一种碱基...
【专利技术属性】
技术研发人员:朴旻胥,
申请(专利权)人:三星SDS株式会社,
类型:发明
国别省市:韩国;KR
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。