各人种单倍型祖源数据库的构建方法技术

技术编号:34241938 阅读:13 留言:0更新日期:2022-07-24 09:27
本发明专利技术公开了各人种单倍型祖源数据库的构建方法,步骤包括:大小不同的提取框从各人种的单倍型序列提取信息,并标记人种信息;比对同一人种内SNP位点相同的片段,将SNP位点相同且SNP位点上碱基信息相同的片段进行合并;比对各人种间SNP位点相同的片段,找出SNP位点相同且SNP位点上碱基信息相同的片段,标记其对应的所有人种信息。本发明专利技术优点有:同一单倍型的遗传信息在不同SNP位点数量的片段中储存,利于待测单倍型比对;SNP位点相同且SNP位点碱基信息相同的片段均标记其对应的所有人种信息,避免在查找疾病关联基因时受到祖源信息不全的干扰而影响准确性。息不全的干扰而影响准确性。

Construction method of haplotype ancestral database of all ethnic groups

【技术实现步骤摘要】
各人种单倍型祖源数据库的构建方法


[0001]本专利技术涉及生物信息
,尤其涉及基于SNP的祖源数据整理技术。

技术介绍

[0002]从人类基因组水平来看,大部分人类遗传变异是SNP。人类基因组中约1000bp就有一个SNP位点,其广泛存在于非编码区和编码区。不同人种的个体身上携带的SNP是有差异的,从古到今人类多次发生长途迁徙,后代混血是普遍的现象,造成个体上的基因组里可能存在多个不同人种的遗传信息。因此,仅从肤色等外表性状来区分个体为哪个人种来源是不科学的。
[0003]除了人们的身高、肤色、体型等性状的差异跟SNP有关,还有罹患某些遗传疾病的概率、免疫系统对某些疾病的抵御能力水平等也跟SNP有关。针对个体或特定群体的遗传学信息分析需要掌握目标个体或群体的基因来源于哪个人种,了解祖源信息才能精准分析个体或群体罹患某些遗传疾病的概率、免疫系统对某些疾病的抵御能力水平等。这就需要祖源数据库里的遗传信息全面、分类正确,虽然现有的祖源数据库收录了不少生物医学发展以来获得的人种相关的祖源信息,但是同一遗传信息可能是多个人种祖源共有,有可能其分类不一定准确,仅将该遗传信息标记为其中某些人种祖源存在而忽略了另外的人种祖源中也有存在,导致被忽略的人种祖源遗传信息分析不到位,制约遗传信息与生物医学发展进程。若能将SNP分析应用于完善祖源分类,将提高查找目的基因/个人遗传信息的祖源准确性,对分析SNP与遗传疾病关联、分子诊断、精准医学、制药以及个体化用药有指导作用。

技术实现思路

[0004]本专利技术的目的在于提供一种各人种单倍型祖源数据库的构建方法,以解决现有技术中数据库信息不够全面,导致待测样本单倍型中的遗传信息不能得到最正确的归类,不能准确追溯到祖源的问题。
[0005]为了达到上述目的本专利技术采用如下技术方案:
[0006]各人种单倍型祖源数据库的构建方法,步骤包括:
[0007](1)收集各人种的全基因组数据,以单个单倍型序列为样本单位;
[0008](2)设置提取框,所述提取框从单倍型序列的一端向另一端移动并提取位于所述提取框内片段的SNP信息,并将每个所述片段标记对应的人种信息,同一人种内的片段按每个片段最接近5

端或3

端的SNP位点先后将每个片段按序暂存,直到每个人种的每个单倍型序列的SNP信息均被提取完毕;
[0009](3)比对同一人种内SNP位点相同的片段,将SNP位点相同且SNP位点上碱基信息相同的片段进行合并;
[0010](4)比对各人种间SNP位点相同的片段,找出SNP位点相同且SNP位点上碱基信息相同的片段,标记其对应的所有人种信息。
[0011]进一步地,所述提取框从单倍型序列的一端向另一端移动是逐个SNP移动的;
[0012]所述提取框从单倍型序列的5

端向3

端移动或从单倍型序列的3

端向5

端移动。
[0013]进一步地,所述提取框的大小是能够提取10

200个连续SNP。
[0014]进一步地,所述步骤(2)中,有2个以上不同大小的提取框移动提取同一个单倍型序列的SNP信息,直到每个人种的每个单倍型序列的SNP信息均被每个提取框移动提取完毕。
[0015]进一步地,所述2个以上不同大小的提取框同时移动提取或分批次移动提取同一个单倍型序列的SNP信息。
[0016]进一步地,所述2个不同大小的提取框选自:能够提取20个连续SNP的提取框、能够提取21个连续SNP的提取框、能够提取22个连续SNP的提取框......和能够提取200个连续SNP的提取框。
[0017]进一步地,所述2个不同大小的提取框选自:能够提取20个连续SNP的提取框、能够提取50个连续SNP的提取框、能够提取80个连续SNP的提取框、能够提取120个连续SNP的提取框、能够提取160个连续SNP的提取框、能够提取200个连续SNP的提取框。
[0018]进一步地,步骤还包括:
[0019](5)同一人种内,最接近5

端或3

端的SNP位点相同的片段归为相同的小组。
[0020]进一步地,步骤还包括:
[0021](6)同一人种内,SNP位点相同的片段归为相同的小组。
[0022]进一步地,所述步骤(1)中,各人种的全基因组数据收集自Hapmap项目、国际千人基因组计划、奇云诺德。
[0023]本专利技术的优点包括:构建的数据库中同一单倍型的遗传信息在不同SNP位点数量的片段中储存,利于待测单倍型比对;SNP位点相同且SNP位点碱基信息相同的片段均标记其对应的所有人种信息,避免在查找疾病关联基因时受到祖源信息不全的干扰而影响准确性,减少对发展分子诊断、精准医学、制药以及个体化用药造成限制。
具体实施方式
[0024]下面将结合具体实施例来详细说明本专利技术,在此以本专利技术的示意性实施例及说明用来解释本专利技术,但并不作为对本专利技术的限定。
[0025]实施例一
[0026]各人种单倍型祖源数据库的构建方法,步骤包括:
[0027](1)从Hapmap项目、国际千人基因组计划、奇云诺德等含有人种基因组数据的数据库中收集各人种的全基因组数据,以单个单倍型序列为样本单位;
[0028](2)设置能够提取20个连续SNP的提取框、能够提取21个连续SNP的提取框、能够提取22个连续SNP的提取框......和能够提取200个连续SNP的提取框,每个所述提取框从所述单倍型序列的5

端向3

端逐个SNP移动并提取位于所述提取框内片段的SNP信息,并将每个所述片段标记对应的人种信息,上述提取框可以是同时移动提取信息,也可以分批次移动提取信息,同一人种内的片段按每个片段最接近5

端的SNP位点先后将每个片段按序暂存,直到每个人种的每个单倍型序列的SNP信息均被每个提取框移动提取完毕;
[0029](3)比对同一人种内SNP位点相同的片段,将SNP位点相同且SNP位点上碱基信息相同的片段进行合并,避免重复储存造成冗余;
[0030](4)比对各人种间SNP位点相同的片段,找出SNP位点相同且SNP位点上碱基信息相同的片段,标记其对应的所有人种信息。
[0031](5)同一人种内,最接近5

端的SNP位点相同的片段归为相同的小组。
[0032](6)同一人种内,SNP位点相同的片段归为相同的小组。
[0033]实施例二
[0034]与实施例一不同的是:步骤(2)中提取框移动的方向是从所述单倍型序列的3

端向5

端移动,同一人种内的片段按每个片段最接近3

端的SNP位点先后将每个片段按序暂存;步骤(5)中同一人种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.各人种单倍型祖源数据库的构建方法,其特征在于:步骤包括:(1)收集各人种的全基因组数据,以单个单倍型序列为样本单位;(2)设置提取框,所述提取框从单倍型序列的一端向另一端移动并提取位于所述提取框内片段的SNP信息,并将每个所述片段标记对应的人种信息,同一人种内的片段按每个片段最接近5

端或3

端的SNP位点先后将每个片段按序暂存,直到每个人种的每个单倍型序列的SNP信息均被提取完毕;(3)比对同一人种内SNP位点相同的片段,将SNP位点相同且SNP位点上碱基信息相同的片段进行合并;(4)比对各人种间SNP位点相同的片段,找出SNP位点相同且SNP位点上碱基信息相同的片段,标记其对应的所有人种信息。2.根据权利要求1所述的各人种单倍型祖源数据库的构建方法,其特征在于:所述提取框从单倍型序列的一端向另一端移动是逐个SNP移动的;所述提取框从单倍型序列的5

端向3

端移动或从单倍型序列的3

端向5

端移动。3.根据权利要求1所述的各人种单倍型祖源数据库的构建方法,其特征在于:所述提取框的大小是能够提取10

200个连续SNP。4.根据权利要求1

3任一所述的各人种单倍型祖源数据库的构建方法,其特征在于:所述步骤(2)中,有2个以上不同大小的提取框移动提取同一个单倍型序列的SNP信息...

【专利技术属性】
技术研发人员:宋清马丽
申请(专利权)人:广州鸿溪见杉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1