一种基于多模态遗传信息的生物个体地理来源定位方法技术

技术编号：40840287 阅读：18 留言：0更新日期：2024-04-01 15:06

本发明专利技术提供一种基于多模态遗传信息的生物个体地理来源定位方法，本发明专利技术首先构建多模态遗传信息数据集，开拓了关于SNP分型结果的多角度运用，在对比单一模态信息时有着更高的推断或预测准确性。同时，该方法采用主成分分析、祖源成分分析、祖先同源片段长度分析，涉及了高密度SNP的降维，避免了群体模型假设与参数估计方法中高维位点信息难适应和难以拟合的现实问题。该方法评估了各个特征的重要性，对群体遗传学领域中人群分层的因素探索具有一定的参考作用。该方法地域和人群的普适性范围更广，可以处理具有大量样本且高密度SNP基因型数据库，综合应用了多模态生物遗传数据，无需过多生物群体先验知识。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物地理位置预测，具体涉及一种基于多模态遗传信息的生物个体地理来源定位方法。

技术介绍

1、生物个体地理来源的定位问题主要包括生物地理祖源(biogeographicalancestry,bga)推断和个体的生物地理位置预测两大方面，旨在根据个体的遗传信息确定其生物学祖源族群或地理来源。近年来，随着世界的联系越来越紧密，人们的流动性越来越大，地理来源的分析变得越来越重要。了解个体的地理来源，可以帮助深入了解人类迁徙和人口结构的历史，辅助破解跨地域跨国甚的刑事犯罪案件。典型的地理来源解决方法有传统法医学推断方法和基于高密度遗传标记位点的方法。

2、snp是单核苷酸多态性(single nucleotide polymorphism)的简写，是指在基因组水平上由单个核苷酸上的a、t、c、g四种碱基之间的变异所引起的dna序列多态性。对于某一物种或群体来说，snp导致dna序列发生了变化，使得基因组上同一位置发生多种碱基存在的多态性。

3、snp基因分型指的是确定snp的碱基对类型，除了未检出情况，总共有4*4＝16种可能结果。基因分型的不同，可能导致样本的表型不同。其在人群中广泛存在，多态性丰富，是很好的遗传标记物。尤其高通量的snp检测方法出现之后，被广泛用于生物信息学的分析。

4、snp在人类基因组中含量丰富，在各个人群中广泛存在，因其遗传稳定性高、突变率低、位点检测所需的扩增片段短、分布均匀、多态性丰富，是很好的遗传标记物，被广泛用于生物信息学的分析。

5、从地理和

6、传统的法医遗传推断方法，主要是在特定地理区域内，基于部分人群的少量低密度的遗传标记，如：祖源snp(ancestry informative snps,aisnps)分型信息，进行特异性位点筛选，然后在所选择的区域和人群上建立参考数据集，比较这些特异性位点上snp分型数据与参考族群的相似性，通过随即匹配概率计算族源成分，给出族群来源的推断结果。但是现有商业法医领域中的商用位点集合中位点数量较少，具有地区局限性，不足以在普遍范围内区分大陆内水平的人群，在捕获人群精细亚结构方面可能存在局限性，难以达到更精细水平的区分。

7、随着基因测序技术的进步，下一代测序技术(next generation sequencingtechnology,ngs,又称高通量测序)被广泛使用，可用的高密度数据集数量剧增。为此，这急需使用高密度遗传数据建立更为复杂的模型去进行更精细的遗传定位。目前主要有两种基于高密度snp基因型数据进行生物个体地理来源定位的方法：

8、基于概率与统计学的群体模型假设与参数估计的方法，这类方法是从群体遗传学已有的知识出发，对群体做出一些前提性、先验性、理想化的显式模型假设(如：snp分型的地理分布频谱)，在所提出模型合理的假设下，利用已有的生物数据对模型进行参数估计，最终得到的模型可以依据某个特定的遗传变异场景，描述个体随时间或空间的分布变化情况。但是随着遗传定位问题研究的深入，所需定位精度的增高，这要求使用更高维度的生物学特征，做出更为复杂的模型假设。同时，当输入数据具有大量特征时，“维度灾难”形成，模型变得难以拟合。

9、基于机器学习的方法，面向算法建模，以算法的优化为目标，可以一定程度避免使用理想化的数据参数模型，注重从巨量数据中获取隐藏的、有效的、可理解的知识。即可以利用机器学习的工具，向大量生物数据中蕴藏的巨量知识、自然发展法则运行下累积起来的种种结论和现象学习，取代人们以现有知识出发，对自然提出种种模型的假设来表示它们。同时，机器学习方法对于现代基因组数据的维度不断增加，有着很好的可解决性和适应性。

10、目前，在基于机器学习的方法中，对于snp分型数据的处理方法主要为：主成分分析方法、structure祖源成分分析方法等用于发现个体之间未知的相关关系。然而利用这些方法处理后得到各个模态的信息，目前的模型利用的模态往往比较单一，而且这些方法往往只保留了较少维度的特征(如：2-3维的主成分)，其数据的利用率和预测准确率还有待提升。

11、随着二代测序技术和高密度芯片检测技术的发展成熟，实现快速地对dna样本进行snp分型已经较为普遍，但是上述不同方法和模型中，有些对于适用地域人群的普适性不高、有些对于高密度snp的适应性不佳，并且他们对于snp信息的理解角度比较单一，对挖掘到的其中所蕴含的生物地理信息的利用率不高。如何全方位、多角度地反映出snp在生物祖源或地理预测方面更多维度的信息，并在实际的推断或预测模型中将多种模态的生物信息综合起来使用，同时可以评估其对于生物个体地理来源的定位问题的重要程度，仍然有待研究。

技术实现思路

1、本专利技术的目的在于提供一种基于多模态遗传信息的生物个体地理来源定位方法，以解决现有技术中对高密度snp适应性不佳、区域适用普适性不足、使用多模态生物信息不充分的问题。

2、本专利技术通过以下技术方案实现：

3、一种基于多模态遗传信息的生物个体地理来源定位方法，包括：

4、获取参考样本snp分型数据及对应的生物祖源地或生物地理位置；获取待测样本snp分型数据；合并待测样本snp分型数据和参考样本snp分型数据，并标记样本类型，获得合并后总snp分型数据；

5、对合并后总snp分型数据进行主成分分析，得到所有pc维度的信息，根据解释方差选取部分pc维度，并获取部分pc维度上的信息；对合并后总snp分型数据进行祖源成分分析，得到祖源成分比例信息，根据各祖源成分比例的均值和标准差选取部分祖源成分比例信息；计算合并后总snp分型数据的祖先同源片段长度信息，根据各祖先同源片段长度的均值和标准差选取部分祖先同源片段长度信息；

6、将部分pc维度上的信息、部分祖源成分比例信息和部分祖先同源片段长度信息这三种模态合并，获得合并后多模态数据集；对合并后多模态数据集进行标准化和归一化，获得可用总数据集；

7、将可用总数据集中的参考样本划分为训练集和测试集，以可用总数据集中所有维度为特征，使用训练集和测试集进行特征重要性评估；基于特征重要性评估，确定特征集合；对可用总数据集取特征集合中的维度上的信息，得到精选可用总数据集；

8、基于精选可用总数据集，对生物个体地理来源定位。

9、优选的，所述对合并后总snp分型数据进行主成分分析，具体是：使用gcta软件的pca功能对合本文档来自技高网...

【技术保护点】

1.一种基于多模态遗传信息的生物个体地理来源定位方法，其特征在于，包括：

2.根据权利要求1所述的基于多模态遗传信息的生物个体地理来源定位方法，其特征在于，所述对合并后总SNP分型数据进行主成分分析，具体是：使用GCTA软件的PCA功能对合并后总SNP分型数据进行主成分分析。

3.根据权利要求1所述的基于多模态遗传信息的生物个体地理来源定位方法，其特征在于，所述对合并后总SNP分型数据进行祖源成分分析，具体是：使用ADMIXTURE软件对合并后总SNP分型数据进行祖源成分分析。

4.根据权利要求1所述的基于多模态遗传信息的生物个体地理来源定位方法，其特征在于，所述计算合并后总SNP分型数据的祖先同源片段长度信息，具体是：使用EAGLE软件对参考样本SNP分型数据进行同源染色体分离，得到各个染色体上的分型结果，使用GERMLINE软件根据各个染色体上的分型结果识别所有参考样本对之间相同的DNA序列，记录查找到的IBD片段长度，合并各个染色体上的IBD片段后，通过ERSA软件根据参考样本的生物祖源地信息分类计算某参考样本与其他各参考样本之间的平均I

5.根据权利要求1所述的基于多模态遗传信息的生物个体地理来源定位方法，其特征在于，所述根据解释方差选取部分PC维度，并获取部分PC维度上的信息，具体是：根据所有PC维度的信息，计算出各PC维度的解释方差，选取累计解释方差大于60％的前若干个PC维度，获取所述前若干个PC维度上的信息。

6.根据权利要求1所述的基于多模态遗传信息的生物个体地理来源定位方法，其特征在于，所述对合并后多模态数据集进行标准化和归一化，具体是：对合并后多模态数据集中的三种模态分别依次进行标准化和归一化，得到三种模态的结果，再对三种模态的结果进行标准化和归一化。

7.根据权利要求6所述的基于多模态遗传信息的生物个体地理来源定位方法，其特征在于，所述对合并后多模态数据集中的三种模态分别依次进行标准化和归一化，具体是：对部分PC维度上的信息、部分祖源成分比例信息和部分祖先同源片段长度信息分别依次进行标准化和归一化，使得均值是0，方差为1，且取值压缩到0到1之间。

8.根据权利要求1所述的基于多模态遗传信息的生物个体地理来源定位方法，其特征在于，所述将可用总数据集中的参考样本划分为训练集和测试集，具体是：将可用总数据集中的参考样本按照分层抽样的方法划分为训练集和测试集。

9.根据权利要求1所述的基于多模态遗传信息的生物个体地理来源定位方法，其特征在于，以可用总数据集中所有维度为特征，使用训练集和测试集进行特征重要性评估，具体是：以可用总数据集中所有维度为特征，基于Lasso多项式逻辑回归方法，使用训练集和测试集进行特征重要性评估；

10.根据权利要求1所述的基于多模态遗传信息的生物个体地理来源定位方法，其特征在于，以可用总数据集中所有维度为特征，使用训练集和测试集进行特征重要性评估，具体是：以可用总数据集中所有维度为特征，基于LightGBM方法，使用训练集和测试集进行特征重要性评估；

...

【技术特征摘要】

1.一种基于多模态遗传信息的生物个体地理来源定位方法，其特征在于，包括：

2.根据权利要求1所述的基于多模态遗传信息的生物个体地理来源定位方法，其特征在于，所述对合并后总snp分型数据进行主成分分析，具体是：使用gcta软件的pca功能对合并后总snp分型数据进行主成分分析。

3.根据权利要求1所述的基于多模态遗传信息的生物个体地理来源定位方法，其特征在于，所述对合并后总snp分型数据进行祖源成分分析，具体是：使用admixture软件对合并后总snp分型数据进行祖源成分分析。

4.根据权利要求1所述的基于多模态遗传信息的生物个体地理来源定位方法，其特征在于，所述计算合并后总snp分型数据的祖先同源片段长度信息，具体是：使用eagle软件对参考样本snp分型数据进行同源染色体分离，得到各个染色体上的分型结果，使用germline软件根据各个染色体上的分型结果识别所有参考样本对之间相同的dna序列，记录查找到的ibd片段长度，合并各个染色体上的ibd片段后，通过ersa软件根据参考样本的生物祖源地信息分类计算某参考样本与其他各参考样本之间的平均ibd片段长度；使用eagle软件对待测样本snp分型数据进行同源染色体分离，得到各个染色体上的分型结果，使用germline软件根据各个染色体上的分型结果识别待测样本与参考样本对之间相同的dna序列，记录查找到的ibd片段长度，合并各个染色体上的ibd片段后，通过ersa软件根据生物祖源地信息分类计算某待测样本与其他各参考样本之间的平均ibd片段长度。

5.根据权利要求1所述的基于多模态遗传信息的生物个体地理来源定位方法，其特征在于，所述根据解释方差选取部分pc维度，并获取部分pc维度上的...

【专利技术属性】
技术研发人员：范虹，姚昊天，王春年，
申请(专利权)人：陕西师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人