一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系技术

技术编号：22058780 阅读：123 留言：0更新日期：2019-09-07 16:37

本发明专利技术属于分子生物学和遗传学领域，具体公开了一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系。所述构建方法包括对遗传标记数据进行数据分割和遗传标记挑选，或视情况对分割后的数据进行过滤，或对挑选后的遗传标记进行整合优化。采用本发明专利技术所述的方法可成功地使计算的复杂度从O(2

Construction of a Genetic Marker Reference System for Population Differentiation and Identification and a Genetic Marker Reference System

全部详细技术资料下载

【技术实现步骤摘要】
一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系
本专利技术属于分子生物学和遗传学领域，具体地说，涉及一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系。
技术介绍
法医分析的重要任务之一就是明确个体的群体起源和类群来源，从而有效地缩小调查范围。在过去的几十年中，虽然很多类群特异性遗传标记不断被开发出来，然而仅仅个别几类被应用于实际法医检验。近年来，随着基因型分析技术和测序技术的飞速发展，大量的遗传数据涌现，为充分发掘分子遗传标记的应用潜能提供了机遇。事实上，多态性遗传标记已经被成功用于体貌特征的预测和地理来源和家系起源的推断。可以说，法医科学已经进入了“DNA智能”的新时代。SNP标记是人类基因组中最丰富的遗传标记，平均1250个碱基中就有至少一个SNP位点。由于SNP标记的稳定性、在基因组中的丰富性以及其反映其变异的等位基因频率模式的完整性，SNP标记已成为群体鉴别最好的遗传标记。STR标记是另一类多态性遗传标记，前基因组时代在群体遗传分析和医学鉴定中最常用的遗传标记。由于其多态性高、等位基因丰富的特点，特别适合亲缘关系较近的群体和个体的区分识别。在当前法医学领域，STR标记是应用最广泛的遗传标记。近几十年人类群体基因组学和疾病遗传学的研究已经积累了海量的SNP和STR数据资源，使得当前应用SNP和STR进行遗传分析的兴趣持续高涨。然而，很多法医遗传分析中所收集的DNA样品仅仅能满足少数遗传标记位点的遗传分析，很难满足全面的标记分析需要。因此，从海量基因组变异中挑选信息量高的少数SNP和STR位点作为参照系来满足特定的法医遗传分析...

【技术保护点】
1.一种群体区分和鉴定的遗传标记参照系的构建方法，其特征在于，包括如下步骤中的步骤(1)和步骤(3)，或包括如下步骤中的步骤(1)‑(3)，或包括如下步骤中的(1)、(3)、(4)，或包括如下步骤中的(1)‑(4)：(1)数据分割：以已知的遗传标记数据库作为样本，按照遗传信息差异对样本数据进行分割，得到多个类；(2)数据过滤：计算各个类中遗传标记的FST值，并据此对各个类中的遗传标记进行降序排列，当数据中包括的遗传标记数目小于或等于50000时，全部用于下一步分析，当数据中包含的遗传标记数目大于50000时，保留各类中排列于前2％～10％个遗传标记；(3)遗传标记挑选：针对数据过滤后的各类遗传标记，运用特征选择算法挑选出可保留每个类的最大区别力的一个子集，该子集的集合即可作为遗传标记参照系；其中，所述特征选择算法如算法一所示：算法一：步骤一：产生#L个以不同特征(遗传标记)为起始元素且长度为u的特征序，对于

【技术特征摘要】
1.一种群体区分和鉴定的遗传标记参照系的构建方法，其特征在于，包括如下步骤中的步骤(1)和步骤(3)，或包括如下步骤中的步骤(1)-(3)，或包括如下步骤中的(1)、(3)、(4)，或包括如下步骤中的(1)-(4)：(1)数据分割：以已知的遗传标记数据库作为样本，按照遗传信息差异对样本数据进行分割，得到多个类；(2)数据过滤：计算各个类中遗传标记的FST值，并据此对各个类中的遗传标记进行降序排列，当数据中包括的遗传标记数目小于或等于50000时，全部用于下一步分析，当数据中包含的遗传标记数目大于50000时，保留各类中排列于前2％～10％个遗传标记；(3)遗传标记挑选：针对数据过滤后的各类遗传标记，运用特征选择算法挑选出可保留每个类的最大区别力的一个子集，该子集的集合即可作为遗传标记参照系；其中，所述特征选择算法如算法一所示：算法一：步骤一：产生#L个以不同特征(遗传标记)为起始元素且长度为u的特征序，对于以表示第一个元素为l长度为u的序列，其产生过程如下：S1、对于产生其中l1＝l；S2、对于任意2≤i≤u，若已有选可极大化累计分类能力(CCA)的特征作为第i个元素，并产生其中表示子集的余集；步骤二：比较#L条序列的累计分类能力，并选择最优序列作为极大分类(特征)集(MaC集)，其中(4)：整合优化；具体为：运用另一个特征选择算法，将从每个类中挑选的子集整合成一个综合参照系；其中，所述另一个特征选择算法如算法一所示：算法二：基于贪...

【专利技术属性】
技术研发人员：陈华，赵石磊，马亮，石承民，
申请(专利权)人：中国科学院北京基因组研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人