一种用于MH测序数据的混合DNA概率分型方法技术

技术编号：42980130 阅读：14 留言：0更新日期：2024-10-15 13:15

本发明专利技术公开了一种用于MH测序数据的混合DNA概率分型方法。包括以下步骤：步骤1：根据单一个体来源DNA的MH测序数据得到先验参数；步骤2：获取待检混合DNA样本MH测序数据的特征信息；步骤3：根据测序信息，滤除噪声序列；步骤4：根据先验参数和特征信息，在控方假设和辩方假设下分别构建似然函数，计算控方假设和辩方假设的似然比；步骤5：根据似然函数值大小对可能的基因型组合进行排序；本发明专利技术用于法医DNA分析工作中常见的混合DNA样本的检测，可以客观、准确的解析混合DNA的MH测序数据的结果，有效减少了分析过程中的不确定性和主观误差，显著提高法医混合DNA的MH‑MPS数据分析的准确性、科学性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及法医dna分析，具体涉及一种用于mh测序数据的混合dna概率分型方法。

技术介绍

1、混合dna是指多个个体的dna混合而成的dna样本，是法医dna分析工作中常见的、分析难度最高的样本类型。构成混合dna的每个个体也被称为贡献者。混合dna的遗传标记的基因分型结果表现为混合型基因型，即多个个体的等位基因混合在一起。混合dna分析的主要目的有：1)从混合型基因分型结果中拆分出每个贡献者的可能个体基因型，此过程可被称为“反卷积”。2)运用生物统计学方法评价该混合型基因分型结果作为法庭科学证据并证明案件事实的证明能力，即“证据强度评价”。

2、微单倍型(microhaplotype，mh)是一种在法医学领域备受关注的基于dna序列多态性的新型遗传标记，通常在大规模平行测序(massive parallel sequencing，mps)平台上进行检测并实现基因型判读。mh具有多态性好，灵敏度高、突变率低、片段长度短，无影子峰产物等特点。这些特点使得mh适用于复杂生物检材的法医分析，特别是混合dna的基因分型，为多个体混合型生物检材的法医dna分析提供了新的解决方案。

3、近年来，越来越多的研究关注于使用mh遗传标记对法医混合dna样本进行基因分型。这些研究不仅证实了mh在法医领域的应用潜力，还为其在实际案件中的应用提供了理论基础。但由于二代测序技术流程的复杂性、以及mh遗传标记多位点复合靶向扩增和测序数据结构的复杂性。目前缺乏针对混合dna样本的mh二代测序数据的分析方法。

4、现有

技术实现思路

1、本专利技术针对现有技术存在的问题提出一种用于mh测序数据的混合dna概率分型方法。

2、本专利技术采用的技术方案是：一种用于mh测序数据的混合dna概率分型方法，包括以下步骤：

3、步骤1：根据单一个体来源dna的mh测序数据构造训练集，根据训练集估计得到先验参数；

4、步骤2：获取待检混合dna样本mh测序数据的特征信息，特征信息包括混合dna的mh分型和定量信息、目的个体分型信息、参考个体分型信息和相关参数；

5、步骤3：根据测序信息，滤除噪声序列；

6、步骤4：根据步骤1得到的先验参数和步骤2得到的特征信息，在控方假设和辩方假设下分别构建似然函数，根据似然函数计算控方假设和辩方假设的似然比；

7、控方假设为：目的个体和n个未知个体是混合dna样本的贡献者，或目的个体、参考个体和n-1个未知个体是混合dna样本的贡献者；

8、辩方假设为：n+1个未知个体是混合dna样本的贡献者，或参考个体和n个未知个体是混合样本的贡献者；

9、目的个体即怀疑为混合dna样本贡献者之一的个体；

10、参考个体即已确定为混合dna样本贡献者之一的个体；

11、步骤5：计算每个基因座上所有基因型组合似然函数值，得到基因座似然函数值大小排序结果。

12、进一步的，所述步骤1中的先验参数包括：mh遗传标记的基因座特异性检测效能参数、分析阈值、等位基因丢失率、等位基因群体频率、噪声分布参数。

13、进一步的，所述步骤2中的混合dna的mh测序数据包括：mh基因座、mh基因座总测序读数、mh序列碱基信息、mh序列测序读数；

14、目的个体分型信息包括：该个体在各个mh基因座上的mh等位基因碱基信息；

15、参考个体分型信息包括：该个体在各个mh基因座上的mh等位基因碱基信息；

16、相关参数包括：先验参数和贡献者人数。

17、进一步的，所述步骤3中滤除噪声序列过程如下：

18、根据待检混合dna样本mh测序数据，计算每个碱基序列的信号比r：

19、根据分析阈值对待检混合dna样本mh测序数据进行过滤，不在阈值范围内的滤除。

20、进一步的，所述步骤4中的似然函数构建方法如下：

21、s1：获取每个基因座上所有可能的基因型组合；

22、s2：根据等位基因群体频率信息计算每个贡献者的基因型频率；

23、s3：根据基因型组合和mh序列测序读数得到对应的权重；

24、s4：计算一个基因座l上的似然函数likl：

25、

26、式中：i为基因型组合序号，gi为第i个基因型组合，p(gi|h)为gi在群体中对应的频率，h为控方假设或辩方假设，dgil为第i个基因型组合gi的权重；

27、s5：计算联合待检样本所有基因座的似然函数lik：

28、

29、式中，l为基因座序号，l为所有基因座数目。

30、进一步的，所述步骤s2中计算每个贡献者的基因型频率的过程如下：

31、根据等位基因群体频率信息和哈迪-温伯格平衡定律计算每个贡献者的基因型频率。

32、进一步的，所述步骤s3中根据基因型组合和mh序列测序读数得到对应权重的过程如下：

33、获取指定基因座l上所有序列的集合o的测序读数信息oc和信号比or；

34、在指定基因型组合gi下，计算集合o中每一个序列的等位基因有效数字a，其中序列o的等位基因有效数字为ao；

35、

36、式中：box为第x个贡献者基因型中包含的序列集合o中的序列o的个数，mx为第x个贡献者的混合比参数，x为贡献者序号，x为贡献者个数；

37、根据等位基因有效数字ao对所有序列进行分类，若ao不为0则为等位基因序列，若ao为0则为噪声序列，在基因型组合中包含，但在所有序列集合o中不包含的序列为丢失等位基因序列；

38、分别计算等位基因序列、噪声序列和丢失等位基因序列的权重，然后将权重相乘得到基因型组合对应的权重。

39、进一步的，所述步骤4中根据似然函数计算控方假设和辩方假设的似然比的过程如下：

40、对控方假设和辩方假设下的似然函数分别进行参数估计；

41、根据估计得到的参数值在控方假设和辩方假设下分别计算似然函数的大小，并分别取控方假设和辩方假设下似然函数最大值；

42、得到控方假设和辩方假设的似然比。

43、进一步的，所述估计的参数包括：正态分布均质参数、正态分布变异性参数和每个贡献者的混合比参数。

44、进一步的，所述丢失等位基因序列的权重do为：

45、do＝(p(dropout))z

46、式中：p(dropout)为等位基因丢失率，z为基因型组合中等位基因丢失发生的次数；

47、噪声序列的权重dno为：

48、

49、式中：k为噪声序列序号，k为噪声序列数量，rk为基因座上本文档来自技高网...

【技术保护点】

1.一种用于MH测序数据的混合DNA概率分型方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于MH测序数据的混合DNA概率分型方法，其特征在于，所述步骤1中的先验参数包括：MH遗传标记的基因座特异性检测效能参数、分析阈值、等位基因丢失率、等位基因群体频率、噪声分布参数。

3.根据权利要求2所述的一种用于MH测序数据的混合DNA概率分型方法，其特征在于，所述步骤2中的待检混合DNA样本MH测序数据包括：MH基因座、MH基因座总测序读数、MH序列碱基信息、MH序列测序读数；

4.根据权利要求3所述的一种用于MH测序数据的混合DNA概率分型方法，其特征在于，所述步骤3中滤除噪声序列过程如下：

5.根据权利要求3所述的一种用于MH测序数据的混合DNA概率分型方法，其特征在于，所述步骤4中的似然函数构建方法如下：

6.根据权利要求5所述的一种用于MH测序数据的混合DNA概率分型方法，其特征在于，所述步骤S2中计算每个贡献者的基因型频率的过程如下：

7.根据权利要求6所述的一种用于MH测序数据的混合DNA

8.根据权利要求7所述的一种用于MH测序数据的混合DNA概率分型方法，其特征在于，所述步骤4中根据似然函数计算控方假设和辩方假设的似然比的过程如下：

9.根据权利要求8所述的一种用于MH测序数据的混合DNA概率分型方法，其特征在于，所述估计的参数包括：正态分布均值参数、正态分布变异性参数和每个贡献者的混合比参数。

10.根据权利要求7所述的一种用于MH测序数据的混合DNA概率分型方法，其特征在于，所述丢失等位基因序列的权重Do为：

...

【技术特征摘要】

1.一种用于mh测序数据的混合dna概率分型方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于mh测序数据的混合dna概率分型方法，其特征在于，所述步骤1中的先验参数包括：mh遗传标记的基因座特异性检测效能参数、分析阈值、等位基因丢失率、等位基因群体频率、噪声分布参数。

3.根据权利要求2所述的一种用于mh测序数据的混合dna概率分型方法，其特征在于，所述步骤2中的待检混合dna样本mh测序数据包括：mh基因座、mh基因座总测序读数、mh序列碱基信息、mh序列测序读数；

4.根据权利要求3所述的一种用于mh测序数据的混合dna概率分型方法，其特征在于，所述步骤3中滤除噪声序列过程如下：

5.根据权利要求3所述的一种用于mh测序数据的混合dna概率分型方法，其特征在于，所述步骤4中的似然函数构建方法如下：

【专利技术属性】
技术研发人员：张霁，王雨婷，胡渝涵，朱强，王玉芳，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人