一种基于DNA甲基化芯片的基因分型方法及应用技术

技术编号：41581234 阅读：22 留言：0更新日期：2024-06-06 23:57

本发明专利技术涉及表观组关联研究领域，涉及一种基于DNA甲基化芯片的基因分型方法及应用。本发明专利技术开发了一个基于Infinium甲基化芯片数据检测基因型并推断样本间亲缘关系的方法。该方法以芯片原始数据(.IDAT格式)或处理后的数据(β或M值矩阵)当作输入，针对SNP探针、Ⅰ型探针和Ⅱ型探针分别检测基因型，并产生标准的VCF文件。本发明专利技术首次实现从甲基化芯片数据中准确检测上千个SNP的基因型，并基于这些基因型实现人群结构和亲缘关系的准确推断。如果在进行表观组关联分析(EWAS)之前使用本方法排除具有亲缘关系的样本，可减少由样本相关性导致的假阳性结果，提高研究结果的准确性，促进对疾病机制的研究。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及表观组关联研究领域，更具体地，涉及一种基于dna甲基化芯片的基因分型方法及应用，尤其涉及一种基于dna甲基化芯片数据检测基因型，并推断人群结构和鉴定样本间亲缘关系的方法。

技术介绍

1、dna甲基化主要发生在胞嘧啶-鸟嘌呤双核苷酸(cpg)上，是在dna甲基转移酶的作用下胞嘧啶的第5个碳原子结合上一个甲基的过程。dna甲基化受环境影响而动态变化，其在基因调控过程中发挥着重要作用。随着高通量甲基化芯片技术的飞速发展，dna甲基化已经成为最广泛研究的表观遗传修饰。主流的甲基化芯片技术包括infiniumhumanmethylation450(450k)和infinium humanmethylationepic(epic)。这些技术能同时检测几十万个cpg位点，使得表观组关联分析(ewas)得以广泛应用，检测到了大量与多种复杂疾病和环境暴露相关的cpg位点，加深了对疾病机制的理解(rakyan et al.nat revgenet 2011,wei et al.adv sci(weinh)2021,fraszczyk et al.diabetologia 2022)。

2、在进行ewas研究时，如何处理具有亲缘关系的样本显得尤为重要。由于存在亲缘关系的样本长期暴露在相似的环境中，他们的甲基化水平具有更强的相似性，如果在ewas研究时纳入这些样本，会更容易产生假阳性信号(rakyan et al.nat rev genet 2011,gross et al.bmc genet 2017,campagna et

3、如果有足够的单核苷酸多态性(snp)数据，我们可以非常准确地推断人群结构和样本间亲缘关系(purcell et al.am j hum genet 2007,manichaikul etal.bioinformatics 2010,thornton et al.am j hum genet 2012,conomos et al.am jhum genet 2016,dou et al.plos genet 2017)。尽管infinium甲基化芯片也设计了几十个snp探针用于检测样本混淆(比如epic芯片设计了59个snp探针，其中6个位于x染色体上)(assenov et al.nat methods 2014,heiss et al.clin epigenetics 2018,muller etal.genome biol 2019)，但是这些snp的数目太少，远不足以用于准确推断亲缘关系。另一方面，在进行甲基化数据质控时，为了避免snp对甲基化信号检测结果的影响，成百上千的位于常见snp(次等位基因频率maf>0.01)附近的探针被删除(mccartney et al.genomdata 2016,pidsley et al.genome biol 2016,zhou et al.nucleic acids res 2017)。如果snp位于探针的单碱基延伸(sbe)位置，这些探针的甲基化信号通常会随着snp基因型变化，从而表现为多峰分布(通常为三峰)(daca-roszak et al.bmc genom 2015,andrewset al.epigenetics chromatin 2016,labarre et al.epigenetics chromatin 2019)。因此，我们认为可以基于这些探针的甲基化信号强度来推断基因型，并进一步推断人群结构和亲缘关系。

4、infinium甲基化芯片设计了两类探针：ⅰ型探针和ⅱ型探针。ⅰ型探针在每个待测cpg位点上设计两个探针，分别与甲基化和未甲基化的序列配对，配对成功后会往后再延伸一个碱基(sbe)并发出荧光信号。如果sbe为a或t，则显红色；如果sbe为g或c，则显绿色。如果在sbe位置发生了除a/t和g/c以外的突变，则会造成颜色通道的改变(ccs)。通过比较不同颜色通道的信号强度，可以推断sbe位置的基因型(zhou et al.nucleic acids res2017)。ⅱ型探针在每个待测cpg位点上设计一个探针，其sbe位点即为待测c位点。在亚硫酸盐转化后，未甲基化的c会转变为t，与探针结合后发红光；甲基化的c保持不变，与探针结合后显绿色。在有snp的情况下，如果待测c位点突变为a或t，则显红色；如果突变为g，则显绿色。由于甲基化和snp均会影响颜色通道，对ⅱ型探针推断基因型难度更大。尽管infinium芯片上大部分是ⅱ型探针(pidsley et al.genome biol 2016)，但是目前并没有方法可以针对ⅱ型探针进行基因型的推断。本领域需要一种能够基于dna甲基化芯片准确推断基因型并鉴定亲缘关系的方法，以提高ewas结果的准确性。

技术实现思路

1、本专利技术开发了一个基于infinium甲基化芯片数据(epic或450k芯片)检测基因型并推断样本间亲缘关系的方法。该方法以芯片原始数据(.idat格式)或处理后的数据(β或m值矩阵)当作输入，针对snp探针、ⅰ型探针和ⅱ型探针分别检测基因型，并基于这些基因型推断人群结构和亲缘关系。

2、根据本专利技术第一方面，提供了一种基于dna甲基化芯片的基因分型方法，包括以下步骤：

3、(1)针对每个候选snp探针、候选ⅰ型探针和候选ⅱ型探针分别计算支持突变等位基因的信号比例rai，并生成rai矩阵，其中每个探针在每个样本中对应一个rai值；

4、(2)针对三种探针分别构建rai分布的混合模型，所述混合模型包括三个beta分布和一个均匀分布，其中三个beta分布分别表示参考纯合子、杂合子和突变纯合子这三种基因型，一个均匀分布表示背景噪音；

5、(3)对步骤(2)所述混合模型的参数进行求解，并计算每个探针在每个样本中的背景概率和参考纯合子、杂合子和突变纯合子这三种基因型概率值；

6、(4)根据步骤(3)得到的背景概率和三种基因型概率，计算每个探针在每个样本中的基因型。

7、优选地，步骤(1)中，所述候选snp探针为甲基化芯片上设计的snp探针；所述候选ⅰ型探针和候选ⅱ型探针为甲基化芯片上的探针，且在其碱基延伸位置存在常见snp，所述常见snp为次等位基因频率maf>0.01；针对snp探针、ⅰ型探针和ⅱ型探针这三种探针的rai计算公式分别如下：

8、对于snp探针，令s(pref)和s(palt)分别对应胞嘧啶等位基因的信号本文档来自技高网...

【技术保护点】

1.一种基于DNA甲基化芯片的基因分型方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于DNA甲基化芯片的基因分型方法，其特征在于，步骤(1)中，所述候选SNP探针为甲基化芯片上设计的SNP探针；所述候选Ⅰ型探针和候选Ⅱ型探针为DNA甲基化芯片上的探针，且在其碱基延伸位置存在常见SNP，所述常见SNP为次等位基因频率MAF>0.01；针对SNP探针、Ⅰ型探针和Ⅱ型探针这三种探针的RAI计算公式分别如下：

3.如权利要求1所述的基于DNA甲基化芯片的基因分型方法，其特征在于，步骤(2)中，构建混合模型具体如下：设RAI值为m×n的矩阵X，其中m和n分别表示探针数和样本数；假定X服从三个beta分布和一个均匀分布的混合分布，三个beta分布分别对应三种基因型，一个均匀分布表示背景噪音：

4.如权利要求1所述的基于DNA甲基化芯片的基因分型方法，其特征在于，步骤(3)中，使用期望最大化算法对模型参数求解，具体步骤如下：

5.如权利要求1所述的基于DNA甲基化芯片的基因分型方法，其特征在于，步骤(4)中，推断基因型的具体过程

6.如权利要求5所述的基于DNA甲基化芯片的基因分型方法，其特征在于，所述背景概率较大的基因型设为缺失，具体为：将的基因型设为缺失。

7.如权利要求1-6任意一项所述的基于DNA甲基化芯片的基因分型方法用于推断人群结构的应用。

8.如权利要求7所述的应用，其特征在于，以已知人群结构的遗传数据集构建参考祖源空间，并将研究样本通过LASER算法投射到参考空间中，从而推断研究样本的人群结构。

9.如权利要求1-6任意一项所述的基于DNA甲基化芯片的基因分型方法用于推断亲缘关系的应用。

10.如权利要求9所述的应用，其特征在于，针对来源于单一人群和混合人群的样本，分别使用SEEKIN-hom方法和SEEKIN-het方法推断亲缘关系。

...

【技术特征摘要】

1.一种基于dna甲基化芯片的基因分型方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于dna甲基化芯片的基因分型方法，其特征在于，步骤(1)中，所述候选snp探针为甲基化芯片上设计的snp探针；所述候选ⅰ型探针和候选ⅱ型探针为dna甲基化芯片上的探针，且在其碱基延伸位置存在常见snp，所述常见snp为次等位基因频率maf>0.01；针对snp探针、ⅰ型探针和ⅱ型探针这三种探针的rai计算公式分别如下：

3.如权利要求1所述的基于dna甲基化芯片的基因分型方法，其特征在于，步骤(2)中，构建混合模型具体如下：设rai值为m×n的矩阵x，其中m和n分别表示探针数和样本数；假定x服从三个beta分布和一个均匀分布的混合分布，三个beta分布分别对应三种基因型，一个均匀分布表示背景噪音：

4.如权利要求1所述的基于dna甲基化芯片的基因分型方法，其特征在于，步骤(3)中，使用期望最大化算法对模型参数求解，具体步骤如下：

5.如权利要求1所述的基于dna甲基化芯片的基因分型方法，其特...

【专利技术属性】
技术研发人员：王超龙，姜毅，程姗珊，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人