System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于DNA甲基化芯片的基因分型方法及应用技术_技高网

一种基于DNA甲基化芯片的基因分型方法及应用技术

技术编号:41581234 阅读:8 留言:0更新日期:2024-06-06 23:57
本发明专利技术涉及表观组关联研究领域,涉及一种基于DNA甲基化芯片的基因分型方法及应用。本发明专利技术开发了一个基于Infinium甲基化芯片数据检测基因型并推断样本间亲缘关系的方法。该方法以芯片原始数据(.IDAT格式)或处理后的数据(β或M值矩阵)当作输入,针对SNP探针、Ⅰ型探针和Ⅱ型探针分别检测基因型,并产生标准的VCF文件。本发明专利技术首次实现从甲基化芯片数据中准确检测上千个SNP的基因型,并基于这些基因型实现人群结构和亲缘关系的准确推断。如果在进行表观组关联分析(EWAS)之前使用本方法排除具有亲缘关系的样本,可减少由样本相关性导致的假阳性结果,提高研究结果的准确性,促进对疾病机制的研究。

【技术实现步骤摘要】

本专利技术涉及表观组关联研究领域,更具体地,涉及一种基于dna甲基化芯片的基因分型方法及应用,尤其涉及一种基于dna甲基化芯片数据检测基因型,并推断人群结构和鉴定样本间亲缘关系的方法。


技术介绍

1、dna甲基化主要发生在胞嘧啶-鸟嘌呤双核苷酸(cpg)上,是在dna甲基转移酶的作用下胞嘧啶的第5个碳原子结合上一个甲基的过程。dna甲基化受环境影响而动态变化,其在基因调控过程中发挥着重要作用。随着高通量甲基化芯片技术的飞速发展,dna甲基化已经成为最广泛研究的表观遗传修饰。主流的甲基化芯片技术包括infiniumhumanmethylation450(450k)和infinium humanmethylationepic(epic)。这些技术能同时检测几十万个cpg位点,使得表观组关联分析(ewas)得以广泛应用,检测到了大量与多种复杂疾病和环境暴露相关的cpg位点,加深了对疾病机制的理解(rakyan et al.nat revgenet 2011,wei et al.adv sci(weinh)2021,fraszczyk et al.diabetologia 2022)。

2、在进行ewas研究时,如何处理具有亲缘关系的样本显得尤为重要。由于存在亲缘关系的样本长期暴露在相似的环境中,他们的甲基化水平具有更强的相似性,如果在ewas研究时纳入这些样本,会更容易产生假阳性信号(rakyan et al.nat rev genet 2011,gross et al.bmc genet 2017,campagna et al.clin epigenetics 2021)。然而,尽管亲缘关系带来的混杂效应如此重要,由于没有方法可以从甲基化数据中计算亲缘关系,大部分ewas研究往往没有考虑这方面的影响。即使有些队列同时产生了甲基化和基因型芯片数据,由于两个数据集的质控流程有所区别,最终通过质控的样本也有所不同,直接利用基因型芯片数据推断的亲缘关系进行ewas研究也会存在问题。因此,很有必要开发一个基于甲基化数据推断亲缘关系的方法,更好地促进ewas研究。

3、如果有足够的单核苷酸多态性(snp)数据,我们可以非常准确地推断人群结构和样本间亲缘关系(purcell et al.am j hum genet 2007,manichaikul etal.bioinformatics 2010,thornton et al.am j hum genet 2012,conomos et al.am jhum genet 2016,dou et al.plos genet 2017)。尽管infinium甲基化芯片也设计了几十个snp探针用于检测样本混淆(比如epic芯片设计了59个snp探针,其中6个位于x染色体上)(assenov et al.nat methods 2014,heiss et al.clin epigenetics 2018,muller etal.genome biol 2019),但是这些snp的数目太少,远不足以用于准确推断亲缘关系。另一方面,在进行甲基化数据质控时,为了避免snp对甲基化信号检测结果的影响,成百上千的位于常见snp(次等位基因频率maf>0.01)附近的探针被删除(mccartney et al.genomdata 2016,pidsley et al.genome biol 2016,zhou et al.nucleic acids res 2017)。如果snp位于探针的单碱基延伸(sbe)位置,这些探针的甲基化信号通常会随着snp基因型变化,从而表现为多峰分布(通常为三峰)(daca-roszak et al.bmc genom 2015,andrewset al.epigenetics chromatin 2016,labarre et al.epigenetics chromatin 2019)。因此,我们认为可以基于这些探针的甲基化信号强度来推断基因型,并进一步推断人群结构和亲缘关系。

4、infinium甲基化芯片设计了两类探针:ⅰ型探针和ⅱ型探针。ⅰ型探针在每个待测cpg位点上设计两个探针,分别与甲基化和未甲基化的序列配对,配对成功后会往后再延伸一个碱基(sbe)并发出荧光信号。如果sbe为a或t,则显红色;如果sbe为g或c,则显绿色。如果在sbe位置发生了除a/t和g/c以外的突变,则会造成颜色通道的改变(ccs)。通过比较不同颜色通道的信号强度,可以推断sbe位置的基因型(zhou et al.nucleic acids res2017)。ⅱ型探针在每个待测cpg位点上设计一个探针,其sbe位点即为待测c位点。在亚硫酸盐转化后,未甲基化的c会转变为t,与探针结合后发红光;甲基化的c保持不变,与探针结合后显绿色。在有snp的情况下,如果待测c位点突变为a或t,则显红色;如果突变为g,则显绿色。由于甲基化和snp均会影响颜色通道,对ⅱ型探针推断基因型难度更大。尽管infinium芯片上大部分是ⅱ型探针(pidsley et al.genome biol 2016),但是目前并没有方法可以针对ⅱ型探针进行基因型的推断。本领域需要一种能够基于dna甲基化芯片准确推断基因型并鉴定亲缘关系的方法,以提高ewas结果的准确性。


技术实现思路

1、本专利技术开发了一个基于infinium甲基化芯片数据(epic或450k芯片)检测基因型并推断样本间亲缘关系的方法。该方法以芯片原始数据(.idat格式)或处理后的数据(β或m值矩阵)当作输入,针对snp探针、ⅰ型探针和ⅱ型探针分别检测基因型,并基于这些基因型推断人群结构和亲缘关系。

2、根据本专利技术第一方面,提供了一种基于dna甲基化芯片的基因分型方法,包括以下步骤:

3、(1)针对每个候选snp探针、候选ⅰ型探针和候选ⅱ型探针分别计算支持突变等位基因的信号比例rai,并生成rai矩阵,其中每个探针在每个样本中对应一个rai值;

4、(2)针对三种探针分别构建rai分布的混合模型,所述混合模型包括三个beta分布和一个均匀分布,其中三个beta分布分别表示参考纯合子、杂合子和突变纯合子这三种基因型,一个均匀分布表示背景噪音;

5、(3)对步骤(2)所述混合模型的参数进行求解,并计算每个探针在每个样本中的背景概率和参考纯合子、杂合子和突变纯合子这三种基因型概率值;

6、(4)根据步骤(3)得到的背景概率和三种基因型概率,计算每个探针在每个样本中的基因型。

7、优选地,步骤(1)中,所述候选snp探针为甲基化芯片上设计的snp探针;所述候选ⅰ型探针和候选ⅱ型探针为甲基化芯片上的探针,且在其碱基延伸位置存在常见snp,所述常见snp为次等位基因频率maf>0.01;针对snp探针、ⅰ型探针和ⅱ型探针这三种探针的rai计算公式分别如下:

8、对于snp探针,令s(pref)和s(palt)分别对应胞嘧啶等位基因的信号本文档来自技高网...

【技术保护点】

1.一种基于DNA甲基化芯片的基因分型方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于DNA甲基化芯片的基因分型方法,其特征在于,步骤(1)中,所述候选SNP探针为甲基化芯片上设计的SNP探针;所述候选Ⅰ型探针和候选Ⅱ型探针为DNA甲基化芯片上的探针,且在其碱基延伸位置存在常见SNP,所述常见SNP为次等位基因频率MAF>0.01;针对SNP探针、Ⅰ型探针和Ⅱ型探针这三种探针的RAI计算公式分别如下:

3.如权利要求1所述的基于DNA甲基化芯片的基因分型方法,其特征在于,步骤(2)中,构建混合模型具体如下:设RAI值为m×n的矩阵X,其中m和n分别表示探针数和样本数;假定X服从三个beta分布和一个均匀分布的混合分布,三个beta分布分别对应三种基因型,一个均匀分布表示背景噪音:

4.如权利要求1所述的基于DNA甲基化芯片的基因分型方法,其特征在于,步骤(3)中,使用期望最大化算法对模型参数求解,具体步骤如下:

5.如权利要求1所述的基于DNA甲基化芯片的基因分型方法,其特征在于,步骤(4)中,推断基因型的具体过程如下:将背景概率较大的基因型设为缺失,并把基因型概率更新为以确保对任意探针i和样本j都有对于每个未设为缺失的基因型,定义为概率最大的基因型,取值分别为0、1和2,为剂量基因型,取值为0-2之间;使用如下公式计算和

6.如权利要求5所述的基于DNA甲基化芯片的基因分型方法,其特征在于,所述背景概率较大的基因型设为缺失,具体为:将的基因型设为缺失。

7.如权利要求1-6任意一项所述的基于DNA甲基化芯片的基因分型方法用于推断人群结构的应用。

8.如权利要求7所述的应用,其特征在于,以已知人群结构的遗传数据集构建参考祖源空间,并将研究样本通过LASER算法投射到参考空间中,从而推断研究样本的人群结构。

9.如权利要求1-6任意一项所述的基于DNA甲基化芯片的基因分型方法用于推断亲缘关系的应用。

10.如权利要求9所述的应用,其特征在于,针对来源于单一人群和混合人群的样本,分别使用SEEKIN-hom方法和SEEKIN-het方法推断亲缘关系。

...

【技术特征摘要】

1.一种基于dna甲基化芯片的基因分型方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于dna甲基化芯片的基因分型方法,其特征在于,步骤(1)中,所述候选snp探针为甲基化芯片上设计的snp探针;所述候选ⅰ型探针和候选ⅱ型探针为dna甲基化芯片上的探针,且在其碱基延伸位置存在常见snp,所述常见snp为次等位基因频率maf>0.01;针对snp探针、ⅰ型探针和ⅱ型探针这三种探针的rai计算公式分别如下:

3.如权利要求1所述的基于dna甲基化芯片的基因分型方法,其特征在于,步骤(2)中,构建混合模型具体如下:设rai值为m×n的矩阵x,其中m和n分别表示探针数和样本数;假定x服从三个beta分布和一个均匀分布的混合分布,三个beta分布分别对应三种基因型,一个均匀分布表示背景噪音:

4.如权利要求1所述的基于dna甲基化芯片的基因分型方法,其特征在于,步骤(3)中,使用期望最大化算法对模型参数求解,具体步骤如下:

5.如权利要求1所述的基于dna甲基化芯片的基因分型方法,其特...

【专利技术属性】
技术研发人员:王超龙姜毅程姗珊
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1