System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及表观组关联研究领域,更具体地,涉及一种基于dna甲基化芯片的基因分型方法及应用,尤其涉及一种基于dna甲基化芯片数据检测基因型,并推断人群结构和鉴定样本间亲缘关系的方法。
技术介绍
1、dna甲基化主要发生在胞嘧啶-鸟嘌呤双核苷酸(cpg)上,是在dna甲基转移酶的作用下胞嘧啶的第5个碳原子结合上一个甲基的过程。dna甲基化受环境影响而动态变化,其在基因调控过程中发挥着重要作用。随着高通量甲基化芯片技术的飞速发展,dna甲基化已经成为最广泛研究的表观遗传修饰。主流的甲基化芯片技术包括infiniumhumanmethylation450(450k)和infinium humanmethylationepic(epic)。这些技术能同时检测几十万个cpg位点,使得表观组关联分析(ewas)得以广泛应用,检测到了大量与多种复杂疾病和环境暴露相关的cpg位点,加深了对疾病机制的理解(rakyan et al.nat revgenet 2011,wei et al.adv sci(weinh)2021,fraszczyk et al.diabetologia 2022)。
2、在进行ewas研究时,如何处理具有亲缘关系的样本显得尤为重要。由于存在亲缘关系的样本长期暴露在相似的环境中,他们的甲基化水平具有更强的相似性,如果在ewas研究时纳入这些样本,会更容易产生假阳性信号(rakyan et al.nat rev genet 2011,gross et al.bmc genet 2017,campagna et
3、如果有足够的单核苷酸多态性(snp)数据,我们可以非常准确地推断人群结构和样本间亲缘关系(purcell et al.am j hum genet 2007,manichaikul etal.bioinformatics 2010,thornton et al.am j hum genet 2012,conomos et al.am jhum genet 2016,dou et al.plos genet 2017)。尽管infinium甲基化芯片也设计了几十个snp探针用于检测样本混淆(比如epic芯片设计了59个snp探针,其中6个位于x染色体上)(assenov et al.nat methods 2014,heiss et al.clin epigenetics 2018,muller etal.genome biol 2019),但是这些snp的数目太少,远不足以用于准确推断亲缘关系。另一方面,在进行甲基化数据质控时,为了避免snp对甲基化信号检测结果的影响,成百上千的位于常见snp(次等位基因频率maf>0.01)附近的探针被删除(mccartney et al.genomdata 2016,pidsley et al.genome biol 2016,zhou et al.nucleic acids res 2017)。如果snp位于探针的单碱基延伸(sbe)位置,这些探针的甲基化信号通常会随着snp基因型变化,从而表现为多峰分布(通常为三峰)(daca-roszak et al.bmc genom 2015,andrewset al.epigenetics chromatin 2016,labarre et al.epigenetics chromatin 2019)。因此,我们认为可以基于这些探针的甲基化信号强度来推断基因型,并进一步推断人群结构和亲缘关系。
4、infinium甲基化芯片设计了两类探针:ⅰ型探针和ⅱ型探针。ⅰ型探针在每个待测cpg位点上设计两个探针,分别与甲基化和未甲基化的序列配对,配对成功后会往后再延伸一个碱基(sbe)并发出荧光信号。如果sbe为a或t,则显红色;如果sbe为g或c,则显绿色。如果在sbe位置发生了除a/t和g/c以外的突变,则会造成颜色通道的改变(ccs)。通过比较不同颜色通道的信号强度,可以推断sbe位置的基因型(zhou et al.nucleic acids res2017)。ⅱ型探针在每个待测cpg位点上设计一个探针,其sbe位点即为待测c位点。在亚硫酸盐转化后,未甲基化的c会转变为t,与探针结合后发红光;甲基化的c保持不变,与探针结合后显绿色。在有snp的情况下,如果待测c位点突变为a或t,则显红色;如果突变为g,则显绿色。由于甲基化和snp均会影响颜色通道,对ⅱ型探针推断基因型难度更大。尽管infinium芯片上大部分是ⅱ型探针(pidsley et al.genome biol 2016),但是目前并没有方法可以针对ⅱ型探针进行基因型的推断。本领域需要一种能够基于dna甲基化芯片准确推断基因型并鉴定亲缘关系的方法,以提高ewas结果的准确性。
技术实现思路
1、本专利技术开发了一个基于infinium甲基化芯片数据(epic或450k芯片)检测基因型并推断样本间亲缘关系的方法。该方法以芯片原始数据(.idat格式)或处理后的数据(β或m值矩阵)当作输入,针对snp探针、ⅰ型探针和ⅱ型探针分别检测基因型,并基于这些基因型推断人群结构和亲缘关系。
2、根据本专利技术第一方面,提供了一种基于dna甲基化芯片的基因分型方法,包括以下步骤:
3、(1)针对每个候选snp探针、候选ⅰ型探针和候选ⅱ型探针分别计算支持突变等位基因的信号比例rai,并生成rai矩阵,其中每个探针在每个样本中对应一个rai值;
4、(2)针对三种探针分别构建rai分布的混合模型,所述混合模型包括三个beta分布和一个均匀分布,其中三个beta分布分别表示参考纯合子、杂合子和突变纯合子这三种基因型,一个均匀分布表示背景噪音;
5、(3)对步骤(2)所述混合模型的参数进行求解,并计算每个探针在每个样本中的背景概率和参考纯合子、杂合子和突变纯合子这三种基因型概率值;
6、(4)根据步骤(3)得到的背景概率和三种基因型概率,计算每个探针在每个样本中的基因型。
7、优选地,步骤(1)中,所述候选snp探针为甲基化芯片上设计的snp探针;所述候选ⅰ型探针和候选ⅱ型探针为甲基化芯片上的探针,且在其碱基延伸位置存在常见snp,所述常见snp为次等位基因频率maf>0.01;针对snp探针、ⅰ型探针和ⅱ型探针这三种探针的rai计算公式分别如下:
8、对于snp探针,令s(pref)和s(palt)分别对应胞嘧啶等位基因的信号本文档来自技高网...
【技术保护点】
1.一种基于DNA甲基化芯片的基因分型方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于DNA甲基化芯片的基因分型方法,其特征在于,步骤(1)中,所述候选SNP探针为甲基化芯片上设计的SNP探针;所述候选Ⅰ型探针和候选Ⅱ型探针为DNA甲基化芯片上的探针,且在其碱基延伸位置存在常见SNP,所述常见SNP为次等位基因频率MAF>0.01;针对SNP探针、Ⅰ型探针和Ⅱ型探针这三种探针的RAI计算公式分别如下:
3.如权利要求1所述的基于DNA甲基化芯片的基因分型方法,其特征在于,步骤(2)中,构建混合模型具体如下:设RAI值为m×n的矩阵X,其中m和n分别表示探针数和样本数;假定X服从三个beta分布和一个均匀分布的混合分布,三个beta分布分别对应三种基因型,一个均匀分布表示背景噪音:
4.如权利要求1所述的基于DNA甲基化芯片的基因分型方法,其特征在于,步骤(3)中,使用期望最大化算法对模型参数求解,具体步骤如下:
5.如权利要求1所述的基于DNA甲基化芯片的基因分型方法,其特征在于,步骤(4)中,推断基因型的具体过程
6.如权利要求5所述的基于DNA甲基化芯片的基因分型方法,其特征在于,所述背景概率较大的基因型设为缺失,具体为:将的基因型设为缺失。
7.如权利要求1-6任意一项所述的基于DNA甲基化芯片的基因分型方法用于推断人群结构的应用。
8.如权利要求7所述的应用,其特征在于,以已知人群结构的遗传数据集构建参考祖源空间,并将研究样本通过LASER算法投射到参考空间中,从而推断研究样本的人群结构。
9.如权利要求1-6任意一项所述的基于DNA甲基化芯片的基因分型方法用于推断亲缘关系的应用。
10.如权利要求9所述的应用,其特征在于,针对来源于单一人群和混合人群的样本,分别使用SEEKIN-hom方法和SEEKIN-het方法推断亲缘关系。
...【技术特征摘要】
1.一种基于dna甲基化芯片的基因分型方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于dna甲基化芯片的基因分型方法,其特征在于,步骤(1)中,所述候选snp探针为甲基化芯片上设计的snp探针;所述候选ⅰ型探针和候选ⅱ型探针为dna甲基化芯片上的探针,且在其碱基延伸位置存在常见snp,所述常见snp为次等位基因频率maf>0.01;针对snp探针、ⅰ型探针和ⅱ型探针这三种探针的rai计算公式分别如下:
3.如权利要求1所述的基于dna甲基化芯片的基因分型方法,其特征在于,步骤(2)中,构建混合模型具体如下:设rai值为m×n的矩阵x,其中m和n分别表示探针数和样本数;假定x服从三个beta分布和一个均匀分布的混合分布,三个beta分布分别对应三种基因型,一个均匀分布表示背景噪音:
4.如权利要求1所述的基于dna甲基化芯片的基因分型方法,其特征在于,步骤(3)中,使用期望最大化算法对模型参数求解,具体步骤如下:
5.如权利要求1所述的基于dna甲基化芯片的基因分型方法,其特...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。