System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于贝叶斯估计模型的差异甲基化区域识别方法、系统、终端及介质技术方案_技高网

基于贝叶斯估计模型的差异甲基化区域识别方法、系统、终端及介质技术方案

技术编号:41986875 阅读:8 留言:0更新日期:2024-07-12 12:15
本发明专利技术提供一种基于贝叶斯估计模型的差异甲基化区域识别方法、系统、终端及介质。本发明专利技术提供的方法可以提高疾病样本中肿瘤样本的差异甲基化区域识别的准确度;本发明专利技术采用对数混合高斯模型来确定最大窗口大小,以及使用赤池信息量准则和交叉验证算法评估不同的窗口长度,以获得基于甲基化数据的最佳窗口大小;本发明专利技术采用贝叶斯估计模型中的最大后验概率估计方法,综合考虑了所有甲基化位点信息,避免DMR区域因删除差异显著性较弱的位点而产生的不必要的断点,增加了所识别DMR的长度,增强了差异显著性;本发明专利技术通过计算各区间甲基化数据的甲基化特征值,作为评估甲基化区域差异的标准,提高了差异甲基化区域识别的准确性和可靠性。

【技术实现步骤摘要】

本申请涉及生物医学,特别是涉及基于贝叶斯估计模型的差异甲基化区域识别方法、系统、终端及介质


技术介绍

1、dna甲基化(dna methylation)是细胞调节系统中一种重要的表观遗传机制,与发育、维持体内平衡和疾病过程中的转录抑制有关,在多种疾病的发病过程中发挥着重要作用。差异甲基化区域(differentially methylated region,dmr)是基因组中的一些特定dnr区域,其甲基化水平与正常组织或细胞类型之间存在显著差异。研究组织/疾病特异性dmr有助于揭示组织特异性基因表达背后的机制,也可用作特征标记,用于在无创诊断中发现无细胞dna(cell free dna,cfdna)的起源组织。dmr的研究可以帮助科学家更好地理解疾病的发病机制,并有助于开发相关的治疗方法或预防策略。

2、迄今为止,已经开发了许多用于dmr鉴定的方法,但仍存在一些局限性。dmr的识别通常是一个两步过程:(1)差异甲基化位点(differentially methylated cytosine,dmc)的识别,以及(2)根据一定的距离标准将相邻的dmc合并为连续的dmr。也有一些其他方法可以直接定义dmr。比较广泛的dmr两步识别法需要先分析计算一个区域中每个位点的差异,得到符合显著性检验标准的dmc来确定潜在的dmr,这种方法过度删除了显著性弱的甲基化位点,删除显著性弱的位点可能会使dmr区域形成不必要的断点。其次,差异甲基化区域(dmr)的识别与通常的特征选择方法有明显的不同,并且前者需要考虑生物学的知识。比如,通常的特征选择方法假设特征之间相互独立,但是在基因组学中,cpg甲基化位点之间往往具有空间上的相关性,需要根据甲基化的实际情况设计新的统计方法识别dmr。另外,对临床样本的研究发现dmr内的甲基化特征在不同样本间存在一定程度的差异,且dmr可能分布在基因的增强子、启动子、gene body等区域,现有的差异甲基化区域识别方法不能很好的解决dna甲基化异常区域位点的随机性。

3、最后,大多数dmr识别算法通过计算相邻位点之间的数据特征来聚类甲基化位点,然后估计每个聚类之间的差异性。这种方法的局限性在于,它会导致较大的dmr被分解成多个较小的部分,或者只能识别较短的差异甲基化区域,难以检测到较长的dmr,而较长的dmr通常对dna甲基化异常区域位点的随机性具有较强的包容性。单个异常差异甲基化位点可能不具有很大的生物学影响,但是当这些位点在某一基因或功能路径中累积时,它们可能具有显著的影响,很显然,这种情况更可能发生在较长尺度的片段中。


技术实现思路

1、鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于贝叶斯估计模型的差异甲基化区域识别方法、系统、终端及介质,用于解决以上现有技术问题。

2、为实现上述目的及其他相关目的,本申请的第一方面提供一种基于贝叶斯估计模型的差异甲基化区域识别方法,包括:将甲基化高通量测序平台样本数据比对至人类参考基因组,以获得多个甲基化样本的甲基化数据;对各甲基化样本的甲基化数据进行预处理,获得甲基化率矩阵;基于甲基化率矩阵采用滑动窗口法进行区间划分,以获得各区间所对应的甲基化率子矩阵;采用分布相似度分析方法和贝叶斯估计模型对各个甲基化率子矩阵进行特征提取,以得到各个甲基化率子矩阵所对应的多个甲基化特征值;所述甲基化特征值的类型包括:甲基化概率分布距离值、甲基化率比值估计值、甲基化差值、甲基化显著性值,且每类甲基化特征值设有对应的甲基化阈值;将各个甲基化率子矩阵所对应的甲基化特征值与对应的甲基化阈值进行比较,根据比较结果筛选出待选差异甲基化区域;对各待选差异甲基化区域进行合并判断以获得最终差异甲基化区域。

3、于本申请的第一方面的一些实施例中,对各甲基化样本的甲基化数据进行预处理,获得甲基化率矩阵包括:将各甲基化样本中的各甲基化位点基于测序总深度进行深度过滤;将各甲基化样本中经过深度过滤的各甲基化位点的甲基化率整合为第一甲基化率矩阵;基于第一甲基化率矩阵计算各甲基化样本之间的皮尔逊相关系数,以获得皮尔逊相关系数矩阵;基于皮尔逊相关系数矩阵进行层次聚类,并根据聚类结果删除所述第一甲基化率矩阵中的异常样本,获得甲基化率矩阵。

4、于本申请的第一方面的一些实施例中,基于甲基化率矩阵采用滑动窗口法进行区间划分包括:基于人类参考基因组采用对数混合高斯模型进行分析以获得最大窗口;基于最大窗口采用赤池信息量准则和交叉验证算法进行评估以获得最佳窗口;采用最佳窗口对甲基化率矩阵中的甲基化位点进行滑动遍历,以将甲基化率矩阵中的甲基化位点划分成若干区间。

5、于本申请的第一方面的一些实施例中,基于人类参考基因组采用对数混合高斯模型进行分析以获得最大窗口包括:基于人类参考基因组对应的基因注释信息文件,提取所述人类参考基因组的功能元件的位置信息;基于各功能元件的位置信息计算相邻功能元件的距离,获得功能元件距离信息;采用对数混合高斯模型对功能元件距离信息进行拟合分析以获得最大窗口长度。

6、于本申请的第一方面的一些实施例中,基于最大窗口采用赤池信息量准则和交叉验证算法进行评估以获得最佳窗口包括:设定最小窗口,采用预设增幅对所述最小窗口进行尺寸递增,直至尺寸达到所述最大窗口的尺寸;每次递增形成一个临时滑动窗口;使用各个临时滑动窗口对所述甲基化率矩阵进行区间划分,得到各个临时滑动窗口对应的多个甲基化率子矩阵;采用赤池信息量准则和交叉验证算法对各个临时滑动窗口对应的多个甲基化率子矩阵进行验证,根据各个临时滑动窗口的验证结果从中撷取最佳窗口。

7、于本申请的第一方面的一些实施例中,采用分布相似度分析方法对各个甲基化率子矩阵进行特征提取,以得到各个甲基化率子矩阵所对应的多个甲基化特征值包括:采用hellinger距离分别计算各个甲基化率子矩阵中的疾病样本和正常样本的距离值,以获得各个甲基化率子矩阵所对应的甲基化概率分布距离值。

8、于本申请的第一方面的一些实施例中,采用贝叶斯估计模型对各个甲基化率子矩阵进行特征提取,以得到各个甲基化率子矩阵所对应的多个甲基化特征值包括:删除各个甲基化率子矩阵中的甲基化率为缺失值的甲基化位点,并对各个甲基化率子矩阵内的疾病样本和正常样本分别基于甲基化率进行排序,以获得对应的第一甲基化率子矩阵;对各所述第一甲基化率子矩阵分别进行等长数据拟合处理,以获得对应的第二甲基化率子矩阵;对各所述第二甲基化率子矩阵中的疾病样本和正常样本的各个甲基化位点进行对数比值转换计算,以获得对应的甲基化率对数比值矩阵;基于各所述第二甲基化率子矩阵和各所述甲基化率对数比值矩阵采用贝叶斯估计进行计算,以获得各所述甲基化率子矩阵所对应的甲基化率比值估计值、甲基化差值和甲基化显著性值。

9、于本申请的第一方面的一些实施例中,对各待选差异甲基化区域进行合并判断以获得最终差异甲基化区域包括:将存在重叠区域的多个待选差异甲基化区域进行合并,对不存在重叠区域的待选差异甲基化区域不做处理,形成各个独立的本文档来自技高网...

【技术保护点】

1.一种基于贝叶斯估计模型的差异甲基化区域识别方法,其特征在于,包括:

2.根据权利要求1所述的基于贝叶斯估计模型的差异甲基化区域识别方法,其特征在于,对各甲基化样本的甲基化数据进行预处理,获得甲基化率矩阵包括:

3.根据权利要求1所述的基于贝叶斯估计模型的差异甲基化区域识别方法,其特征在于,基于甲基化率矩阵采用滑动窗口法进行区间划分包括:

4.根据权利要求3所述的基于贝叶斯估计模型的差异甲基化区域识别方法,其特征在于,基于人类参考基因组采用对数混合高斯模型进行分析以获得最大窗口包括:

5.根据权利要求3所述的基于贝叶斯估计模型的差异甲基化区域识别方法,其特征在于,基于最大窗口采用赤池信息量准则和交叉验证算法进行评估以获得最佳窗口包括:

6.根据权利要求1所述的基于贝叶斯估计模型的差异甲基化区域识别方法,其特征在于,采用分布相似度分析方法对各个甲基化率子矩阵进行特征提取,以得到各个甲基化率子矩阵所对应的多个甲基化特征值包括:

7.根据权利要求1所述的基于贝叶斯估计模型的差异甲基化区域识别方法,其特征在于,采用贝叶斯估计模型对各个甲基化率子矩阵进行特征提取,以得到各个甲基化率子矩阵所对应的多个甲基化特征值包括:

8.根据权利要求3所述的基于贝叶斯估计模型的差异甲基化区域识别方法,其特征在于,对各待选差异甲基化区域进行合并判断以获得最终差异甲基化区域包括:

9.一种基于贝叶斯估计模型的差异甲基化区域识别系统,其特征在于,所述系统包括:

10.一种电子终端,其特征在于,包括:处理器及存储器;

11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的基于贝叶斯估计模型的差异甲基化区域识别方法。

...

【技术特征摘要】

1.一种基于贝叶斯估计模型的差异甲基化区域识别方法,其特征在于,包括:

2.根据权利要求1所述的基于贝叶斯估计模型的差异甲基化区域识别方法,其特征在于,对各甲基化样本的甲基化数据进行预处理,获得甲基化率矩阵包括:

3.根据权利要求1所述的基于贝叶斯估计模型的差异甲基化区域识别方法,其特征在于,基于甲基化率矩阵采用滑动窗口法进行区间划分包括:

4.根据权利要求3所述的基于贝叶斯估计模型的差异甲基化区域识别方法,其特征在于,基于人类参考基因组采用对数混合高斯模型进行分析以获得最大窗口包括:

5.根据权利要求3所述的基于贝叶斯估计模型的差异甲基化区域识别方法,其特征在于,基于最大窗口采用赤池信息量准则和交叉验证算法进行评估以获得最佳窗口包括:

6.根据权利要求1所述的基于贝叶斯估计模型的差异甲基化区域识别方法,其特征在于,采用分布相似度...

【专利技术属性】
技术研发人员:王磊李玉欣石涵杨峰洪跟东
申请(专利权)人:上海睿璟生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1