当前位置: 首页 > 专利查询>安徽大学专利>正文

基于栈式自编码器的数据融合优化方法及其系统技术方案

技术编号:30283083 阅读:10 留言:0更新日期:2021-10-09 21:53
本发明专利技术公开了一种基于栈式自编码器的数据融合优化方法,包括以下步骤:S1:利用栈式自编码器对获取的癌症患者多组学数据进行降维,得到能够代表原始数据的低维潜在表示;S2:利用步骤S1得到的降维之后的组学数据,基于径向基函数和利用欧氏距离度量样本之间的亲密程度,计算出相似矩阵;S3:为每个组学数据定义相对相似矩阵,利用归一化因子控制样本的密度;S4:对融合得到的平均相对相似矩阵进行谱聚类,从而对癌症患者进行亚型划分。还公开了一种基于栈式自编码器的数据融合优化系统。本发明专利技术能够对高维度、多噪声的组学数据进行降维和融合,准确有效地对癌症进行亚型聚类,能有效提升癌症亚型聚类效果。提升癌症亚型聚类效果。提升癌症亚型聚类效果。

【技术实现步骤摘要】
基于栈式自编码器的数据融合优化方法及其系统


[0001]本专利技术涉及生物信息学癌症亚型分型领域,特别是涉及一种基于栈式自编码器的数据融合优化方法及其系统。

技术介绍

[0002]癌症始终是一种威胁着整个人类健康和其生命安全的重要慢性疾病之一,对于癌症的预防和治疗也是目前医学界科学家们正在努力研究的课题。随着现代基因组学的测序技术的进步和发展,组学数据的大量累积,为人们全方位、多层次的分析癌症的发病机理提供了机遇和挑战。在生物信息学研究中,癌症亚型发现已经成为热门的领域之一。利用多组学数据,可以将同一癌症划分为不同的分子亚型,从而为癌症进行个性化诊断和治疗提供依据和指导,进而大大提高癌症的诊断和治疗效率。聚类是可以实现这一目标的技术手段之一。从聚类结果来看,多组学数据聚类往往要优于单组学数据聚类,但是多组学数据具有样本少、维度高的特点,这始终是分子技术层面研究癌症的一个重要挑战。另外,在多组学聚类中融合策略的选择对聚类结果有重要影响。
[0003]因此亟需提供一种新型的数据融合方法来解决上述问题。

技术实现思路

[0004]本专利技术所要解决的技术问题是提供一种基于栈式自编码器的数据融合优化方法及其系统,能够对高维度、多噪声的组学数据进行降维和融合,准确有效地对癌症进行亚型聚类,能有效提升癌症亚型聚类效果。
[0005]为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种基于栈式自编码器的数据融合优化方法,包括以下步骤:
[0006]S1:利用栈式自编码器对获取的癌症患者多组学数据进行降维,得到能够代表原始数据的低维潜在表示;
[0007]S2:利用步骤S1得到的降维之后的组学数据,基于径向基函数和利用欧氏距离度量样本之间的亲密程度,计算出相似矩阵;
[0008]S3:为每个组学数据定义相对相似矩阵,利用归一化因子控制样本的密度;
[0009]S4:对融合得到的平均相对相似矩阵进行谱聚类,从而对癌症患者进行亚型划分。
[0010]在本专利技术一个较佳实施例中,所述栈式自编码器由若干个稀疏自编码器组成,所述稀疏自编码器由自编码器通过导入KL离散度来衡量某个隐藏层节点的平均激活输出与稀疏度之间的相似性,用来实现数据的稀疏降维,所述自编码器包括输入层、隐藏层和输出层。
[0011]进一步的,步骤S1的具体步骤包括:
[0012]S101:根据获取的癌症患者多组学数据的维度分别设定输入层、隐藏层和输出层的神经元节点个数,设定所述输入层与所述隐藏层的第一连接权向量矩阵,设定所述隐藏层和所述输出层的第二连接权向量矩阵,设定所述栈式自编码器模型的损失函数;
[0013]S102:获取癌症数据集的组学数据特征输入到稀疏自编码中进行迭代训练,直到所述损失函数达到收敛,得到所述隐藏层的每个神经元的加权输出值,作为一个新的稀疏自编码器的所述输入层的输入数据,并保存所述稀疏自编码器模型的权重作为所述栈式自编码器的第一连接权向量矩阵;
[0014]S103:执行步骤S102三次,第三个稀疏自编码器所述隐藏层的每个神经元的加权输出值,即所述栈式自编码器的最终输出数据。
[0015]更进一步的,所述数据集包括多个癌症种类,每种癌症有三种组学数据,分别为miRNA表达数据、mRNA表达数据、DNA甲基化数据。
[0016]在本专利技术一个较佳实施例中,在步骤S2中,所述相似矩阵的计算公式为:
[0017][0018]其中定义为:
[0019][0020]假设有n个受试者,包含有L类组学数据,X
l
代表组学数据l的数据矩阵,X
l
的大小是p
l
×
n,p
l
是组学数据l的特征数量;把x
li
当作组学数据l里样本i的特征,也就是X
l
的第i列;设ξ
li
表示组学数据l中样本i的k个最近邻样本,是一个归一化因子,它通过平均第i个和第j个样本到其最近的邻居的平方距离和这两个样本之间的平方距离来控制样本的密度。
[0021]在本专利技术一个较佳实施例中,步骤S3的具体步骤包括:
[0022]S301:为每个组学数据l定义相对相似矩阵RM
l

[0023][0024]其中I为指标函数,RM
l
(i,j)为相对相似性矩阵,它的第一项为一个组学数据中样本i和j之间距离相对于i的k个欧氏距离最小的样本比值,第二项其相对于j的k个欧氏距离最小的样本比值;
[0025]S302:计算维度大小为n
×
n平均相对相似矩阵ARM,其表达式为:
[0026][0027]RM
l
是定义了一个样本之间的转移概率,即样本相互间的转移概率与样本相互间的相似度是以正比函数关系存在的。
[0028]为解决上述技术问题,本专利技术采用的另一个技术方案是:提供一种基于栈式自编码器的数据融合优化系统,包括:
[0029]栈式自编码器模块,用于对癌症患者多组学数据的高维特征降维,并通过选择最终的隐层神经节点数据获得低维特征表示;
[0030]相似矩阵模块,用来计算每个组学数据降维之后的样本之间的相似性;
[0031]相对相似矩阵模块,用来融合获取的多个组学数据的相似矩阵,控制样本密度;
[0032]谱聚类模块,用于对融合得到的相对相似矩阵进行合理的聚类,对癌症患者进行亚型划分。
[0033]在本专利技术一个较佳实施例中,所述相似矩阵基于径向基函数和利用欧氏距离度量样本之间的亲密程度。
[0034]在本专利技术一个较佳实施例中,所述相对相似矩阵还包括平均相对相似矩阵,所述平均相对相似矩阵是每种癌症多个组学数据的相对相似矩阵的均值。
[0035]本专利技术的有益效果是:
[0036](1)本专利技术基于栈式自编码神经网络对多组学数据进行降维,构建了癌症亚型预测模型,并分析了其具有的临床意义,对癌症的个性化治疗具有重要的理论和现实性意义;
[0037](2)本专利技术利用一个三层的栈式自编码器进行降维,得到更有意义的低维潜在表示,与直接结合基因组多组学相比,该方法更容易缓解基因组多组学在整合过程中测量差异的偏差;
[0038](3)在融合方法上,本专利技术使用相对相似矩阵,由于不同的组学有不同的数据分布,组学之间的相对相似度比原始相似度矩阵更具可比性;
[0039](4)在六种癌症数据集上进行测试结果表明,与现有的多组学聚类方法比,本专利技术所述方法具有比较好的表现。另外本专利技术分析了DFSAE方法在6种癌症类型中的3种单一的组学数据类型上的表现和进行多组学融合的表现,结果显示使用多组学的方法聚类效果更好。为了进一步了解聚类结果的生物学意义,本专利技术对GBM聚类结果进行了分析,发现了三种具有生物学意义的癌症亚型(cluser1,cluser2,cluser3)。
附图说明
[0040]图1是本专利技术基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于栈式自编码器的数据融合优化方法,其特征在于,包括以下步骤:S1:利用栈式自编码器对获取的癌症患者多组学数据进行降维,得到能够代表原始数据的低维潜在表示;S2:利用步骤S1得到的降维之后的组学数据,基于径向基函数和利用欧氏距离度量样本之间的亲密程度,计算出相似矩阵;S3:为每个组学数据定义相对相似矩阵,利用归一化因子控制样本的密度;S4:对融合得到的平均相对相似矩阵进行谱聚类,从而对癌症患者进行亚型划分。2.根据权利要求1所述的基于栈式自编码器的数据融合优化方法,其特征在于,所述栈式自编码器由若干个稀疏自编码器组成,所述稀疏自编码器由自编码器通过导入KL离散度来衡量某个隐藏层节点的平均激活输出与稀疏度之间的相似性,用来实现数据的稀疏降维,所述自编码器包括输入层、隐藏层和输出层。3.根据权利要求2所述的基于栈式自编码器的数据融合优化方法,其特征在于,步骤S1的具体步骤包括:S101:根据获取的癌症患者多组学数据的维度分别设定输入层、隐藏层和输出层的神经元节点个数,设定所述输入层与所述隐藏层的第一连接权向量矩阵,设定所述隐藏层和所述输出层的第二连接权向量矩阵,设定所述栈式自编码器模型的损失函数;S102:获取癌症数据集的组学数据特征输入到稀疏自编码中进行迭代训练,直到所述损失函数达到收敛,得到所述隐藏层的每个神经元的加权输出值,作为一个新的稀疏自编码器的所述输入层的输入数据,并保存所述稀疏自编码器模型的权重作为所述栈式自编码器的第一连接权向量矩阵;S103:执行步骤S102三次,第三个稀疏自编码器所述隐藏层的每个神经元的加权输出值,即所述栈式自编码器的最终输出数据。4.根据权利要求1或3所述的基于栈式自编码器的数据融合优化方法,其特征在于,所述数据集包括多个癌症种类,每种癌症有三种组学数据,分别为miRNA表达数据、mRNA表达数据、DNA甲基化数据。5.根据权利要求1所述的基于栈式自编码器的数据融合优化方法,其特征在于,在步骤S2中,所述相似矩阵的计算公式为:其中定义为:假设有n个受试者,包含有L类组学数据,X
l
代表组学数据l...

【专利技术属性】
技术研发人员:郑春厚张博曹瑞芬夏俊峰苏延森
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1