基于栈式自编码器的数据融合优化方法及其系统技术方案

技术编号：30283083 阅读：10 留言：0更新日期：2021-10-09 21:53

本发明专利技术公开了一种基于栈式自编码器的数据融合优化方法，包括以下步骤：S1：利用栈式自编码器对获取的癌症患者多组学数据进行降维，得到能够代表原始数据的低维潜在表示；S2：利用步骤S1得到的降维之后的组学数据，基于径向基函数和利用欧氏距离度量样本之间的亲密程度，计算出相似矩阵；S3：为每个组学数据定义相对相似矩阵，利用归一化因子控制样本的密度；S4：对融合得到的平均相对相似矩阵进行谱聚类，从而对癌症患者进行亚型划分。还公开了一种基于栈式自编码器的数据融合优化系统。本发明专利技术能够对高维度、多噪声的组学数据进行降维和融合，准确有效地对癌症进行亚型聚类，能有效提升癌症亚型聚类效果。提升癌症亚型聚类效果。提升癌症亚型聚类效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于栈式自编码器的数据融合优化方法及其系统

[0001]本专利技术涉及生物信息学癌症亚型分型领域，特别是涉及一种基于栈式自编码器的数据融合优化方法及其系统。

技术介绍

[0002]癌症始终是一种威胁着整个人类健康和其生命安全的重要慢性疾病之一，对于癌症的预防和治疗也是目前医学界科学家们正在努力研究的课题。随着现代基因组学的测序技术的进步和发展，组学数据的大量累积，为人们全方位、多层次的分析癌症的发病机理提供了机遇和挑战。在生物信息学研究中，癌症亚型发现已经成为热门的领域之一。利用多组学数据，可以将同一癌症划分为不同的分子亚型，从而为癌症进行个性化诊断和治疗提供依据和指导，进而大大提高癌症的诊断和治疗效率。聚类是可以实现这一目标的技术手段之一。从聚类结果来看，多组学数据聚类往往要优于单组学数据聚类，但是多组学数据具有样本少、维度高的特点，这始终是分子技术层面研究癌症的一个重要挑战。另外，在多组学聚类中融合策略的选择对聚类结果有重要影响。
[0003]因此亟需提供一种新型的数据融合方法来解决上述问题。

技术实现思路

[0004]本专利技术所要解决的技术问题是提供一种基于栈式自编码器的数据融合优化方法及其系统，能够对高维度、多噪声的组学数据进行降维和融合，准确有效地对癌症进行亚型聚类，能有效提升癌症亚型聚类效果。
[0005]为解决上述技术问题，本专利技术采用的一个技术方案是：提供一种基于栈式自编码器的数据融合优化方法，包括以下步骤：
[0006]S1：利用栈式自编码器对获取的癌症患...

【技术保护点】

【技术特征摘要】
1.一种基于栈式自编码器的数据融合优化方法，其特征在于，包括以下步骤：S1：利用栈式自编码器对获取的癌症患者多组学数据进行降维，得到能够代表原始数据的低维潜在表示；S2：利用步骤S1得到的降维之后的组学数据，基于径向基函数和利用欧氏距离度量样本之间的亲密程度，计算出相似矩阵；S3：为每个组学数据定义相对相似矩阵，利用归一化因子控制样本的密度；S4：对融合得到的平均相对相似矩阵进行谱聚类，从而对癌症患者进行亚型划分。2.根据权利要求1所述的基于栈式自编码器的数据融合优化方法，其特征在于，所述栈式自编码器由若干个稀疏自编码器组成，所述稀疏自编码器由自编码器通过导入KL离散度来衡量某个隐藏层节点的平均激活输出与稀疏度之间的相似性，用来实现数据的稀疏降维，所述自编码器包括输入层、隐藏层和输出层。3.根据权利要求2所述的基于栈式自编码器的数据融合优化方法，其特征在于，步骤S1的具体步骤包括：S101：根据获取的癌症患者多组学数据的维度分别设定输入层、隐藏层和输出层的神经元节点个数，设定所述输入层与所述隐藏层的第一连接权向量矩阵，设定所述隐藏层和所述输出层的第二连接权向量矩阵，设定所述栈式自编码器模型的损失函数；S102：获取癌症数据集的组学数据特征输入到稀疏自编码中进行迭代训练，直到所述损失函数达到收敛，得到所述隐藏层的每个神经元的加权输出值，作为一个新的稀疏自编码器的所述输入层的输入数据，并保存所述稀疏自编码器模型的权重作为所述栈式自编码器的第一连接权向量矩阵；S103：执行步骤S102三次，第三个稀疏自编码器所述隐藏层的每个神经元的加权输出值，即所述栈式自编码器的最终输出数据。4.根据权利要求1或3所述的基于栈式自编码器的数据融合优化方法，其特征在于，所述数据集包括多个癌症种类，每种癌症有三种组学数据，分别为miRNA表达数据、mRNA表达数据、DNA甲基化数据。5.根据权利要求1所述的基于栈式自编码器的数据融合优化方法，其特征在于，在步骤S2中，所述相似矩阵的计算公式为：其中定义为:假设有n个受试者，包含有L类组学数据，X
l
代表组学数据l...

【专利技术属性】
技术研发人员：郑春厚，张博，曹瑞芬，夏俊峰，苏延森，
申请(专利权)人：安徽大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人