面向论文网络数据的自适应图卷积聚类方法技术

技术编号：31707369 阅读：17 留言：0更新日期：2022-01-01 11:09

面向论文网络数据的自适应图卷积聚类方法适用于数据挖掘领域。该方法首次将自适应图卷积网络应用到深度图卷积聚类任务中，自适应的更新图结构并学习最优的数据表示；其次，该方法创造性地提出了一个基于注意力机制的融合模块，逐层加权融合两个并行网络的数据表示，同时有效缓解了图卷积网络的过平滑的问题。该方法的提出，主要解决的技术问题包括所有样本之间内在结构的挖掘，确保模型能够捕获更完整的数据结构信息，避免不准确的图结构对聚类性能产生的负影响，以及异构信息的有效融合。合。合。

全部详细技术资料下载

【技术实现步骤摘要】
面向论文网络数据的自适应图卷积聚类方法

[0001]本专利技术适用于数据挖掘领域、机器学习和模式识别等领域，尤其是面向包含噪声和异常值的论文网络的聚类任务。

技术介绍

[0002]随着社交媒体的发展，大量的图像、视频、微博在互联网上广泛传播，但是这些数据大多是无标签的，使得数据驱动的分类任务难以实现，而这些数据之间天然的存在底层结构属性，可以提供更显著的差异性信息，这激励了深度图卷积聚类的发展。
[0003]Wang Chun等人提出了端到端的图注意力自编码聚类模型，有效融合了数据的属性信息和结构信息，同时利用自监督机制来指导网络的优化过程。Pan Shirui等人提出了一种对抗正则化图卷积自编码器，重构了原始数据和图结构，该对抗训练模型增强了数据表示的鲁棒性。但是这些图嵌入网络会产生过平滑的问题，进而损害聚类性能。Bo Deyu等人设计了一个传递算子，将自编码器模块学习到的数据表示传递到相应的图卷积层，同时利用了自监督机制来统一两个不同的深度神经架构。
[0004]现有的基于图卷积的聚类方法主要依赖于初始图结构的质量，并且在模型优化的过程中图结构是保持不变的，但在实际情况中，图结构会包含噪声和异常值，难以准确描述数据之间的连接关系，进而影响聚类性能。这些方法没有有效的融合数据的属性信息和结构信息。
[0005]为解决这个问题，提出了一种基于图卷积网络的论文聚类方法，在模型优化的过程中以自适应图代替固定的图来捕捉更完整的结构信息；设计了一个基于注意力机制的融合模块，提取更关键的差异性信息，有效...

【技术保护点】

【技术特征摘要】
1.面向论文网络数据的自适应图卷积聚类方法，其特征在于：(1)首先利用自编码器从输入数据中提取属性信息，H
(l)
＝σ(W
(l)
H
(l
‑
1)
+b
(l)
)，l＝1，2，
…
，L其中H
(l)
表示自编码器第l层学习到的数据表示，W
(l)
和b
(l)
分别表示可学习的第l层的权重矩阵和偏差，L表示模型的网络层数，σ(
·
)表示非线性激活函数，选择RELU作为激活函数；同时，为了尽可能地保留原始数据的特征，最小化重构数据和原始输入数据X之间的重构误差，X表示数据集中样本的关键词的词袋特征；其中，N是样本的个数，定义Frobenius范数为(2)通过自适应图卷积模块来捕获数据的高阶结构信息；Z
(l+1)
＝σ(A
(l+1)
F
(l)
U
(l+1)
)，l＝1，2，
…
，L其中，U
(l+1)
表示自适应图卷积模块第(l+1)层的可学习的权重矩阵，Z
(l+1)
是该模块第(l+1)层更新的节点表示，A
(l+1)
是学习到的自适应图结构，F
(l)
是从基于注意力机制的融合模块获取的融合表示；具体的，通过计算融合表示F
(l)
的内积来构造邻接矩阵，挖掘样本之间的潜在相似性，然后，将学习到的自适应图加到标准化后的原始图结构上来增强原始图结构的质量，其中，∈是平衡系数，设置∈为0.5；最后，为了使学习到的中间层数据表示Z
(L/2)
更能反映数据之间的依赖关系，最小化重构图结构和原始图结构A之间的重构误差，其中，是由自适应图卷积模块最后一层的数据表示Z
(L)
的内积构建的邻接矩阵；(3)提出基于注意力机制的融合模块来高效的融合自编码器模块和自适应图卷积模块提取到的数据表示；具体的，对于网络的第l层，级联分别从自编码模块和自适应图卷积模块学习到的数据表示H
(l)
和Z
...

【专利技术属性】
技术研发人员：尹宝才，贺霞霞，王博岳，霍光煜，孙艳丰，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人