【技术实现步骤摘要】
面向论文网络数据的自适应图卷积聚类方法
[0001]本专利技术适用于数据挖掘领域、机器学习和模式识别等领域,尤其是面向包含噪声和异常值的论文网络的聚类任务。
技术介绍
[0002]随着社交媒体的发展,大量的图像、视频、微博在互联网上广泛传播,但是这些数据大多是无标签的,使得数据驱动的分类任务难以实现,而这些数据之间天然的存在底层结构属性,可以提供更显著的差异性信息,这激励了深度图卷积聚类的发展。
[0003]Wang Chun等人提出了端到端的图注意力自编码聚类模型,有效融合了数据的属性信息和结构信息,同时利用自监督机制来指导网络的优化过程。Pan Shirui等人提出了一种对抗正则化图卷积自编码器,重构了原始数据和图结构,该对抗训练模型增强了数据表示的鲁棒性。但是这些图嵌入网络会产生过平滑的问题,进而损害聚类性能。Bo Deyu等人设计了一个传递算子,将自编码器模块学习到的数据表示传递到相应的图卷积层,同时利用了自监督机制来统一两个不同的深度神经架构。
[0004]现有的基于图卷积的聚类方法主要依赖于初始图结构的质量,并且在模型优化的过程中图结构是保持不变的,但在实际情况中,图结构会包含噪声和异常值,难以准确描述数据之间的连接关系,进而影响聚类性能。这些方法没有有效的融合数据的属性信息和结构信息。
[0005]为解决这个问题,提出了一种基于图卷积网络的论文聚类方法,在模型优化的过程中以自适应图代替固定的图来捕捉更完整的结构信息;设计了一个基于注意力机制的融合模块,提取更关键的差异性信息,有效 ...
【技术保护点】
【技术特征摘要】
1.面向论文网络数据的自适应图卷积聚类方法,其特征在于:(1)首先利用自编码器从输入数据中提取属性信息,H
(l)
=σ(W
(l)
H
(l
‑
1)
+b
(l)
),l=1,2,
…
,L其中H
(l)
表示自编码器第l层学习到的数据表示,W
(l)
和b
(l)
分别表示可学习的第l层的权重矩阵和偏差,L表示模型的网络层数,σ(
·
)表示非线性激活函数,选择RELU作为激活函数;同时,为了尽可能地保留原始数据的特征,最小化重构数据和原始输入数据X之间的重构误差,X表示数据集中样本的关键词的词袋特征;其中,N是样本的个数,定义Frobenius范数为(2)通过自适应图卷积模块来捕获数据的高阶结构信息;Z
(l+1)
=σ(A
(l+1)
F
(l)
U
(l+1)
),l=1,2,
…
,L其中,U
(l+1)
表示自适应图卷积模块第(l+1)层的可学习的权重矩阵,Z
(l+1)
是该模块第(l+1)层更新的节点表示,A
(l+1)
是学习到的自适应图结构,F
(l)
是从基于注意力机制的融合模块获取的融合表示;具体的,通过计算融合表示F
(l)
的内积来构造邻接矩阵,挖掘样本之间的潜在相似性,然后,将学习到的自适应图加到标准化后的原始图结构上来增强原始图结构的质量,其中,∈是平衡系数,设置∈为0.5;最后,为了使学习到的中间层数据表示Z
(L/2)
更能反映数据之间的依赖关系,最小化重构图结构和原始图结构A之间的重构误差,其中,是由自适应图卷积模块最后一层的数据表示Z
(L)
的内积构建的邻接矩阵;(3)提出基于注意力机制的融合模块来高效的融合自编码器模块和自适应图卷积模块提取到的数据表示;具体的,对于网络的第l层,级联分别从自编码模块和自适应图卷积模块学习到的数据表示H
(l)
和Z
...
【专利技术属性】
技术研发人员:尹宝才,贺霞霞,王博岳,霍光煜,孙艳丰,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。