面向论文网络数据的自适应图卷积聚类方法技术

技术编号:31707369 阅读:17 留言:0更新日期:2022-01-01 11:09
面向论文网络数据的自适应图卷积聚类方法适用于数据挖掘领域。该方法首次将自适应图卷积网络应用到深度图卷积聚类任务中,自适应的更新图结构并学习最优的数据表示;其次,该方法创造性地提出了一个基于注意力机制的融合模块,逐层加权融合两个并行网络的数据表示,同时有效缓解了图卷积网络的过平滑的问题。该方法的提出,主要解决的技术问题包括所有样本之间内在结构的挖掘,确保模型能够捕获更完整的数据结构信息,避免不准确的图结构对聚类性能产生的负影响,以及异构信息的有效融合。合。合。

【技术实现步骤摘要】
面向论文网络数据的自适应图卷积聚类方法


[0001]本专利技术适用于数据挖掘领域、机器学习和模式识别等领域,尤其是面向包含噪声和异常值的论文网络的聚类任务。

技术介绍

[0002]随着社交媒体的发展,大量的图像、视频、微博在互联网上广泛传播,但是这些数据大多是无标签的,使得数据驱动的分类任务难以实现,而这些数据之间天然的存在底层结构属性,可以提供更显著的差异性信息,这激励了深度图卷积聚类的发展。
[0003]Wang Chun等人提出了端到端的图注意力自编码聚类模型,有效融合了数据的属性信息和结构信息,同时利用自监督机制来指导网络的优化过程。Pan Shirui等人提出了一种对抗正则化图卷积自编码器,重构了原始数据和图结构,该对抗训练模型增强了数据表示的鲁棒性。但是这些图嵌入网络会产生过平滑的问题,进而损害聚类性能。Bo Deyu等人设计了一个传递算子,将自编码器模块学习到的数据表示传递到相应的图卷积层,同时利用了自监督机制来统一两个不同的深度神经架构。
[0004]现有的基于图卷积的聚类方法主要依赖于初始图结构的质量,并且在模型优化的过程中图结构是保持不变的,但在实际情况中,图结构会包含噪声和异常值,难以准确描述数据之间的连接关系,进而影响聚类性能。这些方法没有有效的融合数据的属性信息和结构信息。
[0005]为解决这个问题,提出了一种基于图卷积网络的论文聚类方法,在模型优化的过程中以自适应图代替固定的图来捕捉更完整的结构信息;设计了一个基于注意力机制的融合模块,提取更关键的差异性信息,有效避免了图卷积网络过平滑的问题。
[0006]为解决现有深度图卷积聚类方法聚类包含噪声的论文网络数据出现的问题,本专利技术提出一种基于图卷积网络的论文聚类方法。该方法首次将自适应图卷积网络应用到深度图卷积聚类任务中,自适应的更新图结构并学习最优的数据表示;其次,该方法创造性地提出了一个基于注意力机制的融合模块,逐层加权融合两个并行网络的数据表示,同时有效缓解了图卷积网络的过平滑的问题。该方法的提出,主要解决的技术问题包括所有样本之间内在结构的挖掘,确保模型能够捕获更完整的数据结构信息,以及异构信息的有效融合。

技术实现思路

[0007]本专利技术所提出的面向论文网络数据的自适应图卷积聚类方法能够有效解决现有的深度聚类方法的不足,提出自适应图卷积网络,在图卷积过程中以自适应的图结构代替固定不变的图结构,有利于模型挖掘更完整的内在结构信息,避免不准确的图结构对聚类性能产生的负影响;提出了一种基于注意力机制的融合模块,选择性地对异构信息进行加权以提取关键信息,有效缓解了图卷积网络过平滑的问题。图1展示了所提出的方法的整体框架。
[0008]本专利技术通过以下技术方案实现:
[0009](1)首先利用自编码器从输入数据中提取属性信息,
[0010]H
(l)
=σ(W
(l)
H
(l

1)
+b
(l)
),l=1,2,

,L
[0011]其中H
(l)
表示自编码器第l层学习到的数据表示,W
(l)
和b
(l)
分别表示可学习的第l层的权重矩阵和偏差,L表示模型的网络层数,σ(
·
)表示非线性激活函数,这里选择RELU作为激活函数。
[0012]同时,为了尽可能地保留原始数据的特征,最小化重构数据和原始输入数据X之间的重构误差,X表示数据集中样本的关键词的词袋特征。
[0013][0014]其中,N是样本的个数,定义Frobenius范数为
[0015](2)通过自适应图卷积模块来捕获数据的高阶结构信息。
[0016]Z
(l+1)
=σ(A
(l+1)
F
(l)
U
(l+1)
),l=1,2,

,L
[0017]其中,U
(l+1)
表示自适应图卷积模块第(l+1)层的可学习的权重矩阵,Z
(l+1)
是该模块第(l+1)层更新的节点表示,A
(l+1)
是学习到的自适应图结构,更准确的反映样本之间的内在结构,F
(l)
是从基于注意力机制的融合模块获取的融合表示。
[0018]具体的,通过计算融合表示F
(l)
的内积来构造邻接矩阵,挖掘样本之间的潜在相似性,
[0019][0020]然后,将学习到的自适应图加到原始图上来增强初始图结构的质量,
[0021][0022]其中,∈是平衡系数,本专利技术中设置∈为0.5。
[0023]最后,为了使学习到的中间层数据表示Z
(L/2)
更能反映数据之间的依赖关系,最小化重构图结构和原始输入图结构A之间的重构误差,
[0024][0025]其中,是由自适应图卷积模块最后一层的数据表示Z
(L)
的内积构建的邻接矩阵。
[0026](3)提出基于注意力机制的融合模块来高效的融合自编码器模块和自适应图卷积模块提取到的数据表示。具体的,对于网络的第l层,级联分别从自编码模块和自适应图卷积模块学习到的数据表示H
(l)
和Z
(l)

[0027]Y
(l)
=[H
(l)
,Z
(l)
]ꢀꢀꢀ
(5)
[0028]其中[
·
]是级联运算。
[0029]由级联特征Y
(l)
,根据H
(l)
和Z
(l)
的相对重要性分别为它们分配不同的权重,最后得到融合表示F
(l)

[0030]a=f(Y
(l)
)
[0031]e=softmax(sigmoid(a)/τ)
[0032]W=mean(e)
[0033]F
(l)
=W1·
Z
(l)
+W2·
H
(l)
[0034]其中,W1是分配给Z
(l)
的权重系数,W2是分配给H
(l)
的权重系数,f(
·
)是由三层全连接层组成的网络,τ是校准系数,本专利技术中设置τ为10,sigmoid(
·
)函数和校准系数一起作用,避免为最相关的数据表示分配接近
″1″
的分数。
[0035](4)引用自监督聚类模块来训练端到端的模型。
[0036][0037][0038]其中,q
ij
表示在自编码器学习到的特征表示H
(L/2)
中将第i个样本分配给第j个簇的概率,通过放大q
ij
并将其标准化计算得到目标分布p
i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向论文网络数据的自适应图卷积聚类方法,其特征在于:(1)首先利用自编码器从输入数据中提取属性信息,H
(l)
=σ(W
(l)
H
(l

1)
+b
(l)
),l=1,2,

,L其中H
(l)
表示自编码器第l层学习到的数据表示,W
(l)
和b
(l)
分别表示可学习的第l层的权重矩阵和偏差,L表示模型的网络层数,σ(
·
)表示非线性激活函数,选择RELU作为激活函数;同时,为了尽可能地保留原始数据的特征,最小化重构数据和原始输入数据X之间的重构误差,X表示数据集中样本的关键词的词袋特征;其中,N是样本的个数,定义Frobenius范数为(2)通过自适应图卷积模块来捕获数据的高阶结构信息;Z
(l+1)
=σ(A
(l+1)
F
(l)
U
(l+1)
),l=1,2,

,L其中,U
(l+1)
表示自适应图卷积模块第(l+1)层的可学习的权重矩阵,Z
(l+1)
是该模块第(l+1)层更新的节点表示,A
(l+1)
是学习到的自适应图结构,F
(l)
是从基于注意力机制的融合模块获取的融合表示;具体的,通过计算融合表示F
(l)
的内积来构造邻接矩阵,挖掘样本之间的潜在相似性,然后,将学习到的自适应图加到标准化后的原始图结构上来增强原始图结构的质量,其中,∈是平衡系数,设置∈为0.5;最后,为了使学习到的中间层数据表示Z
(L/2)
更能反映数据之间的依赖关系,最小化重构图结构和原始图结构A之间的重构误差,其中,是由自适应图卷积模块最后一层的数据表示Z
(L)
的内积构建的邻接矩阵;(3)提出基于注意力机制的融合模块来高效的融合自编码器模块和自适应图卷积模块提取到的数据表示;具体的,对于网络的第l层,级联分别从自编码模块和自适应图卷积模块学习到的数据表示H
(l)
和Z
...

【专利技术属性】
技术研发人员:尹宝才贺霞霞王博岳霍光煜孙艳丰
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1