一种基于图对比学习的多视图聚类模型实现方法技术

技术编号:39436707 阅读:6 留言:0更新日期:2023-11-19 16:20
本发明专利技术公开了一种基于图对比学习的多视图聚类模型实现方法,所述多视图聚类模型包括:图学习模块、图对比模块和自监督模块;包括以下步骤:S1,建立一个统一的多视图模型,明确多视图模型的输入输出;S2,选取公开数据集作为初始数据,通过构建的图学习模块对初始数据进行初始化处理;S3,通过构建的图对比模块,对初始化处理后的数据进行对比学习,获得全面和准确的数据结构信息;S4,通过自监督模块对获取的数据结构信息进行聚类任务,构建目标函数进行训练,当满足设定条件时,停止训练,将得到预测的聚类标签作为多视图模型的输出。本发明专利技术引入了自监督模块以辅助聚类任务,使用软标签来监督图聚类过程,提高了模型的泛化能力。提高了模型的泛化能力。提高了模型的泛化能力。

【技术实现步骤摘要】
一种基于图对比学习的多视图聚类模型实现方法


[0001]本专利技术涉及对比学习和图卷积神经网络领域,尤其涉及一种基于图对比学习的多视图聚类模型实现方法。

技术介绍

[0002]图聚类是图网络研究领域的一项基本任务,旨在将图划分为几个紧密相连的群体。图聚类技术在实践中得到了广泛的应用,如群体分割,通信网络结构分析,社交网络中的社区检测等。然而,现有的大多数图聚类算法只能够处理单视图,而现实中的图数据要更为复杂,通常需要使用多视图而不是单视图去更好的表示真实的图数据,且多视图能够更好的表示节点的多重关系,如学术网络中共同作者和共同会议。
[0003]现实生活中数据的来源通常是不同的,可以由不同的特征或视图表示。每个视图可能存在噪声和不完整性,但重要因素(例如几何和语义)存在于在所有视图共享信息当中。不同视图的特征和数据是互补的,整合不同视图的特征对于提高聚类任务的性能至关重要。
[0004]但目前的聚类方法大多聚焦在单视图聚类上,使用单视图方法在处理复杂的多视图聚类时的效果较差,且无法关注不同视图之间的互补信息。

技术实现思路

[0005]专利技术目的:本专利技术的目的是提供一种提高模型泛化能力的基于图对比学习的多视图聚类模型实现方法。
[0006]技术方案:本专利技术的多视图聚类模型实现方法,所述多视图聚类模型包括:图学习模块、图对比模块和自监督模块;
[0007]所述图学习模块采用谱卷积函数对多视图数据进行卷积计算,利用图嵌入方法对图中各节点进行初始化表示,再对多视图数据使用注意力机制强化节点嵌入,得到初始化数据;
[0008]所述图对比模块通过聚类对比方法学习初始化数据之间的相似性度量,所述相似性度量用于解释多视图数据的结构;通过对多个视图进行对比学习,获得全面和准确的数据结构信息;
[0009]所述自监督模块获取最佳视图编码及节点嵌入后,采用“高度自信的节点”q作为一个软标签来监督图聚类的过程,使用t分布作为核心来衡量每个节点和中心点之间的相似度,引入了一个辅助目标矩阵P来优化聚类任务;
[0010]包括以下步骤:
[0011]S1,建立一个统一的多视图模型,明确多视图模型的输入输出;
[0012]S2,选取公开数据集作为初始数据,通过构建的图学习模块对初始数据进行初始化处理;
[0013]S3,通过构建的图对比模块,对初始化处理后的数据进行对比学习,获得全面和准
确的数据结构信息;
[0014]S4,通过自监督模块对获取的数据结构信息进行聚类任务,构建目标函数进行训练,当满足设定条件时,停止训练,将得到预测的聚类标签作为多视图模型的输出。
[0015]进一步,步骤S1中,所述多视图模型的输入如下:
[0016]定义多层图数据为G={V,E1,

,E
m
,X1,

,X
m
},其中,V代表着N个节点集合;E1,

,E
m
分别为m个图视图中的连边,图的拓扑结构用邻接矩阵A所表示;在某一层中,若A
ij
=1,表示在该层中第i个节点与第j个节点存在连边;若A
ij
=0,表示在该层中第i个节点与第j个节点存在连边;{X1,

,X
m
}代表着节点的在不同层的属性矩阵;为重构后的邻接矩阵,为重构属性矩阵;
[0017]模型的输出:聚类结果y
r

[0018]进一步,步骤S2中,所述图学习模块的实现步骤如下:
[0019]S21,将初始数据中的邻接矩阵和属性矩阵输入到编码器中,使用谱卷积函数对图进行卷积计算,并利用激活函数对卷积后的结果进行非线性变换,得到节点在当层的节点表示,下一层的编码输入是上一层节点的表示和相应的邻接矩阵;对于第m层的第l个嵌入,表达式如下:
[0020][0021]其中,是第m层的第l

1个嵌入,f()为谱卷积函数,W
(l)
是可训练参数矩阵;其中,I为单位矩阵,为第m层的邻接矩阵;D
m
为度矩阵,σ()为激活函数;
[0022]S22,对多视图数据使用注意力机制强化节点嵌入,得到初始化数据;在l层中节点i与节点j的相关性表达式为:
[0023][0024]其中,sigmoid()为启发函数,分别为可训练的参数矩阵,与为矩阵的第i行和第j行;
[0025]对进行归一化,表达式如下:
[0026][0027]最终得到节点i的嵌入:
[0028][0029]其中,表示第l层的第i个节点与第k个邻居节点之间的关联性,代表节点的邻居节点集合,exp()表示表示以自然常数e为底的指数函数。
[0030]进一步,步骤S3中,所述图对比模块的实现步骤如下:
[0031]S31,将每个节点的嵌入表征作为特征向量,采用k

means算法将N个节点划分为G个簇,同时求出每个簇的中心节点,表示为{c1,

,c
G
};
[0032]S32,对于每个节点i,如果其所属簇的中心节点为c
i
,则该节点与所属簇的中心节点的嵌入表征z

i
构成一个正样本,该节点与其他簇的中心节点的嵌入表征构成负样本,计算聚类对比损失L
con
,梯度更新encoder,聚类对比损失L
con
的表达式如下:
[0033][0034][0035]其中,z
i
表示节点i的嵌入,z

i
为所属中心簇的节点嵌入,z

t
表示其他簇所属簇的中心节点的嵌入,sim()为余弦相似度公式,τ为温度参数,G为所划分的中心簇个数,e为自然常数,N为节点的总数量;
[0036]S33,通过最小化每个图视角数据的重构误差之和来训练自编码器,预测两个节点之间是否存在链接,表达式如下:
[0037][0038]总体重构损失函数L
r

[0039][0040]其中,表示重构的视图m,Z是图数据节点的学习表示;W
m
是一个训练权重矩阵,用于将Z投影到视图m中以预测节点之间的连接概率;Z
T
是Z的转置,sigmoid()为启发函数,A
m
是视图m的原始数据;L
r
表示M个视图的loss构成了总的重构损失。
[0041]进一步,步骤S4中,所述自监督模块的实现过程如下:
[0042]S41,采用t分布作为核心来衡量每个节点和聚类中心点之间的相似度,q
kr
为将节点k分配到聚类r的概率,具体计算方法如下:
[0043][0044]其中,μ
r
为聚类中心的嵌入,z
k本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图对比学习的多视图聚类模型实现方法,所述多视图聚类模型包括:图学习模块、图对比模块和自监督模块;所述图学习模块采用谱卷积函数对多视图数据进行卷积计算,利用图嵌入方法对图中各节点进行初始化表示,再对多视图数据使用注意力机制强化节点嵌入,得到初始化数据;所述图对比模块通过聚类对比方法学习初始化数据之间的相似性度量,所述相似性度量用于解释多视图数据的结构;通过对多个视图进行对比学习,获得全面和准确的数据结构信息;所述自监督模块获取最佳视图编码及节点嵌入后,采用“高度自信的节点”q作为一个软标签来监督图聚类的过程,使用t分布作为核心来衡量每个节点和中心点之间的相似度,引入了一个辅助目标矩阵P来优化聚类任务;其特征在于,包括以下步骤:S1,建立一个统一的多视图模型,明确多视图模型的输入输出;S2,选取公开数据集作为初始数据,通过构建的图学习模块对初始数据进行初始化处理;S3,通过构建的图对比模块,对初始化处理后的数据进行对比学习,获得全面和准确的数据结构信息;S4,通过自监督模块对获取的数据结构信息进行聚类任务,构建目标函数进行训练,当满足设定条件时,停止训练,将得到预测的聚类标签作为多视图模型的输出。2.根据权利要求1所述基于图对比学习的多视图聚类模型实现方法,其特征在于,步骤S1中,所述多视图模型的输入如下:定义多层图数据为G={V,E1,

,E
m
,X1,

,X
m
},其中,V代表着N个节点集合;E1,

,E
m
分别为m个图视图中的连边,图的拓扑结构用邻接矩阵A所表示;在某一层中,若A
ij
=1,表示在该层中第i个节点与第j个节点存在连边;若A
ij
=0,表示在该层中第i个节点与第j个节点存在连边;{X1,

,X
m
}代表着节点的在不同层的属性矩阵;为重构后的邻接矩阵,为重构属性矩阵;模型的输出:聚类结果y
r
。3.根据权利要求1所述基于图对比学习的多视图聚类模型实现方法,其特征在于,步骤S2中,所述图学习模块的实现步骤如下:S21,将初始数据中的邻接矩阵和属性矩阵输入到编码器中,使用谱卷积函数对图进行卷积计算,并利用激活函数对卷积后的结果进行非线性变换,得到节点在当层的节点表示,下一层的编码输入是上一层节点的表示和相应的邻接矩阵;对于第m层的第l个嵌入,表达式如下:其中,是第m层的第l

1个嵌入,f()为谱卷积函数,W
(l)
是可训练参数矩阵;其中,I为单位矩阵,为第m层的邻接矩阵;D
m
为度矩阵,σ()为激活函数;
S22,对多视图数据使用注意力机制强化节点嵌入,得到初始化数据;在l层中节点i与节点j的相关性表达式为:其中,sigmoid()为启发函数,分别为可训练的参数矩阵,与为矩阵的第i行和第j行;对进行归一化,表达式如下:最终得到节点i的嵌入:其中,表示第l层的第i个节点与第k个邻居节点之间的关联性,代表节点的邻居节点集合,exp()表示表示以自然常数e为底的指数函数。4.根据权利要求1所述基于图对比学习的多视图聚类模型实现方法,其特征...

【专利技术属性】
技术研发人员:宋玉蓉吴邦胜李汝琦
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1