一种基于超图对比学习的节点分类方法及系统技术方案

技术编号：43160958 阅读：21 留言：0更新日期：2024-11-01 19:54

本发明专利技术公开一种基于超图对比学习的节点分类方法及系统，属于数据挖掘领域。传统图对比方法在视图增强步骤采用随机遮盖方法，具有随机性，缺乏指导性的遮盖方法。本发明专利技术利用超图的超边同质性指导视图增强的方法，该方法利用超图的高阶信息来指导视图增强，提升了模型的嵌入表示能力，获得更好的下游分类任务表现。本发明专利技术的技术方案是：首先输入数据集构造超图关系映射矩阵，用于计算超边同质性以获取超图高阶信息，随后利用超边同质性计算扰动概率指导视图增强，在反馈学习步骤根据对比损失及同质性损失训练共享的超图神经网络编码器，根据得到超图神经网络编码器获得更好的节点嵌入表示，用于节点分类。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据挖掘和应用，具体涉及一种基于超图对比学习的节点分类方法及系统，具体涉及一种在节点分类任务中，使用超图对比学习方法利用超图高阶信息获得更好的节点数据表示方法及系统，

技术介绍

1、在现实世界中，图是一种普遍存在的数据结构，诸如互联网、知识图谱、化学分子、蛋白质等都属于图数据，在图中，节点代表具体的实体，而边则表示这些实体之间的关系。自从引入图神经网络(graph neutral network，gnn)的概念以来，越来越多的研究者开始致力于图结构和节点属性信息的表示方法，并提出了各种图神经网络框架。与其他深度学习任务类似，图机器学习也面临着标记数据难，标记数据少，且不可靠的问题，为了应对这一问题，研究人员在图神经网络中引入了一系列传统机器学习中的半监督和无监督学习方法。

2、在这些方法中，图对比学习取得了显著的成效，为解决标记数据不足的问题提供了有效途径。图对比学习的主要思想是，增强原始视图获得对比视图，在对比视图和原始视图上构建正负样本对，通过扩大负样本对在表示空间的距离、缩小正样本对的距离，以提高模型的嵌入表示能力。图对比学习中视图增强方法主要是对边和节点随机遮盖，这种方法存在较大的随机性，缺乏指导性的遮盖方法，需要更有效的策略指导视图增强。

3、超图数据是图数据的一种扩展形式，与传统的图数据不同，超图数据中的超边能够包含任意多的节点，能捕获到传统图二元结构不能捕获到的多元高阶关系信息。现有的超图对比学习方法同样采用随机遮盖策略进行视图增强，尚未有效利用超图的高阶信息来指导视图增强。如

技术实现思路

1、传统超图对比学习中通过随机扰动节点或超边对视图增强，这种方法存在较大的随机性，无法高效地扰动到关键信息，本专利技术提出一种基于超图对比学习的节点分类方法及系统，利用超边同质性来指导超图的视图增强，更有效的利用超图数据结构自带的高阶结构信息对视图扰动进行指导，从而获得更好超图节点嵌入表示，在下游分类任务中获得更好的效果。

2、本专利技术提供了一种基于超图对比学习的节点分类方法，所述方法包括以下步骤：

3、步骤1：根据输入超图数据，构建超图关系矩阵，计算超边同质性。

4、具体地，步骤1包括以下步骤：

5、步骤1.1：根据输入超图数据，构建超图关系矩阵；由超图定义g＝(v,e)代表一幅超图；其中v＝{v1,v2,···,vn}表示超图中的顶点集；e＝{e1,e2,···,en}表示超图中的超边集；一条超边e由数个节点{v1,v2···vi}构成，是特征矩阵，根据输入数据构建超图的关系矩阵h，关系矩阵的定义如下：

6、

7、对于一个顶点v∈v，它的度被定义为d(v)＝∑e∈eω(e)h(v,e)，对于一条超边e∈e，它的度被定义为δ(e)＝∑v∈vh(v,e)，de和dv分别表示边度和顶点度的对角矩阵。

8、步骤1.2：根据得到的超图关系矩阵可以计算每一条超边的同质性，超边同质性计算的是超边中的节点对同时在别的超边中出现的概率，超边的同质性衡量了超边之间的相似性以及超边内节点间的依赖程度，具体计算公式如下：

9、

10、其中e∈e为超边集e中一条超边，u,v为超边e中的节点对，σ为sigmoid函数,为超边e中的点对集，为点对{vi,vj}的度，计算每一条超边的同质性存于一个二维数组中，用于指导后续视图增强步骤。

11、步骤2：以步骤1中计算的超边同质性为指导属性，以保留重要信息去除不重要信息为目的生成增强视图，用以与原始视图进行对比学习。

12、具体地，步骤2包括以下步骤：

13、步骤2.1：根据超图关系矩阵h计算每一个节点所在超边同质性之和，具体公式如下：

14、

15、其中homoi表示节点vi所在超边同质性之和，计算之后以数组形式存储；

16、步骤2.2：得到节点所在所有超边的同质性之和之后，根据伯努利分布，生成0，1掩码，对部分节点使用遮盖操作生成新的增强视图，具体公式如下：

17、

18、其中，α为节点遮盖率指导系数用于调节节点遮盖的强度，在对节点所在超边同质性之和进行归一化之后，使用伯努利分布对节点所在超边同质性矩阵进行处理，生成0，1遮盖掩码mask，根据得到的遮盖掩码对原始视图中相应节点进行遮盖，节点对应遮盖掩码为1的进行遮盖操作，遮盖掩码为0的作保留操作，得到增强后的对比视图。

19、步骤3：通过共享的超图神经网络编码器为视图学习嵌入表示，并计算损失进行反馈学习，提升模型性能。

20、具体地，步骤3包括以下步骤：

21、步骤3.1：利用共享的超图神经网络编码器对得到的对比视图g2以及原始视图g1进行嵌入表示，具体超图卷积公式实现如下：

22、

23、其中de表示节点的度矩阵，h表示超图邻接矩阵，de为边的度矩阵，xt为上一轮聚合的节点特征矩阵，xt+1表示经过一层超图卷积聚合后的节点特征矩阵，本专利技术通过超图卷积神经网络hgnn作为超图神经网络编码器为视图学习嵌入表示,该方法采用“点-超边-点”方法利用超图关系矩阵，利用超边聚合节点特征，再反过来更新节点特征，最后通过度矩阵对特征进行归一化，得到超边与节点的嵌入表示。能有效利用超图高阶信息，最后由原始视图g1和对比视图g2生成两个嵌入向量矩阵

24、步骤3.2：根据计算出的两个视图的嵌入向量，计算分类损失，具体实现公式如下：

25、

26、其中vl为带标记的节点集，本专利技术为半监督学习，因此会用到少量监督数据；本专利技术使用交叉熵损失作为分类损失，其中分别为来自和的两个嵌入向量，取两个视图相同节点的特征平均值作为每一个节点的特征，c(.)为一个两层mlp的分类层。

27、步骤3.3：根据计算出的两个视图的嵌入向量，计算对比损失，本专利技术使用infonceloss作为对比损失，以减小表示空间中正例对的距离，扩大负例对的距离为指导思想，本专利技术以超边为锚点，选取不同视图的同一条超边为负例对，不同视图的同一超边为正例对。具体实现公式如下：

28、

29、其中为来自不同视图的同一条超边ei的正例对，为来自不同视图不同超边ei，ej的负例对，τe为温度系数，控制了模型对负样本的区分度。

30、根据计算到的对比损失和分类损失，对共享的超图神经网络编码器hgnn进行反馈学习，获得优化的共享的超图神经网络编码器。通过优化的共享的超图神经网络编码器，为节点学习到的更好的嵌入表示。

31、步骤4：通过优化的共享的超图神经网络编码器，为节点学习到的更好的嵌入表示，并将嵌入表示输入逻辑回归节点分类模型，获得优化的超图图对比学习网络节点分类结果，分类层的公式表示如下：

32、

33、本文档来自技高网...

【技术保护点】

1.一种基于超图对比学习的节点分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于超图对比学习的超图表示学习方法，其特征在于，步骤1中所述的超图数据输入步骤，包括以下步骤：

3.根据权利要求1所述的基于超图对比学习的超图表示学习方法，其特征在于，步骤2.1实现方法如下：

4.根据权利要求1所述的基于超图对比学习的超图表示学习方法，其特征在于，所述对比学习步骤实现方法如下：

5.根据权利要求1所述的基于超图对比学习的超图表示学习方法，其特征在于，所述节点分类步骤实现方法如下：

6.一种基于超图对比学习的节点分类系统，其特征在于，包括以下模块：

【技术特征摘要】

1.一种基于超图对比学习的节点分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于超图对比学习的超图表示学习方法，其特征在于，步骤1中所述的超图数据输入步骤，包括以下步骤：

3.根据权利要求1所述的基于超图对比学习的超图表示学习方法，其特征在于，步骤2.1实现方法如下：<...

【专利技术属性】
技术研发人员：梁吉业，李子谋，姚凯旋，赵兴旺，
申请(专利权)人：山西大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人