一种基于自适应合成样本的不平衡节点分类方法技术

技术编号：42045640 阅读：20 留言：0更新日期：2024-07-16 23:28

本发明专利技术公开了一种基于自适应合成样本的不平衡节点分类方法，包括如下步骤：1)将数据集分为训练集和测试集，对训练集中的部分节点标注标签；2)引入邻接矩阵和扩散矩阵来获得两个视图A，S<supgt;PPR</supgt;；3)通过GraphSage块分别获取A，S<supgt;PPR</supgt;两个视图的嵌入表示Z<supgt;A</supgt;，Z<supgt;PPR</supgt;，连接Z<supgt;A</supgt;，Z<supgt;PPR</supgt;这两个视图得到混合图嵌入Z；4)将过采样方法扩展到多类不平衡问题上来合成少数类样本，然后将得到的新节点z<subgt;j</subgt;加入训练集得到最终嵌入；5)用内积编码器，生成新节点和原始节点之间的链接，得到重构的邻接矩阵；6)将最终嵌入和重构的邻接矩阵作为新的输入，重新训练节点分类器，最小化训练集的预测标签概率分布与真实标签之间的损失，并在测试集上检测分类效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图神经网络分类，具体是一种基于自适应合成样本的不平衡节点分类方法。

技术介绍

1、图表示学习在分类任务中起着至关重要的作用，这主要归功于图神经网络(graphneural networks，简称gnn)在获取图表示方面的突出能力。现有的gnn节点分类架构可以实现更优越的性能。然而，现有的大部分工作都是基于图中不同类之间节点分布近似平衡的假设。然而，这种平衡的数据集在现实中往往难以获得。例如，90-95％的在线社交网络用户由多数集群(良性帐户)组成，且只有一小部分的用户是少数集群(虚假账户)。面对节点分类中的类不平衡问题，算法在表示学习过程中可能表现出对多数类的偏向，这潜在地掩盖了少数类，因此将gnn应用于图上的不平衡节点分类是一个挑战。

2、事实上，类不平衡问题已经有了一定的发展，基本的数据级方法包括过采样方法和欠采样方法。欠采样方法通过减少多数类的样本数量来与少数类保持一致来解决这个问题。然而，这种方法不可避免地会导致信息的丢失。相反，过采样方法通过生成少量的样本来平衡样本数量，这样比较稳定。然而，由于图结构中独特的非欧几里得和不规则结构，将这些传统的类不平衡方法直接应用于图数据可能会产生次优化结果。为了解决这个问题，graphsmote[1]引入了一种新颖的方法，直接在嵌入空间的两个少数节点之间进行插值，graphmixup[2]提出了语义空间的特征混合。然而，上述方法倾向于以固定比例对少数类进行过采样，生成的少数类数与原始少数类数量相同，它不会使每个类都平衡。同时，过采样比率必须设计得当，否则当过

技术实现思路

1、本专利技术的目的是为解决现有技术中存在的问题，而提出了种基于自适应合成样本的不平衡节点分类方法。这种方法可以提升不平衡的图数据集的分类精度，由于引入了自适应合成算法，不需要去人为规定合成多少数量的少数类样本，大大减少了人工标注成本，减少了资源的浪费。

2、实现本专利技术目的的技术方案是：

3、一种基于自适应合成样本的不平衡节点分类方法，包括如下步骤：

4、1)将数据集分为训练集和测试集，对训练集中的部分节点标注标签；

5、2)引入邻接矩阵和扩散矩阵来反映训练集中标记节点的局部和全局节点之间的关系，分别获得两个视图a，sppr；

6、3)通过graphsage块分别获取a，sppr两个视图的嵌入表示za，zppr，连接za，zppr这两个视图得到混合图嵌入z:

7、z＝λ·za+(1-λ)·zppr；

8、4)将过采样方法扩展到多类不平衡问题上来合成少数类样本，该过采样方法能根据嵌入图上的密度分布rj自适应地确定为每类合成的节点数量hj，从而缓解不平衡问题，其中，

9、

10、zj＝xj+(xij-xj)×δ

11、xj是少数类里第j类的节点，δj是xjk个邻域中与xj不是同一类的样本数量，h是其他类减去少数类的节点数量，ms是少数类样本的数量，然后将得到的新节点zj加入训练集得到一个增强的节点嵌入表示集将与原始嵌入连接起来得到最终的嵌入表示；

12、5)采用内积编码器，生成新节点和原始节点之间的链接，得到重构的邻接矩阵；

13、6)将最终嵌入和重构的邻接矩阵作为新的输入，重新训练节点分类器，最小化训练集的预测标签概率分布与真实标签之间的损失，并在测试集上检测分类效果。所述步骤2)的具体过程为：

14、将引入的邻接矩阵转换为ppr扩散矩阵，从而引入一个扩散视图来作为邻接矩阵的补充视图，由于邻接矩阵反应了由训练集节点构成的图内部的局部拓扑关系，扩散矩阵反应了图内部的全局拓扑关系，所以邻接矩阵和扩散矩阵分别提供了图结构的局部和全局视图，将图结构的局部和全局视图分别定义为a，sppr:

15、

16、其中，a表示邻接矩阵反映的局部视图,d是对角度矩阵，in是自循环矩阵，由自循环矩阵构成的自循环图的邻接矩阵和对角度矩阵分别定义为：

17、

18、

19、所述步骤3)的具体过程为：

20、通过graphsage块获取a，sppr两个视图的嵌入表示分别为：

21、za＝relu(w·concat(x,x·a))

22、zppr＝relu(w·concat(x,x·sppr))

23、其中，w是参数矩阵，relu是激活函数；

24、za，zppr对混合图嵌入有不同的重要性，所以用参数λ来调节za，zppr的重要性，具体实现过程如下：

25、z＝λ·za+(1-λ)·zppr。

26、所述步骤4)的具体过程为：

27、4.1)得到混合嵌入表示z后，采用过采样方法来合成少数节点，将adasyn过采样方法从处理两类不平衡分类问题扩展到处理多类不平衡分类问题，首先，计算合成比例：

28、

29、其中，xj是少数类里第j类的节点，δj是xj的k个邻域中与xj不是同一类的样本数量，ms是少数类样本的数量；

30、4.2)计算需要为少数类合成的节点数,mt是其他类的样本数，β是控制平衡度的一个参数，当β＝1时，构建一个完全平衡的数据集：

31、h＝(mt-ms)×β

32、

33、其中，是rj正则化后的结果，表示不同少数类样本根据学习困难程度得出的权重分布；hj是xj合成的少数类样本总数；

34、4.3)从xj的k个近邻中随机选择一个少数类xij，然后合成新的数据样本zj，定义为：

35、zj＝xj+(xij-xj)×δ

36、循环hj次，δ是[0,1]之间的随机变量，将合成的新节点zj加入训练集得到一个增强的节点表示集将与原始嵌入连接起来得到最终的嵌入表示。

37、所述步骤5)的具体过程为：

38、引入边生成器获取生成节点与原始节点之间的链接，采用内积解码器重构邻接矩阵:

39、

40、其中，表示边缘之间预测的关系连通性，它的梯度能通过分类器传播，然后利用边缘预测损失对模型中的生成器进行优化；

41、边缘预测器的损失函数为:

42、

43、所述步骤6)的具体过程为：

44、通过将合成节点zj的标签添加到真实标签集的末尾，得到一个增强标签集所以得到一个相对平衡的训练样本集，将最终嵌入和重构的邻接矩阵输入gnn分类器来对训练样本集进行标签预测训练:

45、

46、

47、其中，是graphsage块的节点表示矩阵记，w2和wc为权值参数，p是每个节点的预测标签分布；

4本文档来自技高网...

【技术保护点】

1.一种基于自适应合成样本的不平衡节点分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于自适应合成样本的不平衡节点分类方法，其特征在于，所述步骤2)的具体过程为：

3.根据权利要求1所述的基于自适应合成样本的不平衡节点分类方法，其特征在于，所述步骤3)的具体过程为：

4.根据权利要求1所述的基于自适应合成样本的不平衡节点分类方法，其特征在于，所述步骤4)的具体过程为：

5.根据权利要求1所述的基于自适应合成样本的不平衡节点分类方法，其特征在于，所述步骤5)的具体过程为：

6.根据权利要求1所述的基于自适应合成样本的不平衡节点分类方法，其特征在于，所述步骤6)的具体过程为：

【技术特征摘要】

1.一种基于自适应合成样本的不平衡节点分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于自适应合成样本的不平衡节点分类方法，其特征在于，所述步骤2)的具体过程为：

3.根据权利要求1所述的基于自适应合成样本的不平衡节点分类方法，其特征在于，所述步骤3)的具体过程为：

4.根据...

【专利技术属性】
技术研发人员：陈婉馨，陆广泉，文国秋，张文振，
申请(专利权)人：广西师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人