一种基于图神经网络的种子集扩展方法及其系统技术方案

技术编号:33554602 阅读:33 留言:0更新日期:2022-05-26 22:51
本发明专利技术公开了一种基于图神经网络的种子集扩展方法及系统,该方法具体包括如下步骤:步骤1,对于给定的图数据,获取图结构信息、节点属性,给定伪标签、种子集以及需要扩展节点个数K,通过EM算法训练两个图神经网络,计算得到伪标签的注意力系数和节点特征的注意力系数;步骤2、根据伪标签的注意力系数和节点特征的注意力系数计算得到概率矩阵A;步骤3、根据需要扩展节点个数K,利用概率矩阵A中的概率系数引导PageRank进行游走,获取扩展到的节点。本发明专利技术结合了标签和节点属性信息,并应用在种子集扩展过程中,经试验,扩展得到的节点集相比传统的种子集扩展算法,扩展得到的节点中有更多的节点属于种子集所在社区。更多的节点属于种子集所在社区。更多的节点属于种子集所在社区。

【技术实现步骤摘要】
一种基于图神经网络的种子集扩展方法及其系统


[0001]本专利技术属于大数据管理与分析
,具体涉及一种基于图神经网络的种子集扩展方法及其系统,用于对图根据已知节点进行种子集扩展。

技术介绍

[0002]随着互联网的兴起,越来越多的网络受到了人们的广泛关注。在对各种复杂系统建模时,网络变得越来越重要,一般来说,网络由顶点(个体)和边(个体之间的关系)组成,且可将网络抽象成图。在商品推荐、犯罪团伙识别等应用场景中,人们感兴趣的是网络中某个社区(一些相似节点组成一个集合)的节点,这部分节点在某些情况下具有相似性,且通常情况下人们只知道该社区的少量节点。给定一个图中少量节点作为种子集,根据种子集扩展为一个更大的集合,以接近该社区的全部范围,扩展得到的节点需尽可能满足与种子集相似的条件。现已有很多方法可以用来解决种子集扩展问题,这些方法分为四类。第一类:邻居节点计数的方法有三种,Neighbors、DN

Neighbors是指已知社区标签下的邻居节点个数,Outwardness计算社区内的度数量与社区外的度数量的差距、Binomial Prob计算社区中节点邻居的二项式概率。第二类:采用了贪心思想的算法有三种,Modularity计算得到一个值,每次选择该值最高的节点作为扩展节点,是衡量社区划分的重要指标,也可用于种子集扩展中,Set

Modularity删除使其计算值增高的节点,添加使其计算值降低的节点,Conductance计算了社区内部边与社区之间边的比例,是测量社区质量的重要标准。第三类:使用随机游走的方法有PageRank,在已有的文献中表述,PageRank能达到最好的扩展效果。第四类:Augmented label propagation(动力标签传播,ALP)算法依赖网络结构,利用动态传播和标签传播的思想来学习节点扩展。
[0003]传统的种子集扩展算法主要利用了标签传播以及图拓扑结构进行扩展。图拓扑结构知道节点与节点之间的连接信息,包括出度、入度等信息。主要根据出度入度以及边数量等信息计算重要节点,或通过边数量决定游走方式,通过不断迭代选择与种子集最相似的节点作为扩展的节点。但是,明显地,现实世界的网络不仅有结构信息,还带有多种属性信息,不难理解,这些信息对扩展可以起到正面作用。如引文网络,节点属性表示了文章摘要中的重要词汇,相同研究领域的文献可能会出现相同的关键词汇,这些关键词汇可以为找到相似文献起到关键性作用。因此,对于大部分图数据,利用节点属性可以对种子集扩展起到很好的帮助,但传统种子集扩展方法中,并没有结合节点属性进行种子集扩展的方式,使得扩展到的节点种子集节点数量较少。

技术实现思路

[0004]针对上述现有的种子集扩展算法未使用节点属性进行种子集扩展导致扩展得到的节点属于种子集所在社区的节点数量较少的问题,本专利技术的目的在于,提供一种基于图神经网络的种子集扩展方法及其系统,本专利技术通过图神经网络(GNN)将图的结构信息、节点属性信息以及伪标签辅助训练,从图神经网络的角度利用这些信息,学习到关于节点属性
注意力系数和关于标签的注意力系数,对注意力系数单位化处理后,并将处理后的结果作为引导,为PageRank游走时提供具有倾向性的游走方式,使得节点游走过程中不是随机地游走到某一邻居节点,而是优先游走到关系更紧密的邻居节点,从而达到更好的扩展效果。
[0005]为了达到上述目的,本专利技术采用如下技术方案予以解决:
[0006]一方面,本专利技术给出一种基于图神经网络的种子集扩展方法,具体包括如下步骤:
[0007]步骤1,对于给定的图数据,获取图结构信息、节点属性,给定伪标签、种子集以及需要扩展节点个数K,通过EM算法训练两个图神经网络,计算得到伪标签的注意力系数和节点特征的注意力系数;
[0008]步骤2、根据伪标签的注意力系数和节点特征的注意力系数计算得到概率矩阵A;
[0009]步骤3、根据需要扩展节点个数K,利用概率矩阵A中的概率系数引导PageRank进行游走,获取扩展到的节点。
[0010]进一步的,所述步骤1具体包括如下子步骤:
[0011]步骤11,获取图结构信息、节点属性、伪标签、种子集、需要扩展节点个数K;所述种子集是在数据集中相同类别的节点中取一定比例的节点得到;其中,图结构信息包括图节点ID、边的连接信息;给定需要扩展的节点个数K;给定节点伪标签,初始伪标签矩阵为n
×
n的单位矩阵;
[0012]步骤12,将初始伪标签矩阵与邻接矩阵进行循环迭代处理,得到新的伪标签矩阵PL;
[0013]步骤13,对E步进行预训练:输入图结构信息和节点属性、伪标签矩阵PL,对GNN模型进行预训练;得到预训练后的GNN模型和未知标签节点的预测标签;
[0014]步骤14,进行第一次M步训练:输入图结构信息、伪标签矩阵PL,并将未知标签节点的预测标签作为损失函数的真实标签,训练GNN模型得到第一次M步训练后的训练模型及预测标签;
[0015]进行第一次E步训练:将第一次M步训练后的预测标签作为第一次E步训练的损失函数的真实标签,并输入图结构信息、节点特征,对预训练后的GNN模型进行E步训练,得到第一次E步训练后的预测标签;
[0016]进行第二次M步训练:将第一次E步训练后的预测标签作为第二次M步训练的损失函数的真实标签,并输入图结构信息、伪标签矩阵PL,对第一次M步训练后的模型进行第二次M步训练,得到第二次M步训练的预测标签,以及伪标签的注意力系数的集合,此处的伪标签的注意力系数在GNN模型中第二层GAT模型中获取;
[0017]进行第二次E步训练:将第二次M步训练后的预测标签作为第二次E步训练的损失函数的真实标签,输入图结构信息、节点特征,对第一次E步训练后的模型进行第二次E步训练,得到第二次E步训练的节点特征的注意力系数的集合,此处的节点特征的注意力系数可在GNN模型中第二层GAT模型中获取。
[0018]进一步的,所述步骤12具体包括如下操作:
[0019]第一步:将初始伪标签矩阵作为preds矩阵;
[0020]第二步:使用当前的preds矩阵与邻接矩阵相乘得到的结果替换当前的preds矩
阵;然后,使用当前的preds矩阵与伪标签矩阵相加得到的结果替换当前的preds矩阵;
[0021]第三步:将第二步输出的当前的preds矩阵中元素值大于1的值设置为1后,将得到的矩阵作为当前的preds矩阵;
[0022]第四步:重复执行第二步和第三步,共执行2次(即步骤12中第二步和第三步共执行3次),将最后一次输出的preds矩阵赋值给伪标签矩阵,得到新的伪标签矩阵PL。
[0023]进一步的,所述步骤13和步骤14中的GNN模型中,第一层为GAT模型,第二层也为GAT模型,第三层为全连接层。
[0024]进一步的,所述步骤2具体包括如下子步骤:
[0025]步骤21,利用公式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的种子集扩展方法,其特征在于,具体包括如下步骤:步骤1,对于给定的图数据,获取图结构信息、节点属性,给定伪标签、种子集以及需要扩展节点个数K,通过EM算法训练两个图神经网络,计算得到伪标签的注意力系数和节点特征的注意力系数;步骤2、根据伪标签的注意力系数和节点特征的注意力系数计算得到概率矩阵A;步骤3、根据需要扩展节点个数K,利用概率矩阵A中的概率系数引导PageRank进行游走,获取扩展到的节点。2.如权利要求1所述的基于图神经网络的种子集扩展方法,其特征在于,所述步骤1具体包括如下子步骤:步骤11,获取图结构信息、节点属性、伪标签、种子集、需要扩展节点个数K;所述种子集是在数据集中相同类别的节点中取一定比例的节点得到;其中,图结构信息包括图节点ID、边的连接信息;给定需要扩展的节点个数K;给定节点伪标签,初始伪标签矩阵为n
×
n的单位矩阵;步骤12,将初始伪标签矩阵与邻接矩阵进行循环迭代处理,得到新的伪标签矩阵PL;步骤13,对E步进行预训练:输入图结构信息和节点属性、伪标签矩阵PL,对GNN模型进行预训练;得到预训练后的GNN模型和未知标签节点的预测标签;步骤14,进行第一次M步训练:输入图结构信息、伪标签矩阵PL,并将未知标签节点的预测标签作为损失函数的真实标签,训练GNN模型得到第一次M步训练后的训练模型及预测标签;进行第一次E步训练:将第一次M步训练后的预测标签作为第一次E步训练的损失函数的真实标签,并输入图结构信息、节点特征,对预训练后的GNN模型进行E步训练,得到第一次E步训练后的预测标签;进行第二次M步训练:将第一次E步训练后的预测标签作为第二次M步训练的损失函数的真实标签,并输入图结构信息、伪标签矩阵PL,对第一次M步训练后的模型进行第二次M步训练,得到第二次M步训练的预测标签,以及伪标签的注意力系数的集合,此处的伪标签的注意力系数在GNN模型中第二层GAT模型中获取;进行第二次E步训练:将第二次M步训练后的预测标签作为第二次E步训练的损失函数的真实标签,输入图结构信息、节点特征,对第一次E步训练后的模型进行第二次E步训练,得到第二次E步训练的节点特征的注意力系数的集合,此处的节点特征的注意力系数可在GNN模型中第二层GAT模型中获取。3.如权利要求1所述的基于图神经网络的种子集扩展方法,其特征在于,所述步骤12具体包括如下操作:第一步:将初始伪标签矩阵作为preds矩阵;第二步:使用当前的preds矩阵与邻接矩阵相乘得到的结果替换当前的preds矩阵;然后,使用当前的preds矩阵与伪标签矩阵相加得到的结果替换当前的preds矩阵;第三步:将第二步输出的当前的preds矩阵中元素值大于1的值设置为1后,将得到的矩阵作为当前的preds矩阵;
第四步:重复执行第二步和第三步,共执行2次(即步骤12中第二步和第三步共执行3次),将最后一次输出的preds矩阵赋值给伪标签矩阵,得到新的伪标签矩阵PL。4.如权利要求1所述的基于图神经网络的种子集扩展方法,其特征在于,所述步骤13和步骤14中的GNN模型中,第一层为GAT模型,第二层也为GAT模型,第三层为全连接层。5.如权利要求1所述的基于图神经网络的种子集扩展方法,其特征在于,所述步骤2具体包括如下子步骤:步骤21,利用公式(11)计算得到节点i与邻居节点j的关于节点特征和伪标签的注意力系数均值E
ij
:步骤22,利用公式(12)计算得到节点i与所有邻居节点关于特征和伪标签的注意力系数均值总和SE
i
:步骤23,利用公式(13)计算得到节点i游走到邻居节点j的概率系数;并将所有节点与其邻居节点的概率系数根据图的邻接矩阵组成概率矩阵其邻居节点的概率系数根据图的邻接矩阵组成概率矩阵6.如权利要求1所述的基于图神经网络的种子集扩展方法,其特征在于,所述步骤3具体包括如下子步骤:步骤31,对步骤2得到的概率矩阵A作为概率转移矩阵,采用个性化PageRank算法进行处理得到每个节点的Pr值;步骤32,对得到的种子集以外的每个节点Pr进行降序排序,取出Pr值最高的K/T个节点;K为需要扩展的...

【专利技术属性】
技术研发人员:梁春泉王紫陈航赵航
申请(专利权)人:西北农林科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1