【技术实现步骤摘要】
一种基于图神经网络的种子集扩展方法及其系统
[0001]本专利技术属于大数据管理与分析
,具体涉及一种基于图神经网络的种子集扩展方法及其系统,用于对图根据已知节点进行种子集扩展。
技术介绍
[0002]随着互联网的兴起,越来越多的网络受到了人们的广泛关注。在对各种复杂系统建模时,网络变得越来越重要,一般来说,网络由顶点(个体)和边(个体之间的关系)组成,且可将网络抽象成图。在商品推荐、犯罪团伙识别等应用场景中,人们感兴趣的是网络中某个社区(一些相似节点组成一个集合)的节点,这部分节点在某些情况下具有相似性,且通常情况下人们只知道该社区的少量节点。给定一个图中少量节点作为种子集,根据种子集扩展为一个更大的集合,以接近该社区的全部范围,扩展得到的节点需尽可能满足与种子集相似的条件。现已有很多方法可以用来解决种子集扩展问题,这些方法分为四类。第一类:邻居节点计数的方法有三种,Neighbors、DN
‑
Neighbors是指已知社区标签下的邻居节点个数,Outwardness计算社区内的度数量与社区外的度数量的差距、Binomial Prob计算社区中节点邻居的二项式概率。第二类:采用了贪心思想的算法有三种,Modularity计算得到一个值,每次选择该值最高的节点作为扩展节点,是衡量社区划分的重要指标,也可用于种子集扩展中,Set
‑
Modularity删除使其计算值增高的节点,添加使其计算值降低的节点,Conductance计算了社区内部边与社区之间边的比例,是测量社区质量的重 ...
【技术保护点】
【技术特征摘要】
1.一种基于图神经网络的种子集扩展方法,其特征在于,具体包括如下步骤:步骤1,对于给定的图数据,获取图结构信息、节点属性,给定伪标签、种子集以及需要扩展节点个数K,通过EM算法训练两个图神经网络,计算得到伪标签的注意力系数和节点特征的注意力系数;步骤2、根据伪标签的注意力系数和节点特征的注意力系数计算得到概率矩阵A;步骤3、根据需要扩展节点个数K,利用概率矩阵A中的概率系数引导PageRank进行游走,获取扩展到的节点。2.如权利要求1所述的基于图神经网络的种子集扩展方法,其特征在于,所述步骤1具体包括如下子步骤:步骤11,获取图结构信息、节点属性、伪标签、种子集、需要扩展节点个数K;所述种子集是在数据集中相同类别的节点中取一定比例的节点得到;其中,图结构信息包括图节点ID、边的连接信息;给定需要扩展的节点个数K;给定节点伪标签,初始伪标签矩阵为n
×
n的单位矩阵;步骤12,将初始伪标签矩阵与邻接矩阵进行循环迭代处理,得到新的伪标签矩阵PL;步骤13,对E步进行预训练:输入图结构信息和节点属性、伪标签矩阵PL,对GNN模型进行预训练;得到预训练后的GNN模型和未知标签节点的预测标签;步骤14,进行第一次M步训练:输入图结构信息、伪标签矩阵PL,并将未知标签节点的预测标签作为损失函数的真实标签,训练GNN模型得到第一次M步训练后的训练模型及预测标签;进行第一次E步训练:将第一次M步训练后的预测标签作为第一次E步训练的损失函数的真实标签,并输入图结构信息、节点特征,对预训练后的GNN模型进行E步训练,得到第一次E步训练后的预测标签;进行第二次M步训练:将第一次E步训练后的预测标签作为第二次M步训练的损失函数的真实标签,并输入图结构信息、伪标签矩阵PL,对第一次M步训练后的模型进行第二次M步训练,得到第二次M步训练的预测标签,以及伪标签的注意力系数的集合,此处的伪标签的注意力系数在GNN模型中第二层GAT模型中获取;进行第二次E步训练:将第二次M步训练后的预测标签作为第二次E步训练的损失函数的真实标签,输入图结构信息、节点特征,对第一次E步训练后的模型进行第二次E步训练,得到第二次E步训练的节点特征的注意力系数的集合,此处的节点特征的注意力系数可在GNN模型中第二层GAT模型中获取。3.如权利要求1所述的基于图神经网络的种子集扩展方法,其特征在于,所述步骤12具体包括如下操作:第一步:将初始伪标签矩阵作为preds矩阵;第二步:使用当前的preds矩阵与邻接矩阵相乘得到的结果替换当前的preds矩阵;然后,使用当前的preds矩阵与伪标签矩阵相加得到的结果替换当前的preds矩阵;第三步:将第二步输出的当前的preds矩阵中元素值大于1的值设置为1后,将得到的矩阵作为当前的preds矩阵;
第四步:重复执行第二步和第三步,共执行2次(即步骤12中第二步和第三步共执行3次),将最后一次输出的preds矩阵赋值给伪标签矩阵,得到新的伪标签矩阵PL。4.如权利要求1所述的基于图神经网络的种子集扩展方法,其特征在于,所述步骤13和步骤14中的GNN模型中,第一层为GAT模型,第二层也为GAT模型,第三层为全连接层。5.如权利要求1所述的基于图神经网络的种子集扩展方法,其特征在于,所述步骤2具体包括如下子步骤:步骤21,利用公式(11)计算得到节点i与邻居节点j的关于节点特征和伪标签的注意力系数均值E
ij
:步骤22,利用公式(12)计算得到节点i与所有邻居节点关于特征和伪标签的注意力系数均值总和SE
i
:步骤23,利用公式(13)计算得到节点i游走到邻居节点j的概率系数;并将所有节点与其邻居节点的概率系数根据图的邻接矩阵组成概率矩阵其邻居节点的概率系数根据图的邻接矩阵组成概率矩阵6.如权利要求1所述的基于图神经网络的种子集扩展方法,其特征在于,所述步骤3具体包括如下子步骤:步骤31,对步骤2得到的概率矩阵A作为概率转移矩阵,采用个性化PageRank算法进行处理得到每个节点的Pr值;步骤32,对得到的种子集以外的每个节点Pr进行降序排序,取出Pr值最高的K/T个节点;K为需要扩展的...
【专利技术属性】
技术研发人员:梁春泉,王紫,陈航,赵航,
申请(专利权)人:西北农林科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。