一种基于超图神经网络的关键结点集发现方法技术

技术编号:32570992 阅读:10 留言:0更新日期:2022-03-09 16:58
本发明专利技术公开了一种在复杂大规模图数据集上使用超图进行数据建模、以及基于超图神经网络进行关键结点集发现的方法,包括以下步骤:S1、根据原始图数据构建多模态超图;S2、在超图结构数据集上进行k

【技术实现步骤摘要】
一种基于超图神经网络的关键结点集发现方法


[0001]本专利技术涉及图数据挖掘
,更具体的说是涉及种基于超图神经网络的关键结点集发现方法。

技术介绍

[0002]在图类型的网络(例如社交网络,交通网络,文章引用网络)中,关键结点的存在维系着整个网络的结构,对于结点之间的互相交流有着十分重要的影响。因此找到这些关键的结点是非常有必要的。在传统普通图结构中,一条边只能连接两个顶点,只能表示顶点间的二元关系。然而在超图中,允许一条超边连接两个及两个以上的顶点,可以表示多元关系,能够更好的对现实世界进行建模。
[0003]但是,在超图数据中定义结点的重要性是一个问题。现有的技术大多首先是针对图定义一种内聚子图结构,如k

core,并设计高效的算法进行计算。k

core模型要求子图中每个顶点的度大于等于k,通过迭代删除度不符合要求的顶点,可以在线性时间复杂度下计算出结果,具有很高的计算效率。
[0004]获得k

core之后,定义结点的重要性为当该结点离开k

core后其他跟随该结点离开的结点(follower)数量。因此在超图数据集上进行关键结点集发现的问题可抽象为在k

core子图中找到结点集U,其中U的大小为b,使得当U中所有结点从k

core中删除后,跟随这些结点一同删除的其他结点的数量最大。这个问题是一个NP

hard的问题。
[0005]现有的技术使用贪心算法获取近似最优解,贪心算法的每一步都会选择在当前所有结点中follower数量最多的结点u,将其加入结果集U中,直到U的大小等于想要搜寻的关键结点个数算法停止。由于在贪心算法中并没有考虑图的结构特征以及组合复杂性,因此只能保证获取局部最优解而不能保证获取全局最优解。
[0006]因此,如何有效利用超图结构并且考虑大规模数据集上组合优化复杂性过高的问题,能够更加灵活、更加准确的建模现实生活中大量存在的图数据而不存在普通图建模造成的数据损失,是本领域技术人员亟需解决的问题。

技术实现思路

[0007]有鉴于此,本专利技术提供了一种在复杂大规模图数据集上使用超图进行数据建模、以及基于超图神经网络进行关键结点集发现的方法,以克服普通贪心算法无法利用图结构以及在大规模数据集上组合优化复杂性过高的问题。
[0008]为了实现上述目的,本专利技术采用如下技术方案:
[0009]一种基于超图神经网络的关键结点集发现方法,包括以下步骤:
[0010]S1、基于原始数据集构建多模态超图G,G=(V,E,W),其中V代表顶点集,E代表超边集,W代表超边的权重;
[0011]S2、在超图结构数据集上进行k

core子图搜寻;超图上k

core表示超图中的一个极大子图,其中每一个结点的度(该结点所包含的超边条数)大于等于k;在超图上进行k

core图的搜寻可以在与超图的大小(结点数量多少)成线性比例的时间复杂度内完成;
[0012]S3、计算超图k

core中任意结点的v重要性Cr(v),Cr(v)表示在超图k

core中将一个结点v删除后整个k

core结点减少的个数;
[0013]S4、在k

core子图上进行结点的采样产生训练数据集;
[0014]S5、将采样产生的训练数据作为输入,在超图神经网络(HGNN)基础上融合自注意力机制进行训练;
[0015]S6、在给定图G,k

core值k以及结点集大小b等参数下,使用训练完成的网络预测在给定部分结果集U后,剩下所有结点作为关键结点加入结果集U的概率P;
[0016]S7、找到图数据上的关键结点集U
max
,U
max
=argmax
U
Cr(U)。
[0017]优选的,所述步骤S1具体包括:
[0018]S11、基于原始数据集的各个模态构建多个超图G1,G2,

G
n
,G
n
=(V
n
,E
n
,W
n
);其中V
n
代表第n个模态的顶点集,E
n
代表超边集,W
n
代表超边的权重;
[0019]S12、将超图G
n
表示为|V
n
|
×
|E
n
|关联矩阵H
n
的形式,其中
[0020][0021]S13、将超图G1,G2,

G
n
对应的关联矩阵H1,H2,

H
n
进行连接,得到的H对应多模态的超图G。
[0022]优选的,所述步骤S2具体包括:
[0023]S21、给定超图G=(V,E,W),计算V中所有结点v的度d(v);
[0024]S22、赋值k为1;
[0025]S23、判断超图G是否为空,若为空跳转至S211;
[0026]S24、判断是否存在v∈V,使得d(v)≤k;若不存在,跳转至S210;
[0027]S25、遍历E(v)中的每条边e;
[0028]S26、对于e中的所有结点u,赋值d(u)为d(u)

1;
[0029]S27、将e从E中删除,跳转S25直至遍历完E(V)中的所有边;
[0030]S28、将v从V中删除;
[0031]S29、赋值core(v)为k,跳转S24直至遍历完所有顶点v;
[0032]S210、赋值k为k+1,跳转S23直至超图G为空;
[0033]S211、k

core为core(v)大于等于k的所有结点v以及结点之间的边所构成的图;
[0034]S212、返回k

core图C
k
(G)。
[0035]优选的,所述步骤S3具体包括:
[0036]S31、给定超图G=(V,E,W),遍历V中所有结点v;
[0037]S32、赋值G
copy
为G,将结点v从G
copy
中删除得到G';
[0038]S33、将G'输入步骤S2得到k

core图C
k
(G');
[0039]S34、计算Cr(v),Cr(v)=C
k
(G)\(C
k
(G')∪v);
[0040]S35、跳转S31,直至遍历完V中所有结点v;
[0041]S36、返回所有结点的Cr(v)。
[0042]优选的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于超图神经网络的关键结点集发现方法,其特征在于,包括以下步骤:S1、基于原始数据集构建多模态超图G,G=(V,E,W),其中V代表顶点集,E代表超边集,W代表超边的权重;S2、在超图结构数据集上进行k

core子图搜寻;S3、计算超图k

core中任意结点v的重要性Cr(v),Cr(v)定义为在超图k

core中将一个结点v删除后整个k

core结点减少的个数;S4、在k

core子图上进行结点的采样产生训练数据集;S5、将采样产生的训练数据作为输入,在超图神经网络(HGNN)基础上融合自注意力机制进行训练;S6、在给定图G,k

core值k以及结点集大小b等参数下,使用训练完成的网络预测在给定部分关键结点集U后,剩下所有结点作为关键结点加入结果集U的概率P;S7、找到图数据上的关键结点集U
max
,U
max
=argmax
U
Cr(U)。2.根据权利要求1所述的一种基于超图神经网络的关键结点集发现方法,其特征在于,所述步骤S1具体包括:S11、基于原始数据集的各个模态构建多个超图G1,G2,

G
n
,G
n
=(V
n
,E
n
,W
n
);其中V
n
代表第n个模态的顶点集,E
n
代表超边集,W
n
代表超边的权重;S12、将超图G
n
表示为|V
n
|
×
|E
n
|关联矩阵H
n
的形式,其中S13、将超图G1,G2,

G
n
对应的关联矩阵H1,H2,

H
n
进行连接,得到的H对应多模态的超图G。3.根据权利要求1所述的一种基于超图神经网络的关键结点集发现方法,其特征在于,所述步骤S2具体包括:S21、计算V中所有结点v的度d(v);S22、赋值k为1;S23、判断超图G是否为空,若为空跳转至S211;S24、判断是否存在v∈V,使得d(v)≤k;若不存在,跳转至S210;S25、遍历E(v)中的每条边e;S26、对于e中的所有结点u,赋值d(u)为d(u)

1;S27、将e从E中删除,跳转S25直至遍历完E(V)中的所有边;S28、将v从V中删除;S29、赋值core(v)为k,跳转S24直至遍历完所有顶点v;S210、赋值k为k+1,跳转S23直至超图G为空;S211、k

core为core(v)大于等于k的所有结点v以及结点之间的边所构成的图;S212、返回k

core图C
k
(G)。4.根据权利要求1或3所述的一种基于超图神经网络的关键结点集发现...

【专利技术属性】
技术研发人员:苗壮张志威王国仁袁野
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1