System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于信息补全的异构图嵌入方法技术_技高网
当前位置: 首页 > 专利查询>江南大学专利>正文

基于信息补全的异构图嵌入方法技术

技术编号:43405589 阅读:14 留言:0更新日期:2024-11-22 17:44
本发明专利技术涉及图数据挖掘技术领域,具体指一种基于信息补全的异构图嵌入方法,包括:对目标节点进行特征聚合,得到目标节点的初步补全特征向量,并基于异构图中节点之间关系,学习节点之间相似度,得到目标节点在每个关系中的目标邻接矩阵;循环更新节点特征,得到节点的目标特征向量;基于目标节点在每个关系中的目标邻接矩阵以及节点的目标特征向量,对目标节点进行邻域转移,得到目标节点的完整补全特征向量,并采用注意力机制聚合,得到目标节点的最终节点表示。本发明专利技术补全了目标节点缺失的属性特征,完善了目标节点的邻域信息,使得关系连接较少的目标节点能够学习到更多信息,从而得到更加完整的节点特征表示,进而提升下游任务性能。

【技术实现步骤摘要】

本专利技术涉及图数据挖掘,尤其是指一种基于信息补全的异构图嵌入方法


技术介绍

1、异构图作为图数据结构的一种,其节点和边类型多样,且携带的信息复杂、丰富,给数据分析带来了极大的挑战,同时也使得分析和挖掘异构图的信息成为学术界的热门课题;在众多的图挖掘方法中,图嵌入方法脱颖而出,其能够将高维网络中的数据投影到低维连续空间中,同时捕获网络的内在信息,相较于其他的图挖掘方法,其性能具有一定的优势。

2、在使用图嵌入方法捕获网络的邻域信息时,会利用节点属性中丰富的语义信息来显著增强节点的表示能力,从而在各种图任务中取得卓越的性能;然而,在现实世界场景中,异构图的节点可以划分为两类:一类是属性完备的节点,其拥有完整的属性集;一类是属性缺失的节点;由于基于属性特征聚合的模型对节点属性高度敏感,若直接在存在属性缺失的节点的异构图上应用图嵌入方法,会严重影响图嵌入方法中的基于属性特征聚合的模型的性能,导致基于属性特征聚合的模型无法准确捕获节点的特征;为解决这个问题,现有技术在处理这类属性缺失的节点时,只是简单地采用独热编码的方式或借助其他节点信息进行计算填充,这样得到的节点特征往往无法准确地反映节点的真实特性,容易引入噪声信息,影响模型的性能表现。

3、目前,针对长尾问题在同构图中已经有了很成熟的研究,但是同构图中对长尾问题的解决方法并不能直接适用于异构图中;现有技术中关注到异构图中不同节点的关系连接数量的不平衡性,从而考虑到针对异构图中关系连接较少的节点,模型学习到的节点表示存在不足的研究较少;在异构图中对于关系连接较多的节点(通常被称为头节点),其邻域信息相对丰富,可以有效地聚合更多的特征;而对于关系连接较少的节点(通常被称为尾节点),其邻域信息相对匮乏,导致模型无法充分学习到节点表示,从而降低下游任务的性能;为了解决上述问题,现有技术利用邻接矩阵进行关系补全,在一定程度上缓解了异构图中的长尾问题,但是简单地增加尾节点的连接可能会引入带有偏见或者代表性不足的小邻域,依旧会导致模型性能下降,使得模型不能够很好地学习到节点的特征表示,从而影响下游任务的性能,例如,在节点分类中导致分类不精准、在节点聚类任务中导致节点信息聚合的效果不佳、在链接预测中不能准确地生成节点表示。


技术实现思路

1、为此,本专利技术所要解决的技术问题在于克服现有技术中对于缺失属性的节点只采取了简单的填充操作,容易引入噪声,导致模型性能损失的问题;利用邻接矩阵进行关系补全的方法不能很好地解决异构图中存在的长尾问题,依旧会导致模型性能下降,进而降低了下游任务的性能的问题。

2、为解决上述技术问题,本专利技术提供了一种基于信息补全的异构图嵌入方法,包括:

3、一种基于信息补全的异构图嵌入方法,其特征在于,包括:

4、基于异构图,确定并构建目标节点集;将异构图中所有节点的初始特征向量映射到统一的共享语义空间中,得到所有节点的投影特征向量;

5、依据当前目标节点与其各个邻居节点之间的属性特征相似度的大小排序,筛选当前目标节点的前k个邻居节点;对当前目标节点及其前k个邻居节点的投影特征向量进行加权平均,得到当前目标节点的初步补全特征向量;

6、基于各个目标节点的初步补全特征向量、各个目标节点的各个邻居节点的投影特征向量,学习异构图中节点之间的相似度,并得到异构图中每种关系的关系邻接图;将每种关系的初始邻接矩阵与关系邻接图进行聚合,得到每种关系的目标邻接矩阵,从而得到当前目标节点在当前关系中的目标邻接矩阵;

7、基于异构图中的所有节点,设置初始轮次各个节点对应的自适应权重矩阵以及训练次数,基于上一轮次当前节点的自适应特征向量及当前轮次当前节点对应的自适应权重矩阵,得到当前轮次当前节点的自适应特征向量;直至达到预设的训练次数,得到各个节点的目标特征向量;其中,当训练轮次为1时,上一轮次当前目标节点的自适应特征向量为其初步补全特征向量,上一轮次当前目标节点的每个邻居节点的自适应特征向量为其投影特征向量;

8、基于当前目标节点在当前关系中的目标邻接矩阵,对当前目标节点在当前关系中的各个邻居节点的目标特征向量进行归一化操作,得到当前目标节点在当前关系中的各个邻居节点的特征嵌入向量;

9、对当前目标节点的目标特征向量、当前目标节点在当前关系中的各个邻居节点的特征嵌入向量进行加权平均,得到当前目标节点在当前关系中的邻域嵌入向量作为当前目标节点在当前关系中的实际邻域;设置当前目标节点在当前关系中的邻域转移向量,定义当前目标节点在当前关系中的理想邻域,并确定当前目标节点在当前关系中的理想邻域与实际邻域的差值;利用缩放和转移变换,最小化当前目标节点在当前关系中的理想邻域与实际邻域的差值,得到当前目标节点在当前关系中的邻域转移向量,依次得到当前目标节点在每个关系中的邻域转移向量;基于当前目标节点及其各个邻居节点的目标特征向量、当前目标节点在每个关系中的邻域转移向量,得到当前目标节点的完整补全特征向量;

10、基于各个目标节点的完整补全特征向量,以及各个目标节点的各个邻居节点的目标特征向量,计算异构图中节点之间的关系强度,并采用注意力机制聚合,获得各个目标节点的上下文表示,并进行残差连接,得到各个目标节点的最终节点表示。

11、优选地,所述基于异构图中的所有节点,设置初始轮次各个节点对应的自适应权重矩阵以及训练次数,基于上一轮次当前节点的自适应特征向量及当前轮次当前节点对应的自适应权重矩阵,得到当前轮次当前节点的自适应特征向量;直至达到预设的训练次数,得到各个节点的目标特征向量;其中,当训练轮次为1时,上一轮次当前目标节点的自适应特征向量为其初步补全特征向量,上一轮次当前目标节点的每个邻居节点的自适应特征向量为其投影特征向量包括:

12、基于(p-1)轮次目标节点v的自适应特征向量以及p轮次目标节点v对应的自适应权重矩阵得到p轮次目标节点v的自适应特征向量,其表达式为:

13、

14、其中,表示p轮次目标节点v的自适应特征向量;表示(p-1)轮次目标节点v的自适应特征向量,在初始轮次中,即当p=1时,表示p轮次目标节点v对应的自适应权重矩阵;

15、基于(p-1)轮次目标节点v的任一邻居节点u的自适应特征向量以及p轮次目标节点v的邻居节点u对应的自适应权重矩阵得到p轮次目标节点v的邻居节点u的自适应特征向量,其表达式为:

16、

17、其中,表示p轮次目标节点v的邻居节点u的自适应特征向量;表示(p-1)轮次目标节点v的邻居节点u的自适应特征向量,在初始轮次中,即当p=1时,表示p轮次目标节点v的邻居节点u的自适应权重矩阵;

18、直至达到预设的训练次数,得到目标节点v的目标特征向量h′v,目标节点v的邻居节点u的目标特征向量h′u。

19、优选地,所述基于当前目标节点在当前关系中的目标邻接矩阵,对当前目标节点在当前关系中的各个邻居节点的目标特征向量进行归一化操本文档来自技高网...

【技术保护点】

1.一种基于信息补全的异构图嵌入方法,其特征在于,包括:

2.根据权利要求1所述的一种基于信息补全的异构图嵌入方法,其特征在于,所述基于异构图中的所有节点,设置初始轮次各个节点对应的自适应权重矩阵以及训练次数,基于上一轮次当前节点的自适应特征向量及当前轮次当前节点对应的自适应权重矩阵,得到当前轮次当前节点的自适应特征向量;直至达到预设的训练次数,得到各个节点的目标特征向量;其中,当训练轮次为1时,上一轮次当前目标节点的自适应特征向量为其初步补全特征向量,上一轮次当前目标节点的每个邻居节点的自适应特征向量为其投影特征向量包括:

3.根据权利要求1所述的一种基于信息补全的异构图嵌入方法,其特征在于,所述基于当前目标节点在当前关系中的目标邻接矩阵,对当前目标节点在当前关系中的各个邻居节点的目标特征向量进行归一化操作,得到当前目标节点在当前关系中的各个邻居节点的特征嵌入向量包括:

4.根据权利要求1所述的一种基于信息补全的异构图嵌入方法,其特征在于,所述对当前目标节点的目标特征向量、当前目标节点在当前关系中的各个邻居节点的特征嵌入向量进行加权平均,得到当前目标节点在当前关系中的邻域嵌入向量作为当前目标节点在当前关系中的实际邻域;设置当前目标节点在当前关系中的邻域转移向量,定义当前目标节点在当前关系中的理想邻域,并确定当前目标节点在当前关系中的理想邻域与实际邻域的差值包括:

5.根据权利要求1所述的一种基于信息补全的异构图嵌入方法,其特征在于,所述利用缩放和转移变换,最小化当前目标节点在当前关系中的理想邻域与实际邻域的差值,得到当前目标节点在当前关系中的邻域转移向量,依次得到当前目标节点在每个关系中的邻域转移向量包括:

6.根据权利要求1所述的一种基于信息补全的异构图嵌入方法,其特征在于,目标节点v的完整补全特征向量F[v]的表达式为:

7.根据权利要求1所述的一种基于信息补全的异构图嵌入方法,其特征在于,所述依据当前目标节点与其各个邻居节点之间的属性特征相似度的大小排序,筛选当前目标节点的前k个邻居节点包括:

8.根据权利要求1所述的一种基于信息补全的异构图嵌入方法,其特征在于,所述对当前目标节点及其前k个邻居节点的投影特征向量进行加权平均,得到当前目标节点的初步补全特征向量包括:

9.根据权利要求1所述的一种基于信息补全的异构图嵌入方法,其特征在于,所述基于各个目标节点的初步补全特征向量、各个目标节点的各个邻居节点的投影特征向量,学习异构图中节点之间的相似度,并得到异构图中每种关系的关系邻接图;将每种关系的初始邻接矩阵与关系邻接图进行聚合,得到每种关系的目标邻接矩阵,从而得到当前目标节点在当前关系中的目标邻接矩阵包括:

10.根据权利要求1所述的一种基于信息补全的异构图嵌入方法,其特征在于,所述基于各个目标节点的完整补全特征向量,以及各个目标节点的各个邻居节点的目标特征向量,计算异构图中节点之间的关系强度,并采用注意力机制聚合,获得各个目标节点的上下文表示,并进行残差连接,得到各个目标节点的最终节点表示包括:

...

【技术特征摘要】

1.一种基于信息补全的异构图嵌入方法,其特征在于,包括:

2.根据权利要求1所述的一种基于信息补全的异构图嵌入方法,其特征在于,所述基于异构图中的所有节点,设置初始轮次各个节点对应的自适应权重矩阵以及训练次数,基于上一轮次当前节点的自适应特征向量及当前轮次当前节点对应的自适应权重矩阵,得到当前轮次当前节点的自适应特征向量;直至达到预设的训练次数,得到各个节点的目标特征向量;其中,当训练轮次为1时,上一轮次当前目标节点的自适应特征向量为其初步补全特征向量,上一轮次当前目标节点的每个邻居节点的自适应特征向量为其投影特征向量包括:

3.根据权利要求1所述的一种基于信息补全的异构图嵌入方法,其特征在于,所述基于当前目标节点在当前关系中的目标邻接矩阵,对当前目标节点在当前关系中的各个邻居节点的目标特征向量进行归一化操作,得到当前目标节点在当前关系中的各个邻居节点的特征嵌入向量包括:

4.根据权利要求1所述的一种基于信息补全的异构图嵌入方法,其特征在于,所述对当前目标节点的目标特征向量、当前目标节点在当前关系中的各个邻居节点的特征嵌入向量进行加权平均,得到当前目标节点在当前关系中的邻域嵌入向量作为当前目标节点在当前关系中的实际邻域;设置当前目标节点在当前关系中的邻域转移向量,定义当前目标节点在当前关系中的理想邻域,并确定当前目标节点在当前关系中的理想邻域与实际邻域的差值包括:

5.根据权利要求1所述的一种基于信息补全的异构图嵌入方法,其特征在于,所述利用缩放和转移变换,最...

【专利技术属性】
技术研发人员:詹千熠李颖赵木子谢振平刘渊
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1