一种生成多关系图中节点的表示向量的方法技术

技术编号:29791963 阅读:24 留言:0更新日期:2021-08-24 18:11
本发明专利技术实施例提供了一种生成多关系图中节点的表示向量的方法,本发明专利技术经过多关系图分解和编码后得到的编码后的单一关系子图,不仅可以降低预测难度,也可避免多关系图下潜在关联预测收到过多干扰,导致关联预测不够准确;然后潜在关联预测可以得到补充了潜在关联后的关系子图,能够实现挖掘多关系图中每一种关系情况中潜在关联信息,再聚合为挖掘了不同的潜在关系的多关系的特征聚合图,基于特征聚合图提取节点的表示向量,从而更好地为后续任务提供准确基础。

【技术实现步骤摘要】
一种生成多关系图中节点的表示向量的方法
本专利技术涉及神经网络领域,具体来说涉及基于多关系型图提取节点的表示向量的领域,更具体地说,涉及一种生成多关系图中节点的表示向量的方法。
技术介绍
随着互联网技术的发展,不论是数据规模还是数据种类都呈现指数级增长。在知识爆炸的今天,人们为互联网构建大量结构化的知识库,这种知识库会将数据依据彼此间的关联性进行分层分类管理,使资料的储存、管理及应用更加系统化。图结构数据(Graph)在知识库的存储、查找、应用等不同过程扮演着重要的角色。知识图谱(KnowledgeGraph)属于一种重要的图结构数据,其将知识存储为三元组的形式,一个三元组由头实体(HeadEntity)、关系(Relation)和尾实体(TailEntity)三部分组成。如果两个实体间存在着多种关系,则一般可以称此类图结构为多关系型图(Multi-relationalGraph)或者多关系图。知识图谱的表示学习通过相关知识图谱嵌入方法(KnowledgeGraphEmbeddingTechniques)将实体或关系投影到低维向量空间,学习到与任务相关的头实体、关系、尾实体的表示向量。此类方法可以高效地计算实体和关系之间的语义关联,对知识库、知识推理及应用有着重要的意义。知识图谱表示学习能够在许多方向有着很好的应用,例如实体间相似度的计算、知识图谱的补全、关系抽取、自动问答等多种任务。图结构数据与图片分类中的图不相同。图片通常属于欧几里得空间(EuclideanSpace)数据,也被称为网格状(Grid)数据,而图结构数据属于非欧几里得空间(Non-EuclideanSpace)。欧氏空间数据具有规整的排列特点,非边缘区域的节点具有相同的邻居个数与排列方式,通过二维卷积操作可以很好的提取节点和其邻居的局部特征。以上这些特性在卷积神经网络(ConvolutionalNeuralNetworks,CNN)中有着体现,卷积神经网络可以很好地借助卷积操作提取在同一幅图片中不同区域,或多幅图片间共享的局部特征和全局特征,并且通过卷积核的参数共享减少神经网络的参数量。另一方面,卷积操作本身为图片增加了一定的先验知识,如人脸检测任务中,一张人脸往往是在图片中集中的一块区域。这些特性带来了参数共享、平移不变性和空间坐标一致性,这也是卷积神经网络适用于图片数据的部分原因。图像的卷积神经网络不能够直接的应用于图结构数据上,因为无法直接的定义图上的卷积操作。近年来,随着图神经网络(GraphNeuralNetworks,GNN)的发展,图上的卷积神经网络开始的得到广泛应用。这些方法基于图谱域卷积将图片的卷积引入图结构数据中,基于图卷积网络的表示学习方法开始出现;如专利申请文献CN112529115A提出一种基于图神经网络的对象聚类方法和系统。此外,也有许多基于图神经网络的多关系型图表示学习方法通常基于多关系型图卷积网络模型(R-GCN);如专利申请文献CN112417063A提出了一种基于异构关系网络的相容功能项推荐方法,利用实体之间存在的相似关系和相容关系,构建异构关系网络,之后利用网络表示学习的相关方法将初期构建的异构关系网络转换为向量化表示,实现下游应用节点分类;专利申请文献CN112417314A通过构建基于自杀风险个体知识图谱,以及建立双层注意力机制,有效解决了社交网络中对自杀意念分析存在数据不易获取以及数据稀少的问题。但是,常见多关系型图卷积网络模型在图神经网络模型中使用的图结构仅考虑每种关系下直接相连的节点,没有充分考虑潜在的节点间关联。
技术实现思路
因此,本专利技术的目的在于克服上述现有技术的缺陷,提供一种生成多关系图中节点的表示向量的方法。本专利技术的目的是通过以下技术方案实现的:根据本专利技术的第一方面,提供一种生成多关系图中节点的表示向量的方法,包括步骤:A1、获取从多关系图中分解出的多个单一关系子图并对每个单一关系子图分别编码,得到编码后的多个单一关系子图;A2、对每个编码后的单一关系子图进行潜在关联预测并针对可能具有的潜在关联构建边,得到多个补充潜在关联后的关系子图;A3、对多个补充潜在关联后的关系子图进行聚合,得到基于潜在关联的特征聚合图;A4、从所述基于潜在关联的特征聚合图中提取每个节点的表示向量。在本专利技术的一些实施中,步骤A1包括:A11、获取根据多关系图的关系种类中每一种关系分别从多关系图中提取的仅具有该关系的单一关系子图;A12、基于对不同的单一关系子图使用与之对应的不同编码器进行编码,得到编码后的多个单一关系子图。在本专利技术的一些实施中,步骤A2包括:A21、根据每个编码后的单一关系子图中的现有连接关系为每个节点获取二阶可达邻居并建立两跳的边;A22、根据两跳的边所连接节点的节点特征使用边卷积算法生成两跳的边的第一特征;A22、针对两跳的边基于第一特征使用潜在关联预测算法预测其对应的潜在关联是否存在,保留可能具有的潜在关联对应的边。在本专利技术的一些实施中,潜在关联预测算法是耿贝尔柔性最大值算法,通过输出的边的第二特征的值判断对应的两跳的边是否存在,其中,边的第二特征表示为:其中,表示输出的边ei,j的第二特征,是根据独立同分布的标准耿贝尔分布为边ei,j生成的随机变量,为0~1的均匀分布,SoftMax(·)代表柔性最大值函数,log(·)表示取对数;表示输入的边ei,j的第一特征,其中,·|·代表向量拼接操作,W是一个仿射变换矩阵,表示节点i的第二特征,表示节点j的第二特征,边的第二特征为第一数值时表示该边存在,边的第二特征为第二数值时表示该边不存在。在本专利技术的一些实施中,步骤A3包括;A31、使用节点特征聚合算法对多个补充潜在关联后的关系子图中的节点进行聚合,其中,节点特征聚合算法基于长短记忆神经网络根据不同补充潜在关联后的关系子图中的节点特征进行聚合,得到每个节点的聚合特征;A32、使用连接关系聚合算法对多个补充潜在关联后的关系子图中的连接关系进行聚合;A33、基于聚合后的节点和聚合后的连接关系得到基于潜在关联的特征聚合图。在本专利技术的一些实施中,所述节点特征聚合算法对应的公式表示为:其中,Xaggregate表示节点的聚合特征的集合,表示连接关系rk对应的单一关系子图中节点的第二特征集,表示用单层双向LSTM网络进行特征聚合。在本专利技术的一些实施中,步骤A4包括:A41、获取所述基于潜在关联的特征聚合图,包括节点、节点间连接关系、关联关系,其中,节点的特征采用聚合特征;A42、根据图神经网络从所述特征聚合图中提取每个节点的表示向量。根据本专利技术的第二方面,提供一种用于实现第一方面的方法的多关系图中节点的表示向量生成系统,包括:多个编码器,用于获取从多关系图中分解出的多个单一关系子图并对每个单一关系子图分别编码,得到编码后的多个单一关系子图,每个编码器对一种单一关系子图进行编码;潜在关联预测模块,用于对每个编码后的单一关系子图进行潜在关联预测并针对可能具有的潜在关联构建边,得到多个补充潜在关联后的关系子图本文档来自技高网
...

【技术保护点】
1.一种生成多关系图中节点的表示向量的方法,其特征在于,包括步骤:/nA1、获取从多关系图中分解出的多个单一关系子图并对每个单一关系子图分别编码,得到编码后的多个单一关系子图;/nA2、对每个编码后的单一关系子图进行潜在关联预测并针对可能具有的潜在关联构建边,得到多个补充潜在关联后的关系子图;/nA3、对多个补充潜在关联后的关系子图进行聚合,得到基于潜在关联的特征聚合图;/nA4、从所述基于潜在关联的特征聚合图中提取每个节点的表示向量。/n

【技术特征摘要】
1.一种生成多关系图中节点的表示向量的方法,其特征在于,包括步骤:
A1、获取从多关系图中分解出的多个单一关系子图并对每个单一关系子图分别编码,得到编码后的多个单一关系子图;
A2、对每个编码后的单一关系子图进行潜在关联预测并针对可能具有的潜在关联构建边,得到多个补充潜在关联后的关系子图;
A3、对多个补充潜在关联后的关系子图进行聚合,得到基于潜在关联的特征聚合图;
A4、从所述基于潜在关联的特征聚合图中提取每个节点的表示向量。


2.根据权利要求1所述的方法,其特征在于,所述步骤A1包括:
A11、获取根据多关系图的关系种类中每一种关系分别从多关系图中提取的仅具有该关系的单一关系子图;
A12、基于对不同的单一关系子图使用与之对应的不同编码器进行编码,得到编码后的多个单一关系子图。


3.根据权利要求2所述的方法,其特征在于,所述步骤A2包括:
A21、根据每个编码后的单一关系子图中的现有连接关系为每个节点获取二阶可达邻居并建立两跳的边;
A22、根据两跳的边所连接节点的节点特征使用边卷积算法生成两跳的边的第一特征;
A22、针对两跳的边基于第一特征使用潜在关联预测算法预测其对应的潜在关联是否存在,保留可能具有的潜在关联对应的边。


4.根据权利要求3所述的方法,其特征在于,所述潜在关联预测算法是耿贝尔柔性最大值算法,通过输出的边的第二特征的值判断对应的两跳的边是否存在,其中,边的第二特征表示为:



其中,表示输出的边ei,j的第二特征,是根据独立同分布的标准耿贝尔分布为边ei,j生成的随机变量,为0~1的均匀分布,SoftMax(·)代表柔性最大值函数,log(·)表示取对数;表示输入的边ei,j的第一特征,其中,·|·代表向量拼接操作,W是一个仿射变换矩阵,表示节点i的第二特征,表示节点j的第二特征,边的第二特征为第一数值时表示该边存在,边的第二特征为第二数值时表示该边不存在。


5.根据权利要求4所述的方法,其特征在于,所述步骤A3包括;
A31、使用节点特征聚合算法对多个补充潜在关联后的关系子图中的节点进行聚合,其中,节点特征聚合算法基于长短记忆神经网络根据不同补充潜在关联后的关系子图中的节点特征进行聚合,得到每个节点的聚合特征;
A32、使用连接关系聚合算法对多个补充潜在关联后的关系子图中的连接关系进行聚合;
A33、基于聚合后的节点和聚合后的连接关系得到基于潜在关联的特征聚合图。
...

【专利技术属性】
技术研发人员:陈益强黄武亮蒋鑫龙吴启晨
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1