一种适于多模态知识图谱的实体对齐方法及设备技术

技术编号:27194904 阅读:85 留言:0更新日期:2021-01-31 11:46
本发明专利技术公开了一种适于多模态知识图谱的实体对齐方法及设备,所述方法包括以下步骤:获取两个多模态知识图谱的数据;将各个模态的数据投影到双曲空间;使用双曲图卷积神经网络学习实体的结构特征和视觉特征;融合多模态特征;以双曲空间中距离表示实体相似度;根据相似度进行实体识别对齐。本发明专利技术方法将欧几里得表示扩展到双曲面流形,并采用双曲图卷积网络学习实体的结构表示;关于视觉信息,使用densenet模型生成图像嵌入,并使用双曲图卷积网络将其嵌入到双曲线空间中;最后,在双曲空间中合并结构嵌入和图像嵌入以预测潜在的对齐方式,特别适用于多模态知识图谱的实体对齐和融合中。和融合中。和融合中。

【技术实现步骤摘要】
一种适于多模态知识图谱的实体对齐方法及设备


[0001]本专利技术涉及自然语言处理中的知识图谱
,尤其涉及一种适于多模态知识图谱的实体对齐方法及设备。

技术介绍

[0002]近年来,知识图谱(KG)已成为以RDF(Resource Description Framework,资源描述框架)三元组的形式表示事实知识的流行数据结构,它可以促进一系列下游的实际应用,例如问题解答,信息提取等。当前,现存大量的常见的KG(例如,DBpedia,YAGO,Google的Knowledge Vault)以及特定于某些领域的KG(例如医药和分子KGs)。同时,将多媒体信息整合到KG中的趋势正在增长,以支持涉及多种模式下数据交互的跨模式任务,例如图像和视频检索,视频摘要,视觉实体消歧和视觉问题解答等。为此,最近已经建造了一些多模态知识图谱(MMKG)。
[0003]在这项工作中,在不失一般性的前提下考虑了MMKG具有两种模式,即KG结构信息和视觉信息。但是,现有的MMKG通常来自有限的数据源,因此可能会受到知识域覆盖率较低的困扰。为了提高这些MMKG的覆盖范围,一种可行的方法是整合其他MMKG的有用知识。特别是,在不同的KG中识别等效实体是合并MMKG之间知识的关键步骤,因为实体是连接这些异构KG的锚节点。此过程也称为多模式实体对齐(MMEA)。
[0004]MMEA是一项艰巨的任务,因为它需要对多模态信息进行建模和集成。利用KG结构信息,现有实体对齐(EA)接近可以直接用于为MMEA生成实体结构嵌入。这些方法通常利用基于TransE或基于图卷积网络GCN的模型来学习各个KG的实体表示,然后使用种子实体对表示进行训练,以实现对潜在对齐的实体对的预测。然而,所有这些方法都在欧几里得空间中学习实体表示,这在嵌入具有无标度或层次结构的真实世界图时会导致较大的失真。
[0005]关于视觉信息,已经利用VGG(Visual Geometry Group)模型学习与实体关联的图像的嵌入,然后将其用于对齐。但是,VGG模型无法从图像中充分提取有用的特征,从而限制了对齐的有效性。为提高MMEA模型的整体有效性,应仔细整合来自这两种方式的信息。

技术实现思路

[0006]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术公开了一种适于多模态知识图谱的实体对齐方法及设备,所述方法将欧几里得表示扩展到双曲面流形,并采用双曲图卷积网络(HGCN,Hyperbolic Graph Convolutional Networks)学习实体的结构表示;关于视觉信息,使用densenet模型生成图像嵌入,并使用HGCN将其嵌入到双曲线空间中;最后,在双曲空间中合并结构嵌入和图像嵌入以预测潜在的对齐方式。
[0007]本专利技术公开了一种适于多模态知识图谱的实体对齐方法,包括以下步骤:步骤1,获取两个多模态知识图谱和的数据;步骤2,将各个模态的数据投影到双曲空间;步骤3,使用双曲图卷积神经网络学习实体的结构特征和视觉特征;
步骤4,融合多模态特征;步骤5,以双曲空间中距离表示实体相似度;步骤6,根据相似度进行实体识别对齐。
[0008]步骤2中所述的各个模态的数据由预先训练好的神经网络产生的,存在于欧氏空间中,通过从切平面到流形空间的投影,获得投影到双曲空间的特征:,为欧氏空间的特征表示,为双曲空间的特征表示,其中指数映射的定义为:,是切空间的特征向量,为双曲空间的曲率,是双曲空间中的一个点,表示双曲空间的原点,切空间上的向量通过指数映射映射到;步骤3中所述的实体的结构特征的学习是通过双曲空间中的特征转换、信息传递和非线性激活获得的;首先使用对数映射log(
·
)将双曲空间的节点的特征向量投影到切空间,在切空间中,节点的特征变换和传递规则为:,其中表示切平面上的特征表示,表示双曲平面上的特征表示,表示对称归一化邻接矩阵,是可训练权重矩阵,d

和d分别表示输入和输出的向量表示的维度,对数映射的定义为:,在得到切线空间中的特征表示后,使用非线性激活函数来学习非线性变换;基于双曲特征变换和非线性激活,双曲空间的卷积计算被重新定义为:,其中,分别表示在层和层学得的双曲空间中的节点表示,且,为激活函数。
[0009]更进一步地,所述的非线性激活为欧式非线性激活,在l层的切线空间中,将其映射到下一层的流形上:,其中,分别是层和层的曲率,激活函数选择。
[0010]步骤3中所述的视觉特征的学习过程包括:采用densenet模型来学习图像嵌入,移除densenet模型中的softmax层,densenet模型是在ImageNet数据集上预先训练的,并为多模态知识图谱中的所有图像获取1920维向量嵌入;使用双曲图卷积网络将视觉特征向量投影投射到双曲空间中。
[0011]具体地,步骤4中所述的多模态特征的融合是将结构信息和视觉信息相结合,结合的公式表示为:其中,分别是双曲图卷积网络模型学得的结构向量表示和视觉向量表示;是平衡两种特征向量权重的超参数;两种不同的特征在融合过程中需要保持维度的相同,
表示Mobius加法;所述的Mobius加法提供了一种适用于双曲空间的加法形式,在欧几里得空间中的定义为:步骤5中所述的双曲空间中距离表示为:,对于中的实体和中的实体,其中,表示实体和融合结构信息和视觉信息而生成的双曲空间中的向量表示;是范数;表示操作表示Mobius加法。
[0012]步骤6中,中特定的一个实体,计算中所有实体与其双曲空间中的距离,并返回按照距离从小到大排名的候选实体,距离越小的实体越匹配。
[0013]在统一的向量空间中,为使匹配的实体之间距离尽可能的近,我们使用已知的对齐的实体对作为训练数据以训练模型参数。具体来说,模型的训练目标是最小化下列的基于边缘的评分损失函数:其中,表示已知实体对,表示种子实体对的集合;表示负例实体对集合;负例通过破坏正例,即随机选取知识图谱中的一个实体取代e或者v,表示边缘超参数,用来分离正例和负例,基于边缘的损失函数需要正例实体对之间的距离尽可能小,负例实体对之间的距离尽可能大。
[0014]本专利技术还公开了一种电子设备,包括:处理器;以及,存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行上述的可执行指令来执行上述的实体对齐方法。
[0015]与现有方法相比,本专利技术方法的优点在于:本专利技术提出了一种在超曲空间中运行的多模式实体对齐方法(HMEA),具体来说,将欧几里得表示扩展到双曲面流形,并采用双曲图卷积网络(Hyperbolic Graph Convolutional Networks )学习实体的结构表示;关于视觉信息,使用densenet模型生成图像嵌入,也使用HGCN将其嵌入到双曲线空间中;最后,在双曲空间中合并结构嵌入和图像嵌入以预测潜在的对齐方式,使得本专利技术方法更加适于多模态知识图谱的对齐和融合。
附图说明
[0016]图1示出了本专利技术实施例的流程示意图。
...

【技术保护点】

【技术特征摘要】
1.一种适于多模态知识图谱的实体对齐方法,其特征在于,包括以下步骤:步骤1,获取两个多模态知识图谱和的数据;步骤2,将各个模态的数据投影到双曲空间;步骤3,使用双曲图卷积神经网络学习实体的结构特征和视觉特征;步骤4,融合多模态特征;步骤5,以双曲空间中距离表示实体相似度;步骤6,根据相似度进行实体识别对齐。2.根据权利要求1所述的实体对齐方法,其特征在于,步骤2中所述的各个模态的数据由预先训练好的神经网络产生的,存在于欧氏空间中,通过从切平面到流形空间的投影,获得投影到双曲空间的特征:,为欧氏空间的特征表示,为双曲空间的特征表示,其中指数映射的定义为:,是切空间的特征向量,为双曲空间的曲率,是双曲空间中的一个点,表示双曲空间的原点,切空间上的向量通过指数映射到;步骤3中所述的实体的结构特征的学习是通过双曲空间中的特征转换、信息传递和非线性激活获得的;首先使用对数映射log(
·
)将双曲空间的节点的特征向量投影到切空间,在切空间中,节点的特征变换和传递规则为:,其中表示切平面上的特征表示,表示双曲平面上的特征表示,表示对称归一化邻接矩阵,是可训练权重矩阵,d

和d分别表示输入和输出的向量表示的维度,对数映射的定义为:,在得到切线空间中的特征表示后,使用非线性激活函数来学习非线性变换;基于双曲特征变换和非线性激活,双曲空间的卷积计算被重新定义为:,其中,分别表示在层和层学得的双曲空间中的节点表示,且,为激活函数。3.根据权利要求2所述的实体对齐方法,其特征在于,所述的非线性激活为欧式非线性激活,在层的切线空间中,将其映射到下一层的流形上:,其中,分别是层和层的曲率,激活函数选择。4.根据权利要求2或3所述的实体对齐方法,其特征在于,步骤3中所述的视觉特征的学习过程包括:采用densenet模型来学...

【专利技术属性】
技术研发人员:赵翔唐九阳郭浩曾维新谭真徐浩张鑫
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1