一种适于多模态知识图谱的实体对齐方法及设备技术

技术编号：27194904 阅读：85 留言：0更新日期：2021-01-31 11:46

本发明专利技术公开了一种适于多模态知识图谱的实体对齐方法及设备，所述方法包括以下步骤：获取两个多模态知识图谱的数据；将各个模态的数据投影到双曲空间；使用双曲图卷积神经网络学习实体的结构特征和视觉特征；融合多模态特征；以双曲空间中距离表示实体相似度；根据相似度进行实体识别对齐。本发明专利技术方法将欧几里得表示扩展到双曲面流形，并采用双曲图卷积网络学习实体的结构表示；关于视觉信息，使用densenet模型生成图像嵌入，并使用双曲图卷积网络将其嵌入到双曲线空间中；最后，在双曲空间中合并结构嵌入和图像嵌入以预测潜在的对齐方式，特别适用于多模态知识图谱的实体对齐和融合中。和融合中。和融合中。

全部详细技术资料下载

【技术实现步骤摘要】
一种适于多模态知识图谱的实体对齐方法及设备

[0001]本专利技术涉及自然语言处理中的知识图谱
，尤其涉及一种适于多模态知识图谱的实体对齐方法及设备。

技术介绍

[0002]近年来，知识图谱（KG）已成为以RDF（Resource Description Framework，资源描述框架）三元组的形式表示事实知识的流行数据结构，它可以促进一系列下游的实际应用，例如问题解答，信息提取等。当前，现存大量的常见的KG（例如，DBpedia，YAGO，Google的Knowledge Vault）以及特定于某些领域的KG（例如医药和分子KGs）。同时，将多媒体信息整合到KG中的趋势正在增长，以支持涉及多种模式下数据交互的跨模式任务，例如图像和视频检索，视频摘要，视觉实体消歧和视觉问题解答等。为此，最近已经建造了一些多模态知识图谱（MMKG）。
[0003]在这项工作中，在不失一般性的前提下考虑了MMKG具有两种模式，即KG结构信息和视觉信息。但是，现有的MMKG通常来自有限的数据源，因此可能会受到知识域覆盖率较低的困扰。为了提高这些MMKG的覆盖范围，一种可行的方法是整合其他MMKG的有用知识。特别是，在不同的KG中识别等效实体是合并MMKG之间知识的关键步骤，因为实体是连接这些异构KG的锚节点。此过程也称为多模式实体对齐（MMEA）。
[0004]MMEA是一项艰巨的任务，因为它需要对多模态信息进行建模和集成。利用KG结构信息，现有实体对齐（EA）接近可以直接用于为MMEA生成实体结构嵌入。这些方法通

【技术保护点】

【技术特征摘要】
1.一种适于多模态知识图谱的实体对齐方法，其特征在于，包括以下步骤：步骤1，获取两个多模态知识图谱和的数据；步骤2，将各个模态的数据投影到双曲空间；步骤3，使用双曲图卷积神经网络学习实体的结构特征和视觉特征；步骤4，融合多模态特征；步骤5，以双曲空间中距离表示实体相似度；步骤6，根据相似度进行实体识别对齐。2.根据权利要求1所述的实体对齐方法，其特征在于，步骤2中所述的各个模态的数据由预先训练好的神经网络产生的，存在于欧氏空间中，通过从切平面到流形空间的投影，获得投影到双曲空间的特征：，为欧氏空间的特征表示，为双曲空间的特征表示，其中指数映射的定义为：，是切空间的特征向量，为双曲空间的曲率，是双曲空间中的一个点，表示双曲空间的原点，切空间上的向量通过指数映射到；步骤3中所述的实体的结构特征的学习是通过双曲空间中的特征转换、信息传递和非线性激活获得的；首先使用对数映射log(
·
)将双曲空间的节点的特征向量投影到切空间，在切空间中，节点的特征变换和传递规则为：，其中表示切平面上的特征表示，表示双曲平面上的特征表示，表示对称归一化邻接矩阵，是可训练权重矩阵，d
’
和d分别表示输入和输出的向量表示的维度，对数映射的定义为：，在得到切线空间中的特征表示后，使用非线性激活函数来学习非线性变换；基于双曲特征变换和非线性激活，双曲空间的卷积计算被重新定义为：，其中，分别表示在层和层学得的双曲空间中的节点表示，且，为激活函数。3.根据权利要求2所述的实体对齐方法，其特征在于，所述的非线性激活为欧式非线性激活，在层的切线空间中，将其映射到下一层的流形上：，其中，分别是层和层的曲率，激活函数选择。4.根据权利要求2或3所述的实体对齐方法，其特征在于，步骤3中所述的视觉特征的学习过程包括：采用densenet模型来学...

【专利技术属性】
技术研发人员：赵翔，唐九阳，郭浩，曾维新，谭真，徐浩，张鑫，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人