一种知识图谱实体对齐系统构建方法及系统技术方案

技术编号:39414870 阅读:10 留言:0更新日期:2023-11-19 16:06
本发明专利技术实施例提供了一种知识图谱实体对齐系统构建方法,该方法:

【技术实现步骤摘要】
一种知识图谱实体对齐系统构建方法及系统


[0001]本专利技术涉及多模态知识图谱实体对齐领域,具体来说,涉及基于伪孪生神经网络的对齐
,更具体地说,涉及一种知识图谱实体对齐系统构建方法及系统


技术介绍

[0002]在过去几十年中,随着多模态知识图谱的出现和发展,一系列相关应用得到了广泛的推动,例如推荐系统

信息抽取和智能问答

然而,多模态知识图谱往往从多个独立

分离的数据源中采集和构建,这限制了知识图谱规模的进一步增长

为了解决该问题,研究人员注意到知识图谱嵌入可以表示多种模态的复杂知识,因而成为发现不同知识图谱中对应同一现实对象的实体的有效手段

[0003]现今,大多数现有的多模态知识图谱对齐方法致力于使用多个编码器提取不同模态数据的知识并融合为一个全局表示,并将其作为对应实体的语义描述

观察到不同模态数据之间的巨大差异,现有方法大多聚焦于消除不同模态数据之间的异构性,并假定同一模态数据在不同知识图谱之间具有相似的特性

事实上,由于不同的知识图谱往往具有不同的数据源和构建方法,它们的数据组织方式和表示方法差异很大

例如,即使同样是视觉标注,两个待对齐的知识图谱中也往往具有不同的分辨率和图像风格
(
不同知识图谱之间的异构性
)
,这样的差异在图结构

属性

关系等模态上广泛存在

因此,现有方法大多聚焦于消除不同模态数据之间的异构性

然而,不同知识图谱之间的异构性常常被忽略

[0004]此外,预对齐训练数据的缺乏也成为限制模型性能提升的主要挑战

由于在两个知识图谱之间获取手工对齐的样本对非常昂贵,因此,多模态实体对齐领域中的训练数据仅占很小一部分,难以支持常规意义上的有监督训练

现有的方法大多使用预先定义的距离度量工具在训练之前构建一部分近似对齐的数据作为预对齐样本的补充

然而,近似对齐产生的实体对中存在着大量错误,这种错误在训练迭代过程中的累积造成了性能的下降

[0005]总的来说,不同知识图谱之间的异构性及预对齐数据的缺乏是目前多模态知识图谱实体对齐领域亟待解决的重要挑战

[0006]近年来,研究人员提出了许多基于孪生网络的对齐框架,并在提取和融合多模态知识领域取得了巨大成功

具体而言,这些方法将一组单模态编码器在两个图谱之间进行共享,并生成对应的全局表示用作实体之间的语义度量

研究人员还探索了在训练过程中进行迭代标记以扩大训练数据的方法

然而,这些研究仍未摆脱对于待对齐图谱数据相似性的假设,也没有完全解决构建伪对齐样本造成的错误累积问题

因此,它们仅能在多语言知识图谱等简单的领域实现高效的实体对齐,无法应用于真正的复杂现实场景

[0007]综上所述,目前绝大多数多模态实体对齐方法更注重消除不同模态数据之间的差异,并使用少量预对齐的数据进行训练

然而,该方法缺乏对不同知识图谱异构性的关注和对未标注数据的充分利用

即先前的多模态实体对齐方法存在以下限制:
(1)
在复杂的场景中难以应对同一模态在不同知识图谱上的数据特性差异
(
即不同知识图谱之间的异构性
)

(2)
模型的训练和优化严重依赖于获取困难的预对齐数据
(
即预对齐数据的缺乏
)。

技术实现思路

[0008]因此,本专利技术的目的在于克服上述现有技术的缺陷,提供一种知识图谱实体对齐系统构建方法及系统

[0009]本专利技术的目的是通过以下技术方案实现的:
[0010]根据本专利技术的第一方面,提供一种知识图谱实体对齐系统构建方法,所述知识图谱实体对齐系统用于将源知识图谱中的实体与目标知识图谱中一个或多个实体进行对齐,所述方法包括:
[0011]S1、
构建初始知识图谱实体对齐系统,其中,所述初始知识图谱实体对齐系统包括:
[0012]源编码单元,用于对源知识图谱中实体的多模态数据进行编码以得到源知识图谱中实体的多模态数据对应的嵌入特征;
[0013]目标编码单元,用于对目标知识图谱中实体的多模态数据进行编码以得到目标知识图谱中实体的多模态数据对应的嵌入特征;
[0014]融合映射单元,用于对源知识图谱中实体的多模态数据对应的嵌入特征以及目标知识图谱中实体的多模态数据对应的嵌入特征分别进行融合并映射以得到源知识图谱中实体对应的全局嵌入特征以及目标知识图谱中实体对应的全局嵌入特征;
[0015]相似度度量单元,用于基于源知识图谱以及目标知识图谱中实体对应的全局嵌入特征计算源知识图谱中实体与目标知识图谱中实体对应的语义相似度;
[0016]对齐单元,用于将所述相似度度量单元计算得到的语义相似度进行降序排序,并将排序靠前的第一预设个数的语义相似度对应的源知识图谱中的实体与目标知识图谱中一个或多个实体进行对齐;
[0017]S2、
获取源知识图谱和目标知识图谱以及对应的实体对应数据池,其中,所述实体对应数据池包含源知识图谱和目标知识图谱之间的部分实体对应的原始实体对应关系;
[0018]S3、
利用源知识图谱和目标知识图谱以及对应的实体对应数据池,对所述初始知识图谱实体对齐系统进行多次迭代训练,并在每次迭代训练中按照预设的多组损失函数分别更新所述源编码单元

所述目标编码单元以及所述融合映射单元的参数

[0019]在本专利技术的一些实施例中,所述源编码单元包括:
[0020]源结构编码器模块,用于对源知识图谱中实体的结构信息进行编码以得到源知识图谱中实体的结构信息对应的嵌入特征;
[0021]源属性和关系编码器模块,用于对源知识图谱中实体的属性和关系对应的三元组信息进行编码以得到源知识图谱中实体的属性和关系对应的三元组信息对应的嵌入特征;
[0022]源视觉编码器模块,用于对源知识图谱中实体的视觉信息进行编码以得到源知识图谱中实体的视觉信息对应的嵌入特征;
[0023]所述目标编码单元包括:
[0024]目标结构编码器模块,用于对目标知识图谱中实体的结构信息进行编码以得到目标知识图谱中实体的结构信息对应的嵌入特征;
[0025]目标属性和关系编码器模块,用于对目标知识图谱中实体的属性和关系对应的三
元组信息进行编码以得到目标知识图谱中实体的属性和关系对应的三元组信息对应的嵌入特征;
[0026]目标视觉编码器模块,用于对目标知识图谱中实体的视觉信息进行编码以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种知识图谱实体对齐系统构建方法,所述知识图谱实体对齐系统用于将源知识图谱中的实体与目标知识图谱中一个或多个实体进行对齐,其特征在于,所述方法包括:
S1、
构建初始知识图谱实体对齐系统,其中,所述初始知识图谱实体对齐系统包括:源编码单元,用于对源知识图谱中实体的多模态数据进行编码以得到源知识图谱中实体的多模态数据对应的嵌入特征;目标编码单元,用于对目标知识图谱中实体的多模态数据进行编码以得到目标知识图谱中实体的多模态数据对应的嵌入特征;融合映射单元,用于对源知识图谱中实体的多模态数据对应的嵌入特征以及目标知识图谱中实体的多模态数据对应的嵌入特征分别进行融合并映射以得到源知识图谱中实体对应的全局嵌入特征以及目标知识图谱中实体对应的全局嵌入特征;相似度度量单元,用于基于源知识图谱以及目标知识图谱中实体对应的全局嵌入特征计算源知识图谱中实体与目标知识图谱中实体对应的语义相似度;对齐单元,用于将所述相似度度量单元计算得到的语义相似度进行降序排序,并将排序靠前的第一预设个数的语义相似度对应的源知识图谱中的实体与目标知识图谱中一个或多个实体进行对齐;
S2、
获取源知识图谱和目标知识图谱以及对应的实体对应数据池,其中,所述实体对应数据池包含源知识图谱和目标知识图谱之间的部分实体对应的原始实体对应关系;
S3、
利用源知识图谱和目标知识图谱以及对应的实体对应数据池,对所述初始知识图谱实体对齐系统进行多次迭代训练,并在每次迭代训练中按照预设的多组损失函数分别更新所述源编码单元

所述目标编码单元以及所述融合映射单元的参数
。2.
根据权利要求1所述的方法,其特征在于,所述源编码单元包括:源结构编码器模块,用于对源知识图谱中实体的结构信息进行编码以得到源知识图谱中实体的结构信息对应的嵌入特征;源属性和关系编码器模块,用于对源知识图谱中实体的属性和关系对应的三元组信息进行编码以得到源知识图谱中实体的属性和关系对应的三元组信息对应的嵌入特征;源视觉编码器模块,用于对源知识图谱中实体的视觉信息进行编码以得到源知识图谱中实体的视觉信息对应的嵌入特征;所述目标编码单元包括:目标结构编码器模块,用于对目标知识图谱中实体的结构信息进行编码以得到目标知识图谱中实体的结构信息对应的嵌入特征;目标属性和关系编码器模块,用于对目标知识图谱中实体的属性和关系对应的三元组信息进行编码以得到目标知识图谱中实体的属性和关系对应的三元组信息对应的嵌入特征;目标视觉编码器模块,用于对目标知识图谱中实体的视觉信息进行编码以得到目标知识图谱中实体的视觉信息对应的嵌入特征;所述融合映射单元包括:融合模块,用于将源知识图谱中实体的结构信息

属性和关系对应的三元组信息以及视觉信息对应的嵌入特征进行融合以得到源知识图谱中实体对应的融合特征,以及将目标
知识图谱中实体的结构信息

属性和关系对应的三元组信息以及视觉信息对应的嵌入特征进行融合以得到目标知识图谱中实体对应的融合特征;映射模块,用于将源知识图谱中实体对应的融合特征以及目标知识图谱中实体对应的融合特征分别映射到一个统一的向量空间中,以生成源知识图谱中实体对应的全局嵌入特征以及目标知识图谱中实体对应的全局嵌入特征
。3.
根据权利要求2所述的方法,其特征在于,在所述步骤
S3
中,在每次迭代训练中,对所述实体对应数据池进行如下处理:计算该次迭代训练中源知识图谱与目标知识图谱中没有对应关系的实体之间对应的语义相似度,并将计算得到的语义相似度进行降序排序后将排序靠前的第二预设个数的语义相似度对应的源知识图谱和目标知识图谱之间的实体对应关系增加到所述实体对应数据池中;重新计算该次迭代训练对应的上一次迭代训练中增加到所述实体对应数据池中的源知识图谱与目标知识图谱之间的实体对应关系的实体对应的语义相似度,并将计算得到的语义相似度进行升序排序后将排序靠前的第三预设个数的语义相似度对应的源知识图谱和目标知识图谱之间的实体对应关系从所述实体对应数据池中删除
。4.
根据权利要求2所述的方法,其特征在于,在所述步骤
S3
中,所述预设的多组损失函数包括:第一组损失函数

第二组损失函数以及第三组损失函数,其中,所述第一组损失函数包括源知识图谱中实体的多个单模态对比损失函数,每个模态的对比损失函数用于更新所述源编码单元中对应模态的编码器模块;所述第二组损失函数包括目标知识图谱中实体的多个单模态对比损失函数,每个模态的对比损失函数用于更新所述目标编码单元中对应模态的编码器模块;所述第三组损失函数包括源知识图谱以及目标知识图谱中实体的多模态数据对应的分布对齐损失函数,其用于更新所述融合映射单元
。5.
根据权利要求4所述的方法,其特征在于,所述源知识图谱中实体的每个单模态对比损失函数为:其中,表示源知识图谱中实体的第
m
种模态的对比损失,
c
ij
表示所述实体对应数据池中指示的源知识图谱中第
i
个实体与目标知识图谱中有对应关系的第
j
个实体的对应关系对应的重加权权重,表示实体数据对应池中指示的源知识图谱中与目标知识图谱中的第
j
个实体有对应关系的第
i
个实体的第
m
种模态数据对应的嵌入特征,表示实体数据对应池中指示的目标知识图谱中与源知识图谱中第
i
个实体有对应关系的第
j
个实体的第
m
种模态数据对应的嵌入特征,
e
z
表示从目标知识图谱中选择的与源知识图谱中第
i
个实体没有对应关系的第
z
个实体,
ε
t
为目标知识图谱中的实体集合,
c
iz
表示源知识图谱中第
i
个实体与目标知识图谱中没有对应关系的第
z
个实体的对应关系对应的重加权权重,表示目标知识图谱中第
z
个实体的第
m
种模态数据对应的嵌入特征,
M
为实体的模态种类数,
ε
s
为源知识图谱中的实体集合,
|
ε
s
|
为源知识图谱中的实体总数,
|
ε
t
|
为目标知识图谱中实体总数;所述目标知识图谱中实体的每个单模态对比损失...

【专利技术属性】
技术研发人员:黄庆明倪文鑫许倩倩姜阳邦彦操晓春
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1