【技术实现步骤摘要】
一种知识图谱实体对齐系统构建方法及系统
[0001]本专利技术涉及多模态知识图谱实体对齐领域,具体来说,涉及基于伪孪生神经网络的对齐
,更具体地说,涉及一种知识图谱实体对齐系统构建方法及系统
。
技术介绍
[0002]在过去几十年中,随着多模态知识图谱的出现和发展,一系列相关应用得到了广泛的推动,例如推荐系统
、
信息抽取和智能问答
。
然而,多模态知识图谱往往从多个独立
、
分离的数据源中采集和构建,这限制了知识图谱规模的进一步增长
。
为了解决该问题,研究人员注意到知识图谱嵌入可以表示多种模态的复杂知识,因而成为发现不同知识图谱中对应同一现实对象的实体的有效手段
。
[0003]现今,大多数现有的多模态知识图谱对齐方法致力于使用多个编码器提取不同模态数据的知识并融合为一个全局表示,并将其作为对应实体的语义描述
。
观察到不同模态数据之间的巨大差异,现有方法大多聚焦于消除不同模态数据之间的异构性,并假定同一模态数据在不同知识图谱之间具有相似的特性
。
事实上,由于不同的知识图谱往往具有不同的数据源和构建方法,它们的数据组织方式和表示方法差异很大
。
例如,即使同样是视觉标注,两个待对齐的知识图谱中也往往具有不同的分辨率和图像风格
(
不同知识图谱之间的异构性
)
,这样的差异在图结构
、
属性
、
关系等模态上广 ...
【技术保护点】
【技术特征摘要】
1.
一种知识图谱实体对齐系统构建方法,所述知识图谱实体对齐系统用于将源知识图谱中的实体与目标知识图谱中一个或多个实体进行对齐,其特征在于,所述方法包括:
S1、
构建初始知识图谱实体对齐系统,其中,所述初始知识图谱实体对齐系统包括:源编码单元,用于对源知识图谱中实体的多模态数据进行编码以得到源知识图谱中实体的多模态数据对应的嵌入特征;目标编码单元,用于对目标知识图谱中实体的多模态数据进行编码以得到目标知识图谱中实体的多模态数据对应的嵌入特征;融合映射单元,用于对源知识图谱中实体的多模态数据对应的嵌入特征以及目标知识图谱中实体的多模态数据对应的嵌入特征分别进行融合并映射以得到源知识图谱中实体对应的全局嵌入特征以及目标知识图谱中实体对应的全局嵌入特征;相似度度量单元,用于基于源知识图谱以及目标知识图谱中实体对应的全局嵌入特征计算源知识图谱中实体与目标知识图谱中实体对应的语义相似度;对齐单元,用于将所述相似度度量单元计算得到的语义相似度进行降序排序,并将排序靠前的第一预设个数的语义相似度对应的源知识图谱中的实体与目标知识图谱中一个或多个实体进行对齐;
S2、
获取源知识图谱和目标知识图谱以及对应的实体对应数据池,其中,所述实体对应数据池包含源知识图谱和目标知识图谱之间的部分实体对应的原始实体对应关系;
S3、
利用源知识图谱和目标知识图谱以及对应的实体对应数据池,对所述初始知识图谱实体对齐系统进行多次迭代训练,并在每次迭代训练中按照预设的多组损失函数分别更新所述源编码单元
、
所述目标编码单元以及所述融合映射单元的参数
。2.
根据权利要求1所述的方法,其特征在于,所述源编码单元包括:源结构编码器模块,用于对源知识图谱中实体的结构信息进行编码以得到源知识图谱中实体的结构信息对应的嵌入特征;源属性和关系编码器模块,用于对源知识图谱中实体的属性和关系对应的三元组信息进行编码以得到源知识图谱中实体的属性和关系对应的三元组信息对应的嵌入特征;源视觉编码器模块,用于对源知识图谱中实体的视觉信息进行编码以得到源知识图谱中实体的视觉信息对应的嵌入特征;所述目标编码单元包括:目标结构编码器模块,用于对目标知识图谱中实体的结构信息进行编码以得到目标知识图谱中实体的结构信息对应的嵌入特征;目标属性和关系编码器模块,用于对目标知识图谱中实体的属性和关系对应的三元组信息进行编码以得到目标知识图谱中实体的属性和关系对应的三元组信息对应的嵌入特征;目标视觉编码器模块,用于对目标知识图谱中实体的视觉信息进行编码以得到目标知识图谱中实体的视觉信息对应的嵌入特征;所述融合映射单元包括:融合模块,用于将源知识图谱中实体的结构信息
、
属性和关系对应的三元组信息以及视觉信息对应的嵌入特征进行融合以得到源知识图谱中实体对应的融合特征,以及将目标
知识图谱中实体的结构信息
、
属性和关系对应的三元组信息以及视觉信息对应的嵌入特征进行融合以得到目标知识图谱中实体对应的融合特征;映射模块,用于将源知识图谱中实体对应的融合特征以及目标知识图谱中实体对应的融合特征分别映射到一个统一的向量空间中,以生成源知识图谱中实体对应的全局嵌入特征以及目标知识图谱中实体对应的全局嵌入特征
。3.
根据权利要求2所述的方法,其特征在于,在所述步骤
S3
中,在每次迭代训练中,对所述实体对应数据池进行如下处理:计算该次迭代训练中源知识图谱与目标知识图谱中没有对应关系的实体之间对应的语义相似度,并将计算得到的语义相似度进行降序排序后将排序靠前的第二预设个数的语义相似度对应的源知识图谱和目标知识图谱之间的实体对应关系增加到所述实体对应数据池中;重新计算该次迭代训练对应的上一次迭代训练中增加到所述实体对应数据池中的源知识图谱与目标知识图谱之间的实体对应关系的实体对应的语义相似度,并将计算得到的语义相似度进行升序排序后将排序靠前的第三预设个数的语义相似度对应的源知识图谱和目标知识图谱之间的实体对应关系从所述实体对应数据池中删除
。4.
根据权利要求2所述的方法,其特征在于,在所述步骤
S3
中,所述预设的多组损失函数包括:第一组损失函数
、
第二组损失函数以及第三组损失函数,其中,所述第一组损失函数包括源知识图谱中实体的多个单模态对比损失函数,每个模态的对比损失函数用于更新所述源编码单元中对应模态的编码器模块;所述第二组损失函数包括目标知识图谱中实体的多个单模态对比损失函数,每个模态的对比损失函数用于更新所述目标编码单元中对应模态的编码器模块;所述第三组损失函数包括源知识图谱以及目标知识图谱中实体的多模态数据对应的分布对齐损失函数,其用于更新所述融合映射单元
。5.
根据权利要求4所述的方法,其特征在于,所述源知识图谱中实体的每个单模态对比损失函数为:其中,表示源知识图谱中实体的第
m
种模态的对比损失,
c
ij
表示所述实体对应数据池中指示的源知识图谱中第
i
个实体与目标知识图谱中有对应关系的第
j
个实体的对应关系对应的重加权权重,表示实体数据对应池中指示的源知识图谱中与目标知识图谱中的第
j
个实体有对应关系的第
i
个实体的第
m
种模态数据对应的嵌入特征,表示实体数据对应池中指示的目标知识图谱中与源知识图谱中第
i
个实体有对应关系的第
j
个实体的第
m
种模态数据对应的嵌入特征,
e
z
表示从目标知识图谱中选择的与源知识图谱中第
i
个实体没有对应关系的第
z
个实体,
ε
t
为目标知识图谱中的实体集合,
c
iz
表示源知识图谱中第
i
个实体与目标知识图谱中没有对应关系的第
z
个实体的对应关系对应的重加权权重,表示目标知识图谱中第
z
个实体的第
m
种模态数据对应的嵌入特征,
M
为实体的模态种类数,
ε
s
为源知识图谱中的实体集合,
|
ε
s
|
为源知识图谱中的实体总数,
|
ε
t
|
为目标知识图谱中实体总数;所述目标知识图谱中实体的每个单模态对比损失...
【专利技术属性】
技术研发人员:黄庆明,倪文鑫,许倩倩,姜阳邦彦,操晓春,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。