一种基于实体合并的知识图谱融合方法技术

技术编号：35856470 阅读：14 留言：0更新日期：2022-12-07 10:43

本发明专利技术公开了一种基于实体合并的知识图谱融合方法，包括以下步骤：首先获取要进行融合的两个或多个知识图谱的数据，然后提取实体的所有属性，计算属性的词嵌入向量并将其输入到循环神经网络中，获取其最后的隐藏层输出，从而得到统一编码的实体属性嵌入向量，最后使用余弦相似度计算两个图谱中实体属性嵌入向量的相似性，获取超过设定阈值且相似度最高的两个不同图谱的实体进行融合，得到融合后的知识图谱。本发明专利技术基于循环神经网络，将实体的属性视作上下文，将两个图谱中的实体嵌入向量映射到同一个特征空间，且嵌入向量可以包含实体的所有属性信息和相同的维度，解决细分领域知识图谱融合问题，速度快且准确率高。速度快且准确率高。速度快且准确率高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于实体合并的知识图谱融合方法

[0001]本专利技术一般涉及计算机人工智能和知识图谱领域，具体涉及一种基于实体合并的知识图谱融合方法。

技术介绍

[0002]随着互联网的蓬勃发展，如何有效地构造、利用以及挖掘互联网数据背后涵盖的知识成为一种新的挑战。知识图谱描述了客观世界所存在的实体及语义关联，为用户提供了结构化的知识。作为一种优秀的知识组织方式，知识图谱逐渐受到了学术界和工业界的普遍关注。要想构建一个高质量的知识图谱，一种高效的做法是融合从多个知识库中生成的知识图谱。因此，图谱融合是知识图谱构建中不可或缺的环节。在知识图谱的融合过程中，往往会遇到多源知识之间重复、语义歧义多样、质量参差不齐等问题，因此，如何识别多个图谱中的相同实体并将其合并成一个实体，是知识图谱融合中的一个关键环节。
[0003]一种GCN孪生网络的实体对齐方法(CN110472065B)，该方法在对属性进行处理时，将属性在图谱中出现的频率作为属性的嵌入向量，缺乏语义特征。同时，该方法需要统计整个知识图谱中的所有属性，并构建一个与知识图谱属性数量维度一致的属性向量输入到卷积网络中生成属性嵌入向量。
[0004]在识别图谱间的相同实体过程中，需要用到实体对齐技术。实体对齐中较常见的方法是使用深度学习方法生成图谱中实体各个属性的嵌入向量，通过计算嵌入向量的相似度来找到两个图谱间的相同实体。但是在细分领域知识图谱融合任务中，存在不同图谱间结构差异大、文字描述不一致、实体属性数量和排列顺序不一致等问题，导致难以对不同图谱间的实体直接计...

【技术保护点】

【技术特征摘要】
1.一种基于实体合并的知识图谱融合方法，其特征在于，包括以下步骤：(a)对于若干个需要合并的知识图谱，获取其结构化的实体和属性，计算每个属性的词嵌入向量；(b)将单个实体生成的所有属性词嵌入向量拼接成一个句子嵌入向量输入到循环神经网络中，使用循环神经网络最后一层隐藏层的输出作为该实体的属性嵌入向量，从而将两个图谱中的属性嵌入向量映射到同一个特征空间，所述属性嵌入向量包括实体的所有属性信息和相同的维度；(c)对图谱间的实体，使用余弦相似度算法计算属性嵌入向量的相似度，将超过设定阈值且相似度最高的两个实体进行合并，得到融合的知识图谱。2.根据权利要求1所述基于实体合并的知识图谱融合方法，其特征在于：对于需要融合的若干个知识图谱，定义实体集合为其中表示知识图谱中的第t
i
个实体，T
i
表示第i个知识图谱中的实体数量，I表示需要融合的知识图谱数量；定义实体属性集合为其中为第i个图谱中第t个实体的第n
t
个属性值，N
t
为实体的属性数量，不同实体属性数量与属性顺序不同。3.根据权利要求1所述基于实体合并的知识图谱融合方法，其特征在于：对于数值型属性，通过正则表达式提取数值型属性的数值大小和单位，对于数值，构造一个与使用的词嵌入生成算法输出的词向量维度一致的零向量v0，并将该数值与向量的最后一维相加从而得到该数值的词嵌入向量；对于单位名称，使用词嵌入生成算法生成词嵌入向量。4.根据权利要求1所述基于实体合并的知识图谱融合方法，其特征在于：步骤(b)中对于实体e
t
的第m个属性a
m，t
，通过步骤(a
‑
1)和步骤(a
‑
2)生成属性的若干个词嵌入向量其中为第m个属性的第n
m
个词生成的词嵌入向量；N
m
为第m个属性的词语数量；M为属性数量；将所有属性的词嵌入向量拼接成句子嵌入向量：其中，属性间加入一个相同维度的零向量v0将不同属性的若干个词嵌入向量分割开，通过将句子嵌入向量输入到循环神经网络中，获取其最后一层隐藏层的输出作为该实体嵌入向量ev
t
。5.根据权利要求1所述基于实体合并的知识图谱融合方法，...

【专利技术属性】
技术研发人员：黄翰，朱浩锋，曾庆醒，郝志峰，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人