一种基于实体合并的知识图谱融合方法技术

技术编号:35856470 阅读:14 留言:0更新日期:2022-12-07 10:43
本发明专利技术公开了一种基于实体合并的知识图谱融合方法,包括以下步骤:首先获取要进行融合的两个或多个知识图谱的数据,然后提取实体的所有属性,计算属性的词嵌入向量并将其输入到循环神经网络中,获取其最后的隐藏层输出,从而得到统一编码的实体属性嵌入向量,最后使用余弦相似度计算两个图谱中实体属性嵌入向量的相似性,获取超过设定阈值且相似度最高的两个不同图谱的实体进行融合,得到融合后的知识图谱。本发明专利技术基于循环神经网络,将实体的属性视作上下文,将两个图谱中的实体嵌入向量映射到同一个特征空间,且嵌入向量可以包含实体的所有属性信息和相同的维度,解决细分领域知识图谱融合问题,速度快且准确率高。速度快且准确率高。速度快且准确率高。

【技术实现步骤摘要】
一种基于实体合并的知识图谱融合方法


[0001]本专利技术一般涉及计算机人工智能和知识图谱领域,具体涉及一种基于实体合并的知识图谱融合方法。

技术介绍

[0002]随着互联网的蓬勃发展,如何有效地构造、利用以及挖掘互联网数据背后涵盖的知识成为一种新的挑战。知识图谱描述了客观世界所存在的实体及语义关联,为用户提供了结构化的知识。作为一种优秀的知识组织方式,知识图谱逐渐受到了学术界和工业界的普遍关注。要想构建一个高质量的知识图谱,一种高效的做法是融合从多个知识库中生成的知识图谱。因此,图谱融合是知识图谱构建中不可或缺的环节。在知识图谱的融合过程中,往往会遇到多源知识之间重复、语义歧义多样、质量参差不齐等问题,因此,如何识别多个图谱中的相同实体并将其合并成一个实体,是知识图谱融合中的一个关键环节。
[0003]一种GCN孪生网络的实体对齐方法(CN110472065B),该方法在对属性进行处理时,将属性在图谱中出现的频率作为属性的嵌入向量,缺乏语义特征。同时,该方法需要统计整个知识图谱中的所有属性,并构建一个与知识图谱属性数量维度一致的属性向量输入到卷积网络中生成属性嵌入向量。
[0004]在识别图谱间的相同实体过程中,需要用到实体对齐技术。实体对齐中较常见的方法是使用深度学习方法生成图谱中实体各个属性的嵌入向量,通过计算嵌入向量的相似度来找到两个图谱间的相同实体。但是在细分领域知识图谱融合任务中,存在不同图谱间结构差异大、文字描述不一致、实体属性数量和排列顺序不一致等问题,导致难以对不同图谱间的实体直接计算相似性。本专利技术借用循环神经网络处理文本的思想,将实体的属性作为上下文特征,将不同图谱中的实体嵌入向量映射到同一个特征空间,使得嵌入向量含有实体的所有属性信息和相同的维度。

技术实现思路

[0005]本专利技术针对现有知识图谱融合的不足,提供了基于实体合并的知识图谱融合方法,基于循环神经网络,将实体的属性视作上下文,将两个图谱中的实体嵌入向量映射到同一个特征空间,且嵌入向量可以包含实体的所有属性信息和相同的维度,解决了细分领域知识图谱融合中不同图谱间结构差异大、文字描述不一致、实体属性数量和排列顺序不一致等情况而导致难以计算相似度的问题,速度快且准确率高。
[0006]本专利技术至少通过如下技术方案之一实现。
[0007]一种基于实体合并的知识图谱融合方法,包括以下步骤:
[0008](a)对于若干个需要合并的知识图谱,获取其结构化的实体和属性,计算每个属性的词嵌入向量;
[0009](b)将单个实体生成的所有属性词嵌入向量拼接成一个句子嵌入向量输入到循环神经网络中,使用循环神经网络最后一层隐藏层的输出作为该实体的属性嵌入向量,从而
将两个图谱中的属性嵌入向量映射到同一个特征空间,所述属性嵌入向量包括实体的所有属性信息和相同的维度;
[0010](c)对图谱间的实体,使用余弦相似度算法计算属性嵌入向量的相似度,将超过设定阈值且相似度最高的两个实体进行合并,得到融合的知识图谱。
[0011]进一步的,对于需要融合的若干个知识图谱,定义实体集合为进一步的,对于需要融合的若干个知识图谱,定义实体集合为其中表示知识图谱中的第t
i
个实体,T
i
表示第i个知识图谱中的实体数量,I表示需要融合的知识图谱数量;
[0012]定义实体属性集合为其中为第i个图谱中第t个实体的第n
t
个属性值,N
t
为实体的属性数量,不同实体属性数量与属性顺序不同。
[0013]进一步的,对于数值型属性,通过正则表达式提取数值型属性的数值大小和单位,对于数值,构造一个与使用的词嵌入生成算法输出的词向量维度一致的零向量v0,并将该数值与向量的最后一维相加从而得到该数值的词嵌入向量;对于单位名称,使用词嵌入生成算法生成词嵌入向量。
[0014]进一步的,步骤(b)中对于实体e
t
的第m个属性a
m,t
,通过步骤(a

1)和步骤(a

2)生成属性的若干个词嵌入向量其中为第m个属性的第nm个词生成的词嵌入向量;N
m
为第m个属性的词语数量;M为属性数量;
[0015]将所有属性的词嵌入向量拼接成句子嵌入向量:
[0016][0017]其中,属性间加入一个相同维度的零向量v0将不同属性的若干个词嵌入向量分割开,通过将句子嵌入向量输入到循环神经网络中,获取其最后一层隐藏层的输出作为该实体嵌入向量ev
t

[0018]进一步的,循环神经网络的训练方法为通过人工标注的方法获取训练数据集中多个图谱中的实体,将属于同一事物的实体对作为正样本,属于不同事物的实体对作为负样本;将正负样本作为训练集对循环神经网络进行训练。
[0019]进一步的,训练集使用知识图谱训练集,或通过爬取数据的方式并通过实体抽取和关系抽取的方法生成。
[0020]进一步的,对于需要进行训练的循环神经网络,训练的损失函数为:
[0021][0022]p
k
=cos_sim(f(e
i
),f(e
j
))
[0023]其中,N表示样本总数;y
k
表示训练集中第k个样本的标签,正样本为1,负样本为0;p
k
表示第k个样本实体对(e
i
,e
j
)的实体嵌入向量的相似度;cos_sim表示余弦相似度计算函数;f(e
i
)表示实体e
i
经过循环神经网络f后输出的实体嵌入向量,f(e
j
)表示实体e
j
经过循环神经网络f后输出的向量。
[0024]进一步的,对于需要融合的两个图谱,选择一个图谱A的一个实体,与另一个图谱B的所有实体计算实体属性嵌入向量的相似度,当相似度超过设定阈值Q且为所有实体中相
似度最高的两个实体时,将这两个实体合并为新图谱C的一个实体;通过循环所有实体完成两个图谱的合并,得到新图谱C。
[0025]进一步的,对于多个知识图谱,采用两两合并的方式,先随机选择两个图谱,进行步骤(a)

步骤(c)合并为一个图谱后再与未合并的图谱进行合并,从而将多个知识图谱融合为一个知识图谱。
[0026]进一步的,对于实体的数值型属性,通过正则表达式获取其数值大小和单位,然后对于数值,将其与零向量相加作为词嵌入向量;对于单位,使用通用词嵌入生成算法生成词嵌入向量;对于实体的文本型属性,使用通用词嵌入生成算法生成词嵌入向量。
[0027]与现有的技术相比,本专利技术的有益效果为:
[0028]本方法将实体属性的嵌入向量有效地映射到同一个特征空间,嵌入向量含有实体的所有属性信息和相同的维度,使得可以直接计算不同图谱间实体的相似度从而进行合并;在对实体的属性进行处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于实体合并的知识图谱融合方法,其特征在于,包括以下步骤:(a)对于若干个需要合并的知识图谱,获取其结构化的实体和属性,计算每个属性的词嵌入向量;(b)将单个实体生成的所有属性词嵌入向量拼接成一个句子嵌入向量输入到循环神经网络中,使用循环神经网络最后一层隐藏层的输出作为该实体的属性嵌入向量,从而将两个图谱中的属性嵌入向量映射到同一个特征空间,所述属性嵌入向量包括实体的所有属性信息和相同的维度;(c)对图谱间的实体,使用余弦相似度算法计算属性嵌入向量的相似度,将超过设定阈值且相似度最高的两个实体进行合并,得到融合的知识图谱。2.根据权利要求1所述基于实体合并的知识图谱融合方法,其特征在于:对于需要融合的若干个知识图谱,定义实体集合为其中表示知识图谱中的第t
i
个实体,T
i
表示第i个知识图谱中的实体数量,I表示需要融合的知识图谱数量;定义实体属性集合为其中为第i个图谱中第t个实体的第n
t
个属性值,N
t
为实体的属性数量,不同实体属性数量与属性顺序不同。3.根据权利要求1所述基于实体合并的知识图谱融合方法,其特征在于:对于数值型属性,通过正则表达式提取数值型属性的数值大小和单位,对于数值,构造一个与使用的词嵌入生成算法输出的词向量维度一致的零向量v0,并将该数值与向量的最后一维相加从而得到该数值的词嵌入向量;对于单位名称,使用词嵌入生成算法生成词嵌入向量。4.根据权利要求1所述基于实体合并的知识图谱融合方法,其特征在于:步骤(b)中对于实体e
t
的第m个属性a
m,t
,通过步骤(a

1)和步骤(a

2)生成属性的若干个词嵌入向量其中为第m个属性的第n
m
个词生成的词嵌入向量;N
m
为第m个属性的词语数量;M为属性数量;将所有属性的词嵌入向量拼接成句子嵌入向量:其中,属性间加入一个相同维度的零向量v0将不同属性的若干个词嵌入向量分割开,通过将句子嵌入向量输入到循环神经网络中,获取其最后一层隐藏层的输出作为该实体嵌入向量ev
t
。5.根据权利要求1所述基于实体合并的知识图谱融合方法,...

【专利技术属性】
技术研发人员:黄翰朱浩锋曾庆醒郝志峰
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1