一种基于相似关系个概率推理的知识图谱实体对齐方法技术

技术编号:33395247 阅读:31 留言:0更新日期:2022-05-11 23:14
本发明专利技术属于人工智能及自然语言处理领域,具体涉及一种基于概率推理的知识图谱实体对齐方法及装置,包括跨知识图谱分别获取用于训练的实体对齐种子以及与它们相连的关系,将这些实体和关系放入知识图谱表示学习算法当中进行训练;基于训练得到的关系向量,使用向量相似度算法对关系的相似度进行计算,提取出相似度较大的关系对;基于实体对齐种子以及计算得到的关系对,可以迭代的通过概率推理计算未对齐实体的对齐可能性并标注实体对齐结果;本发明专利技术通过利用知识图谱表示学习算法以及新颖的知识图谱概率推理算法,能有效提升知识图谱的实体对齐效果。的实体对齐效果。的实体对齐效果。

【技术实现步骤摘要】
一种基于相似关系个概率推理的知识图谱实体对齐方法


[0001]本专利技术属于人工智能及自然语言处理领域,具体涉及一种基于相似关系和概率推理的知识图谱实体对齐方法。

技术介绍

[0002]随着互联网的快速发展,使得当今互联网中不论是数据规模还是数据种类都呈现出指数级增长的现象。为了将互联网中的大量非结构化数据(比如人类的自然语言)加以利用,进行系统化的储存、管理及应用,人们将互联网中的知识抽取出来构建结构化的知识图谱。知识图谱是人工智能研究和智能信息服务的基础核心技术,能够赋予智能体精准查询、尝试理解与逻辑推理等能力,被广泛运用于语义搜索、知识问答、个性化推荐等知识驱动的任务。目前由各企业或组织构建的知识图谱有很多,比如谷歌、百度、搜狗就分别构建了他们自己的知识图谱用于搜索,不同专业领域也有不同的知识,如生物、医疗、计算机等都有很多专业知识图谱。这些由单个组织建立的知识都是不可能完备的,单个知识图谱也就没办法完成所有的下游任务。现有的众多知识图谱的分散,使得它们的知识得不到充分的发挥,因此,将这些知识图谱进行融合成为一个更大的、具有更丰富信息的知识图谱是很有必要的,这样有利于提升下游任务的性能,使得知识图谱得到更广泛的应用。
[0003]将两个知识图谱进行融合形成一个更加完整的知识图谱,这个知识图谱包含两个知识图谱所有的结点和边,即实体和关系,但不能同时有两个语义相同的实体。因此,对两个知识图谱进行融合,最重要的任务就是找到他们表示相同语义的实体,我们找这些相同实体对的过程就被称为实体对齐。现有的知识图谱实体对齐工作有基于传统的概率推理系统的,也有基于表示学习模型的,两者都各自的优缺点,比如传统的概率推理系统都需要使用到知识图谱中的名称文字信息,如果两个知识图谱在构建时使用了不同的符号去表示同一个实体,那这个概率推理系统是无法运行的。而基于表示学习的模型,都是将实体和关系映射到向量空间中,通过向量空间的距离搜索进行实体的对齐,由于在高维的向量空间中所有相似的实体可能都聚集在一起,没有明显的区分,往往导致对齐的效果不佳的问题。

技术实现思路

[0004]为解决上述问题,本专利技术提供了一种基于概率推理的知识图谱实体对齐方法及装置,根据相似度筛选出相似关系对,基于相似关系对和对齐种子设计了一种新颖的概率推理方法,通过概率推理方法计算出跨知识图谱的实体对齐概率,得到完备的实体对齐结果。
[0005]一种基于概率推理的知识图谱实体对齐方法,包括以下步骤:
[0006]S1.获取源知识图谱与目标知识图谱之间的对齐实体对并称为对齐种子,采用对齐种子及与对齐种子相连的关系对生成训练集子图;
[0007]S2.将训练集子图输入知识图谱表示模型学习,得到训练集子图中关系的向量表示,并将所有关系的向量表示组成多个关系匹配对;
[0008]S3.采用向量相似度算法计算所有关系匹配对的相似度,筛选得到相似度大于
99.6%的关系匹配对,并将其称为相似关系对;
[0009]S4.将源知识图谱中未对齐实体与目标知识图谱中未对齐实体两两配对作为未对齐实体对,根据对齐种子和相似关系对,采用概率推理计算未对齐实体对的对齐概率;
[0010]S5.根据计算得到的对齐概率,选择对齐概率为1的高置信度未对齐实体对作为新的对齐种子;
[0011]S6.将步骤S1中的对齐种子与步骤S5得到的新的对齐种子进行串联,得到第一对齐种子,将第一对齐种子输入知识图谱表示模型,得到可能实体对的对齐概率;
[0012]S7.从可能实体对中过滤掉包含实体度数小于5的实体的可能实体对,得到高对齐概率的可能实体对;
[0013]S8.将高对齐概率的可能实体对和第一对齐种子结合,并与相似关系对进行概率推理,得到基于概率推理的实体对齐结果;
[0014]S9.将S6中知识图谱表示模型输出的实体对齐结果与基于概率推理的实体对齐结果结合,得到对齐后的知识图谱。
[0015]进一步的,训练集子图包括源知识图谱训练集子图和目标知识图谱训练集子图,源知识图谱训练集子图表示为:
[0016]G
a
={a|a∈S};
[0017]G
r
={r|(h,r,t)∈T,h∈S,t∈S};
[0018]目标知识图谱训练集子图表示为:
[0019]G

a
={a

|a

∈S

};
[0020]G

r
={r

|(h

,r

,t

)∈T

,h

∈S

,t

∈S

};
[0021]其中,G
a
表示源知识图谱训练集子图中的结点集合,G
r
表示源知识图谱训练集子图中的关系集合,S表示源知识图谱中对齐种子集合,T表示源知识图谱中的三元组(h,r,t)集合,h为源知识图谱中的头实体,r为源知识图谱中的h和t的关系,t为源知识图谱中的尾实体,G

a
表示目标知识图谱训练集子图中的结点集合,G

r
表示目标知识图谱训练集子图中的关系集合,S

表示目标知识图谱中对齐种子集合,T

表示目标知识图谱中的三元组(h

,r

,t

)集合,h

为目标知识图谱中的头实体,r

为目标知识图谱中的h

和t

的关系,t

为目标知识图谱中的尾实体。
[0022]进一步的,所有相似关系对组成相似关系对集合,相似关系对集合表示为:
[0023]R
p
={(r,r

)|sim(r,r

)>99.6%};
[0024]其中,R
p
表示相似关系对集合,r∈G
r
表示源知识图谱训练集子图中的关系,r

∈G

r
表示目标知识图谱训练集子图中的关系,sim(r,r

)表示通过向量相似度算法计算得到的r和r

相似度。
[0025]进一步的,步骤S4中采用的概率推理公式为:
[0026][0027]其中,P
e≡e

表示源知识图谱中未对齐实体e与目标知识图谱中未对齐实体e

对齐的概率,||
·
||为计算元素数量的运算符,C
e
表示目标知识图谱中可能与e对齐的实体集合,S

e
表示目标知识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于概率推理的知识图谱实体对齐方法,其特征在于,包括以下步骤:S1.获取源知识图谱与目标知识图谱之间的对齐实体对并称为对齐种子,采用对齐种子及与对齐种子相连的关系对生成训练集子图;S2.将训练集子图输入知识图谱表示模型学习,得到训练集子图中关系的向量表示,并将所有关系的向量表示组成多个关系匹配对;S3.采用向量相似度算法计算所有关系匹配对的相似度,筛选得到相似度大于99.6%的关系匹配对,并将其称为相似关系对;S4.将源知识图谱中未对齐实体与目标知识图谱中未对齐实体两两配对作为未对齐实体对,根据对齐种子和相似关系对,采用概率推理计算未对齐实体对的对齐概率;S5.根据计算得到的对齐概率,选择对齐概率为1的高置信度未对齐实体对作为新的对齐种子;S6.将步骤S1中的对齐种子与步骤S5得到的新的对齐种子进行串联,得到第一对齐种子,将第一对齐种子输入知识图谱表示模型,得到可能实体对的对齐概率;S7.从可能实体对中过滤掉包含实体度数小于5的实体的可能实体对,得到高对齐概率的可能实体对;S8.将高对齐概率的可能实体对和第一对齐种子结合,并与相似关系对进行概率推理,得到基于概率推理的实体对齐结果;S9.将S6中知识图谱表示模型输出的实体对齐结果与基于概率推理的实体对齐结果结合,得到对齐后的知识图谱。2.根据权利要求1所述的一种基于概率推理的知识图谱实体对齐方法,其特征在于,训练集子图包括源知识图谱训练集子图和目标知识图谱训练集子图,源知识图谱训练集子图表示为:G
a
={a|a∈S};G
r
={r|(h,r,t)∈T,h∈S,t∈S};目标知识图谱训练集子图表示为:G

a
={a

|a

∈S

};G

r
={r

|(h

,r

,t

)∈T

,h

∈S

,t

∈S

};其中,G
a
表示源知识图谱训练集子图中的结点集合,G
r
表示源知识图谱训练集子图中的关系集合,S表示源知识图谱中对齐种子集合,T表示源知识图谱中的三元组(h,r,t)集合,h为源知识图谱中的头实体,t为源知识图谱中的尾实体,r为源知识图谱中h和t的关系,G

a
表示目标知识图谱训练集子图中的结点集合,G

r
表示目标知识图谱训练集子图中的关系集合,S

表示目标知识图谱中对齐种子集合,T

表示目标知识图谱中的三元组(h

,r

,t

)集合,h

为目标知识图谱中的头实体,t

为目标知识图谱中的尾实体,r

为目标知识图谱中h

和t

的关系。3.根据权利要求1所述的一种基于概率推理的知识图谱实体对齐方法,其特征在于,所有相似关系对组成相似关系对集合,相似关系对集合表示为:R
p
={(r,r

)|sim(r,r

)>99.6%};其中,R
p
表示相似关系对集合,r∈G
r
表示源知识图谱训练集子图中的关系,r

∈G

r
表示目标知识图谱训练集子图中的关系,sim(r,r

)表示通过向量相似度算法计算得到的r和
r

相似度。4.根据权利要求1所述的一种基于概率推理的知识图谱实体对齐方法,其特征在于,步骤S4中采用的概率推理公式为:其中,P
e≡e

表示源知识图谱中未对齐实体e与目标知识图谱中未对齐实体e

对齐的概率,||
·
||为计算元素数量的运算符,C
e
表示目标知识图谱中与e对齐的实体集合,S

e
表示目标知识图谱中(h

,r

)和(r

,t

)的集合,h
...

【专利技术属性】
技术研发人员:刘立胥鸿杰张优敏吕浪颜敏
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1