【技术实现步骤摘要】
一种基于相似关系个概率推理的知识图谱实体对齐方法
[0001]本专利技术属于人工智能及自然语言处理领域,具体涉及一种基于相似关系和概率推理的知识图谱实体对齐方法。
技术介绍
[0002]随着互联网的快速发展,使得当今互联网中不论是数据规模还是数据种类都呈现出指数级增长的现象。为了将互联网中的大量非结构化数据(比如人类的自然语言)加以利用,进行系统化的储存、管理及应用,人们将互联网中的知识抽取出来构建结构化的知识图谱。知识图谱是人工智能研究和智能信息服务的基础核心技术,能够赋予智能体精准查询、尝试理解与逻辑推理等能力,被广泛运用于语义搜索、知识问答、个性化推荐等知识驱动的任务。目前由各企业或组织构建的知识图谱有很多,比如谷歌、百度、搜狗就分别构建了他们自己的知识图谱用于搜索,不同专业领域也有不同的知识,如生物、医疗、计算机等都有很多专业知识图谱。这些由单个组织建立的知识都是不可能完备的,单个知识图谱也就没办法完成所有的下游任务。现有的众多知识图谱的分散,使得它们的知识得不到充分的发挥,因此,将这些知识图谱进行融合成为一个更大的、具有更丰富信息的知识图谱是很有必要的,这样有利于提升下游任务的性能,使得知识图谱得到更广泛的应用。
[0003]将两个知识图谱进行融合形成一个更加完整的知识图谱,这个知识图谱包含两个知识图谱所有的结点和边,即实体和关系,但不能同时有两个语义相同的实体。因此,对两个知识图谱进行融合,最重要的任务就是找到他们表示相同语义的实体,我们找这些相同实体对的过程就被称为实体对齐。现有的知识图谱实体对 ...
【技术保护点】
【技术特征摘要】
1.一种基于概率推理的知识图谱实体对齐方法,其特征在于,包括以下步骤:S1.获取源知识图谱与目标知识图谱之间的对齐实体对并称为对齐种子,采用对齐种子及与对齐种子相连的关系对生成训练集子图;S2.将训练集子图输入知识图谱表示模型学习,得到训练集子图中关系的向量表示,并将所有关系的向量表示组成多个关系匹配对;S3.采用向量相似度算法计算所有关系匹配对的相似度,筛选得到相似度大于99.6%的关系匹配对,并将其称为相似关系对;S4.将源知识图谱中未对齐实体与目标知识图谱中未对齐实体两两配对作为未对齐实体对,根据对齐种子和相似关系对,采用概率推理计算未对齐实体对的对齐概率;S5.根据计算得到的对齐概率,选择对齐概率为1的高置信度未对齐实体对作为新的对齐种子;S6.将步骤S1中的对齐种子与步骤S5得到的新的对齐种子进行串联,得到第一对齐种子,将第一对齐种子输入知识图谱表示模型,得到可能实体对的对齐概率;S7.从可能实体对中过滤掉包含实体度数小于5的实体的可能实体对,得到高对齐概率的可能实体对;S8.将高对齐概率的可能实体对和第一对齐种子结合,并与相似关系对进行概率推理,得到基于概率推理的实体对齐结果;S9.将S6中知识图谱表示模型输出的实体对齐结果与基于概率推理的实体对齐结果结合,得到对齐后的知识图谱。2.根据权利要求1所述的一种基于概率推理的知识图谱实体对齐方法,其特征在于,训练集子图包括源知识图谱训练集子图和目标知识图谱训练集子图,源知识图谱训练集子图表示为:G
a
={a|a∈S};G
r
={r|(h,r,t)∈T,h∈S,t∈S};目标知识图谱训练集子图表示为:G
′
a
={a
′
|a
′
∈S
′
};G
′
r
={r
′
|(h
′
,r
′
,t
′
)∈T
′
,h
′
∈S
′
,t
′
∈S
′
};其中,G
a
表示源知识图谱训练集子图中的结点集合,G
r
表示源知识图谱训练集子图中的关系集合,S表示源知识图谱中对齐种子集合,T表示源知识图谱中的三元组(h,r,t)集合,h为源知识图谱中的头实体,t为源知识图谱中的尾实体,r为源知识图谱中h和t的关系,G
′
a
表示目标知识图谱训练集子图中的结点集合,G
′
r
表示目标知识图谱训练集子图中的关系集合,S
′
表示目标知识图谱中对齐种子集合,T
′
表示目标知识图谱中的三元组(h
′
,r
′
,t
′
)集合,h
′
为目标知识图谱中的头实体,t
′
为目标知识图谱中的尾实体,r
′
为目标知识图谱中h
′
和t
′
的关系。3.根据权利要求1所述的一种基于概率推理的知识图谱实体对齐方法,其特征在于,所有相似关系对组成相似关系对集合,相似关系对集合表示为:R
p
={(r,r
′
)|sim(r,r
′
)>99.6%};其中,R
p
表示相似关系对集合,r∈G
r
表示源知识图谱训练集子图中的关系,r
′
∈G
′
r
表示目标知识图谱训练集子图中的关系,sim(r,r
′
)表示通过向量相似度算法计算得到的r和
r
′
相似度。4.根据权利要求1所述的一种基于概率推理的知识图谱实体对齐方法,其特征在于,步骤S4中采用的概率推理公式为:其中,P
e≡e
′
表示源知识图谱中未对齐实体e与目标知识图谱中未对齐实体e
′
对齐的概率,||
·
||为计算元素数量的运算符,C
e
表示目标知识图谱中与e对齐的实体集合,S
′
e
表示目标知识图谱中(h
′
,r
′
)和(r
′
,t
′
)的集合,h
...
【专利技术属性】
技术研发人员:刘立,胥鸿杰,张优敏,吕浪,颜敏,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。