一种基于邻域特征的知识图谱实体对齐方法技术

技术编号:39572936 阅读:7 留言:0更新日期:2023-12-03 19:24
本发明专利技术涉及知识图谱技术,其公开了一种基于邻域特征的知识图谱实体对齐方法,其首先利用图神经网络,获得两知识图谱中所有实体的嵌入表征;然后,利用邻域匹配模型,分别以其一为计算图谱

【技术实现步骤摘要】
一种基于邻域特征的知识图谱实体对齐方法


[0001]本专利技术涉及知识图谱技术,具体涉及一种基于邻域特征的知识图谱实体对齐方法


技术介绍

[0002]知识图谱是一种融合多语言和多知识信息的结构化知识存储形式,可以将结构化的数据和非结构化的数据整合到一个统一的模型中,并将其转换为机器可读的形式进行存储

在知识图谱中,知识以
(s

o

p)
形式的三元组进行表示,包括
<
头实体,关系,尾实体
>

<
实体,属性,属性值
>
两种形式,知识图谱利用这两种三元组形式可以有效表达复杂的知识结构,使现实世界中的知识在计算机世界中更加直观和易于理解,已经被广泛应用到了许多领域之中,包括问答系统

搜索引擎和推荐系统等

[0003]然而,不同的知识图谱在构建时所依据的知识源并不相同,导致某个单一的知识图谱可能缺少某些特定领域的知识信息,从而难以应用到其他领域

此外,不同的知识图谱中关于某个实体的知识也可能并不完整,这些知识之间可以相互补充

为了获得更加完整的知识图谱,需要进行知识融合,整合不同知识源中的信息,从而使得知识图谱更加全面和准确

实体对齐是指在不同的知识图谱或者本体中,找到具有相同语义的实体进行匹配的过程,以便为知识融合和扩展提供基础依据

[0004]现有的利用实体嵌入进行对齐的方法大多认为对应的实体具有相似的邻域结构,因此才能为等价的实体生成相似的嵌入

然而由于知识图谱间的异质性,实际的图谱中,等价的实体的邻居可能存在较大的差异,实体对齐精度会随着实体邻域的差异变大而显著降低,因此,这种图谱间的邻域异质性对实体对齐带来了重大挑战


技术实现思路

[0005]本专利技术所要解决的技术问题是:提出一种基于邻域特征的知识图谱实体对齐方法,解决知识图谱间的异质性对对齐精度的影响,以提高知识图谱实体对齐的准确性和可靠性

[0006]本专利技术解决上述技术问题采用的技术方案是:
[0007]一种基于邻域特征的知识图谱实体对齐方法,包括以下步骤:
[0008]A、
输入训练数据,训练知识图谱实体对齐模型;所述训练数据包括源知识图谱
G
s

目标知识图谱
G
t
和实体对种子集合
Q
e
;所述
Q
e
中的实体对为预先对齐的实体对,并表示为
Q
e

(e
os

e
ot
)|e
os
∈E
s

e
ot
∈E
t
,其中,
E
s

E
t
分别为
G
s

G
t
中的实体集合;
[0009]A1、
利用图神经网络,获得输入两知识图谱
G
s

G
t
中所有实体的嵌入表征;
[0010]A2、
利用邻域匹配模型,以源知识图谱
G
s
作为计算图谱
G
i

目标知识图谱
G
t
作为背景图谱
G
j
,获得
G
s
中各实体的匹配特征利用邻域匹配模型,以目标知识图谱
G
t
作为计算图谱
G
i

源知识图谱
G
s
作为背景图谱
e
j
,获得
G
t
中各实体的匹配特征
[0011]所述邻域匹配模型的匹配过程包括:
[0012]A21、
针对计算图谱
G
i
中的各实体
e
i
,分别计算该实体
e
i
与背景图谱
G
j
中各实体
e
j
的相似度,将相似度最大的实体
e
j
作为该实体
e
i
的候选实体
c
i
,构成实体对
(e
i

c
i
)
,并分别基于实体所属知识图谱,获得
e
i
的邻居集
N
i

c
i
的邻居集
Nj

[0013]A22、
针对计算图谱
G
i
中的各实体
e
i
,分别按如下步骤计算其匹配特征
[0014]A221、
计算当前计算实体
e
i
的邻居集
N
i
中每一个节点
p
的特征向量
[0015]计算当前计算节点
p
与各节点
q
的注意力权重
a
pq
,所述
q
为当前计算实体
e
i
所对应实体对
(e
i

c
i
)
中候选实体
c
i
的邻居集
N
j
中的节点;然后,基于注意力权重
a
pq
,对当前计算节点
p
与各节点
q
的相似度,进行加权聚合,获得当前计算节点
p
的匹配向量
m
p
;之后,基于当前计算节点
p
的匹配向量
m
p
和嵌入表征
h
p
,计算获得当前计算节点
p
的特征向量
[0016]A222、
计算当前计算实体
e
i
与其邻居集
N
i
中各节点
p
的聚合权重
α
ip
,基于聚合权重
α
ip
,对当前计算实体
e
i
的邻居集
N
i
中各节点
p
的特征向量进行加权聚合,获得该实体
e
i
的匹配特征
[0017]A3、
利用步骤
A2
获本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于邻域特征的知识图谱实体对齐方法,其特征在于,包括以下步骤:
A、
输入训练数据,训练知识图谱实体对齐模型;所述训练数据包括源知识图谱
G
s

目标知识图谱
G
t
和实体对种子集合
Q
e
;所述
Q
e
中的实体对为预先对齐的实体对,并表示为
Q
e

(e
os
,e
ot
)∣e
os
∈E
s
,e
ot
∈E
t
,其中,
E
s

E
t
分别为
G
s

G
t
中的实体集合;
A1、
利用图神经网络,获得输入两知识图谱
G
s

G
t
中所有实体的嵌入表征;
A2、
利用邻域匹配模型,以源知识图谱
G
s
作为计算图谱
G
i

目标知识图谱
G
t
作为背景图谱
G
j
,获得
G
s
中各实体的匹配特征利用邻域匹配模型,以目标知识图谱
G
t
作为计算图谱
G
i

源知识图谱
G
s
作为背景图谱
G
j
,获得
G
t
中各实体的匹配特征所述邻域匹配模型的匹配过程包括:
A21、
针对计算图谱
G
i
中的各实体
e
i
,分别计算该实体
e
i
与背景图谱
G
j
中各实体
e
j
的相似度,将相似度最大的实体
e
j
作为该实体
e
i
的候选实体
c
i
,构成实体对
(e
i
,c
i
)
,并分别基于实体所属知识图谱,获得
e
i
的邻居集
N
i

c
i
的邻居集
N
j

A22、
针对计算图谱
G
i
中的各实体
e
i
,分别按如下步骤计算其匹配特征
A221、
计算当前计算实体
e
i
的邻居集
N
i
中每一个节点
p
的特征向量计算当前计算节点
p
与各节点
q
的注意力权重
a
pq
,所述
q
为当前计算实体
e
i
所对应实体对
(e
i
,c
i
)
中候选实体
c
i
的邻居集
N
j
中的节点;然后,基于注意力权重
a
pq
,对当前计算节点
p
与各节点
q
的相似度,进行加权聚合,获得当前计算节点
p
的匹配向量
m
p
;之后,基于当前计算节点
p
的匹配向量
m
p
和嵌入表征
h
p
,计算获得当前计算节点
p
的特征向量
A222、
计算当前计算实体
e
i
与其邻居集
N
i
中各节点
p
的聚合权重
α
ip
,基于聚合权重
α
ip
,对当前计算实体
e
i
的邻居集
N
i
中各节点
p
的特征向量进行加权聚合,获得该实体
e
i
的匹配特征
A3、
利用步骤
A2
获得的
G
s
中各实体的匹配特征和
G
t
中各实体的匹配特征计算实体对种子集合
Q
e
中各实体对两实体间的相似度,并基于该相似度,计算邻域匹配模型的损失;模型的总损失包括邻域匹配模型的损失和步骤
A1
图神经网络的损失,基于模型的总损失对模型进行更新;
A4、
判断是否完成训练,若是则获得完成训练的知识图谱实体对齐模型;否则,利用步骤
A2
获得的
G
s
中各实体的匹配特征和
G
t
中各实体的匹配特征分别计算
G
s
中各实体
e
s

G
t
中各实体
e
t
的相似度,以与各实体
e
s
的最大相似度所对应的实体
e
t
作为其匹配实体,并构建匹配实体对;基于预设的实体匹配阈值,筛选满足实体匹配阈值的匹配实体对,作为新的实体对种子,并添加到实体对种子集合
Q
e
中;然后,返回步骤
A1

B、
知识图谱实体对齐
B1、
输入待进行实体对齐的源知识图谱
G
s
和目标知识图谱
G
t

B2、
利用完成训练的知识图谱实体对齐模型,基于步骤
A1

A2
,获得
G
s
中各实体的匹配特征和
G
t
中各实体的匹配特征
B3、
利用步骤
B2
获得的
G
s
中各实体的匹配特征和
G
t
中各实体的匹配特征分别计

G
s
中各实体
e
s

G
t
中各实体
e
t
的相似度,以与各实体
e
s
的最大相似度所对应的实体
e
t
作为其匹配实体,并构建匹配实体对;基于预设的实体匹配阈值,筛选满足实体匹配阈值的匹配实体对,作为待进行实体对齐的源知识图谱
G
s
和目标知识图谱
G
t
的实体对齐结果
。2.
如权利要求1所述的一种基于邻域特征的知识图谱实体对齐方法,其特征在于,步骤
A4
中,利用获得的
G
s
中各实体的匹配特征和
G
t
中各实体的匹配特征按如下公式,分别计算
G
s
中各实体与
G
t
中各实体的相似度:其中,为两特征向量的
L1
距离
。3.
如权利要求2所述的一种基于邻域特征的知识图谱实体对齐方法,其特征在于,步骤
A4
中,还包括:按如下公式,对实体
e
s
和实体
e
t
的相似度进行更新:其中,和为实体
e
s
和实体
e
t
的邻居集合,
|
·
|
表示计数,
λ
e
为控制关系影响程度的超参数;表示集合
M
e
中所有实体对的关系影响程度的和;所述集合
M
e
为邻居集合和所包含实体所构成的且属于实体对种子集合
Q
e
的实体对;集合
M
e
中各实体对的关系影响程度
P(r1,r2,n1,n2)
的计算包括:首先,针对
M
e
中当前计算的实体对
(m
s
,m
t
)
,分别从实体
m
s
和实体
m
t
所属知识图谱中提取包含其的三元组
(m
s
,r1,n1)

(m
t
,r2,n2)
,并基于确定的关系
r1和尾实体
n1构建三元组集合
T1,基于确定的关系
r2和尾实体
n2构建三元组集合
T2;然后,按如下公式计算实体对
(m
s
,m
t
)

P(r1,r2,n1,n2))P(r1,r2,n1,n2)

P(r1,n1)
·
P(r1,n1)
其中,
|
·
|
表示计数
。4.
如权利要求1所述的一种基于邻域特征的知识图谱实体对齐方法,其特征在于,步骤
A4
中,所述预设的实体匹配阈值为自适应阈值
Δ
:其中,
sim
s
[0]

G
s
中第
s
个实体
e
s
与其匹配实体的相似度;
S

G
s
中实体的数量;
ω
为增大权重的超参数
。5.
如权利要求1所述的一种基于邻域特征的知识图谱实体对齐方法,其特征在于,步骤
A1
,利用图神经网络,获得输入两知识图谱
G
s

G
t
中所有实体的嵌入表征,包括:
A11、
利用预训练模型,获得两知识图谱
G
s

G
t
中所有实体的初始化嵌入表征;
A12、
以实体为节点

关系为边,分别将两知识图谱
G
s

G
t
转换为图;
A13、
以实体的初始化嵌入表征作为初始的节点嵌入表征,利用
GCN
网络,基于各节点在图中的邻居节点的节点嵌入表征,对各节点的节点嵌入表征进行更新,将各节点更新后的节点嵌入表征,作为其所对应实体的嵌入表征
。6.
如权利要求5所述的一种基于邻域特征的知识图谱实体对齐方法,其特征在于,步骤
A11
中,利用预训练模型,获得两知识图谱
G
s

G
t
中所有实体的初始化嵌入表征,包括:
A111、
将源知识图谱
G
s
和目标知识图谱
G
t
中的所有实体和所有关系,输入预训练
Bert
语言模型,将文本转换为实体特征向量,并将实体特征向量的矩阵表示为言模型,将文本转换为实体特征向量,并将实体特征向量的矩阵表示为将关系特征向量的矩阵表示为其中,
N
为两个知识图谱所有实体的数量,
M
为两个知识图谱中所有关系的总数量;
A112、

H
pre

X
pre
作为初始输入,利用预训练
TransE
模型,进行编码,获得两知识图谱
G
s

G
t
中所有实体的初始化嵌入表征
。7.
如权利要求6所述的一种基于邻域特征的知识图谱实体对齐方法,其特征在于,步骤
A13
中,以实体的初始化嵌入表征作为初始的节点嵌入表征,利用图卷积神经网络,基于各节点在图中的邻居节点的节点嵌入表征,对各节点的节点嵌入表征进行更新,将各节点更新后的节点嵌入表征,作为其所对应实体的嵌入表征,包括:
A131、
将实体的初始化嵌入表征作为节点嵌入表征,输入
GCN
网络;
A132、
基于输入的节点嵌入表征按如下公式进行聚合,获得当前层的节点中间嵌入表征得当前层的节点中间嵌入表征其中,表示第
n
个实体的邻居节点集合,
W
(l)
为可训练的权重矩阵,
l
表示
GCN
...

【专利技术属性】
技术研发人员:段贵多秦科董强罗光春胡芮铭韦子龙
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1