一种知识图谱中实体对齐方法、系统及其存储介质技术方案

技术编号:22135205 阅读:39 留言:0更新日期:2019-09-18 08:56
本发明专利技术公开了一种知识图谱中实体对齐方法、系统及其存储介质,包括:步骤1:采用第一训练数据对第一实体对齐模型进行训练,采用第二训练数据对第二实体对齐模型进行训练,第一实体对齐模型每一次迭代训练得到的可信实体更新第二训练数据,第二实体对齐模型每一次迭代训练得到的可信实体更新第一实体对齐模型,当迭代次数达到设置的最大次数或第一实体对齐模型的输出结果与第二实体对齐模型的输出结果在设定的阈值范围内后停止迭代,得到最终的实体对齐模型;步骤2:将待对齐的图谱输入至步骤1得到的最终的实体对齐模型中,得到实体对齐结果。

An Entity Alignment Method, System and Storage Medium in Knowledge Map

【技术实现步骤摘要】
一种知识图谱中实体对齐方法、系统及其存储介质
本专利技术属于电力大数据的智能应用领域,具体涉及一种知识图谱中实体对齐方法、系统及其存储介质。
技术介绍
随着大数据技术的不断发展,积累了大量尚未被有效利用的数据,这些数据蕴藏的价值越来越受到企业内部和学术界的重视。为实现数据的统一汇聚和共享应用,需构建数据的知识图谱,建立起数据的语义连接网,为用户提供语义级互操作的统一数据服务,但由于数据来自不同系统,它们对同一对象往往有各自的描述规则,使得从不同系统中抽取的实体和关系存在大量异构、冗余的情况,通过实体对齐将指向同一对象的实体进行清理合并,解决知识图谱中的实体复用问题,是构建高质量的数据知识图谱的关键步骤。实体对齐技术旨在发现来自不同数据集的指向同一对象的那些实体,并通过OWL:sameAs等共指链接的构建将这些实体链接为一个具有统一化的全局唯一标识的对象,实现数据源之间的高质量链接,推进知识图谱构建。实体对齐方法主要分为两大类,一类是基于属性相似度的实体对齐方法,另一类是基于知识表示学习对齐实体关系进行推断。基于属性相似度的推断主要依据待对齐实体之间是否具有相同的属性及相应属性值的集合来判断的。基于表示学习的推断使用建模方法将知识图谱中的实体和关系映射到低维稠密向量空间中,然后进行计算和推理。但需要找到不同数据集内的实体间的对应关系,直接使用知识表示模型或基于属性相似度推断难以达到令人满意的效果,并且目前使用的方法需要大量标注好的实体对齐数据,这在实际中意味着需要大量电力业务专家的参与,难以实现。
技术实现思路
为解决现有技术中存在的问题,本专利技术提出一种知识图谱中实体对齐方法,融合知识表示学习和属性相似度推断的实体对齐结果,是两方面的结果互为补充,已达到对数据较好的实体对齐效果。本专利技术所采用的技术方案是:一种知识图谱中实体对齐方法,包括以下步骤:步骤1:采用第一训练数据对第一实体对齐模型进行训练,采用第二训练数据对第二实体对齐模型进行训练,第一实体对齐模型每一次迭代训练得到的可信实体更新第二训练数据,第二实体对齐模型每一次迭代训练得到的可信实体更新第一实体对齐模型,当迭代次数达到设置的最大次数或第一实体对齐模型的输出结果与第二实体对齐模型的输出结果在设定的阈值范围内后停止迭代,得到最终的实体对齐模型;步骤2:将待对齐的知识图谱输入至步骤1得到的最终的实体对齐模型中,得到实体对齐结果。进一步的,当用于完成电网知识图谱中实体对齐时,所述第一训练数据和第二训练数据为电力专用术语数据。进一步的,所述第一训练数据为语义特征视角下的训练数据,包括第一对齐数据集和第一未对齐数据集;所述第二训练数据为属性结构特征视角下的训练数据,包括第二对齐数据集和第二未对齐数据集;所述第一实体对齐模型为表示学习的实体对齐模型;所述第二实体对齐模型为基于属性相似度匹配的的实体对齐模型。进一步的,所述步骤1具体包括:采用第一对齐数据集训练得到第一实体对齐模型,使用第一实体对齐模型对第一未对齐数据集进行预测,得到可信实体对L′se,将其放入第二对齐数据集中,更新第二对齐数据集;采用第二对齐数据集训练得到的第二实体对齐模型,使用第二实体对齐模型对第二未对齐数据集进行预测,得到可信实体对L′st,将其放入第二对齐数据集中,更新第一对齐数据集。进一步的,在进行步骤1之前,还包括构建第一实体对齐模型,具体为:将知识图谱中的实体与关系映射到向量空间,获得知识图谱中实体的对应映射向量,关系的对应映射向量,得到三元组中首尾实体及中间关系的对应向量h,t,r;按照式(1)构建损失函数,当损失函数迭代达到设置的最大次数或结果值不变后停止迭代,得到第一实体对齐模型:其中,(h,r,t)∈Δ表示知识图谱转化为三元组形式后所有事实上存在的三元组集合;(h′,r′,t′)∈Δ′表示将正例三元组通过替换头实体或尾实体生成的知识图谱内不存在的三元组集合,为学习实体间的对齐关系h表示头实体向量,t表示尾实体向量,r表示关系向量,γ>0用来分离正负实体对的间隔,表示正例三元组的头实体向量h与正例三元组的尾实体向量t的对齐关系,表示负例三元组的头实体向量h’与负例三元组的尾实体向量t’的对齐关系;将实体对应的头实体向量、尾实体向量和关系向量按照式(2)进行迭代更新:式中,dim是空间向量的维度,hi代表头实体向量h的第i维向量,μ为学习率。进一步的,在进行步骤1之前,还包括构建第二实体对齐模型,具体为:根据式(6)构建打分函数,根据打分函数对所有候选实体关系对中的实体的向量和关系的向量进行打分,取打分值最高的候选实体关系对中的候选实体作为对齐的目标实体;fpredict(h,r,t*)=(1+w×Sim(h,t*))||h-t*||(6)其中,t*表示给定的实体,h表示为与t*存在跨网络实体对齐关系的候选实体,通过打分函数对所有候选实体关系对(h,r,t*)进行打分,打分值最高的候选实体h为对齐的目标实体;||h-t*||衡量基于表示学习的语义相似度,Sim(h,t*)表示属性相似度,w为惩罚力度;Sim(h,t*)=average(Sim(pi))pi为实体h和实体t*的共有属性集:up(h,t*)=property1∩property2(3)式中,property1为实体h的属性集,property2为实体t*的属性集;实体h和实体t*的共有属性集pi的相似度sim(pi)为:式中,pi对应实体h的第x个属性p1x,其属性值为v1x,pi对应实体t*的第y个属性p2y,其属性值为v2y,lcs(v1x,v2y)为属性值的最长公共子序列。本专利技术还公开了知识图谱中实体对齐系统,包括:协同训练单元,用于对第一实体对齐模型和第二实体对齐模型进行协同训练,得到最终的实体对齐模型;读取单元,用于获取待对齐的知识图谱输入至最终的实体对齐模型,得到实体对齐结果。进一步的,所述协同训练单元具体为:采用第一训练数据对第一实体对齐模型进行训练,采用第二训练数据对第二实体对齐模型进行训练,第一实体对齐模型每一次迭代得到的可信实体更新第二训练数据,第二实体对齐模型每一次迭代得到的可信实体更新第一训练数据,当达到设置的最大次数或第一实体对齐模型的输出结果与第二实体对齐模型的输出结果在设定的阈值范围内后停止迭代,得到最终的实体对齐模型。进一步的,当用于完成电网知识图谱中实体对齐时,所述第一训练数据和第二训练数据为电力专用术语数据。进一步的,所述第一训练数据为语义特征视角下的训练数据,包括第一对齐数据集和第一未对齐数据集;所述第二训练数据为属性结构特征视角下的训练数据,包括第二对齐数据集和第二未对齐数据集;所述第一实体对齐模型为表示学习的实体对齐模型;所述第二实体对齐模型为基于属性相似度匹配的的实体对齐模型。进一步的,采用第一对齐数据集训练得到第一实体对齐模型,使用第一实体对齐模型对第一未对齐数据集进行预测,得到可信实体对L′se,将其放入第二对齐数据集中,更新第二对齐数据集;采用第二对齐数据集训练得到的第二实体对齐模型,使用第二实体对齐模型对第二未对齐数据集进行预测,得到可信实体对L′st,将其放入第二对齐数据集中,更新第一对齐数据集。进一步的,所述第一实体对齐模型为:将知识图谱中的实体本文档来自技高网...

【技术保护点】
1.一种知识图谱中实体对齐方法,其特征在于:包括以下步骤:步骤1:采用第一训练数据对第一实体对齐模型进行训练,采用第二训练数据对第二实体对齐模型进行训练,第一实体对齐模型每一次迭代训练得到的可信实体更新第二训练数据,第二实体对齐模型每一次迭代训练得到的可信实体更新第一训练数据,当迭代次数达到设置的最大次数或第一实体对齐模型的输出结果与第二实体对齐模型的输出结果在设定的阈值范围内后停止迭代,得到最终的实体对齐模型;步骤2:将待对齐的知识图谱输入至步骤1得到的最终的实体对齐模型中,得到实体对齐结果。

【技术特征摘要】
1.一种知识图谱中实体对齐方法,其特征在于:包括以下步骤:步骤1:采用第一训练数据对第一实体对齐模型进行训练,采用第二训练数据对第二实体对齐模型进行训练,第一实体对齐模型每一次迭代训练得到的可信实体更新第二训练数据,第二实体对齐模型每一次迭代训练得到的可信实体更新第一训练数据,当迭代次数达到设置的最大次数或第一实体对齐模型的输出结果与第二实体对齐模型的输出结果在设定的阈值范围内后停止迭代,得到最终的实体对齐模型;步骤2:将待对齐的知识图谱输入至步骤1得到的最终的实体对齐模型中,得到实体对齐结果。2.根据权利要求1所述的知识图谱中实体对齐方法,其特征在于:当用于完成电网知识图谱中实体对齐时,所述第一训练数据和第二训练数据为电力专用术语数据。3.根据权利要求1所述的知识图谱中实体对齐方法,其特征在于:所述第一训练数据为语义特征视角下的训练数据,包括第一对齐数据集和第一未对齐数据集;所述第二训练数据为属性结构特征视角下的训练数据,包括第二对齐数据集和第二未对齐数据集;所述第一实体对齐模型为表示学习的实体对齐模型;所述第二实体对齐模型为基于属性相似度匹配的的实体对齐模型。4.根据权利要求3所述的知识图谱中实体对齐方法,其特征在于:所述步骤1具体包括:采用第一对齐数据集训练得到第一实体对齐模型,使用第一实体对齐模型对第一未对齐数据集进行预测,得到可信实体对L′se,将其放入第二对齐数据集中,更新第二对齐数据集;采用第二对齐数据集训练得到的第二实体对齐模型,使用第二实体对齐模型对第二未对齐数据集进行预测,得到可信实体对L′st,将其放入第二对齐数据集中,更新第一对齐数据集。5.根据权利要求1所述的知识图谱中实体对齐方法,其特征在于:在进行步骤1之前,还包括构建第一实体对齐模型,具体为:将知识图谱中的实体与关系映射到向量空间,获得知识图谱中实体的对应映射向量,关系的对应映射向量,得到三元组中首尾实体及中间关系的对应向量h,t,r;按照式(1)构建损失函数,当损失函数迭代达到设置的最大次数或结果值不变后停止迭代,得到第一实体对齐模型:其中,(h,r,t)∈Δ表示知识图谱转化为三元组形式后所有事实上存在的正例三元组集合;(h′,r′,t′)∈Δ′表示将正例三元组通过替换头实体或尾实体生成的知识图谱内不存在的负例三元组集合,为学习实体间的对齐关系h表示头实体向量,t表示尾实体向量,r表示关系向量,γ>0用来分离正负实体对的间隔,表示正例三元组的头实体向量h与正例三元组的尾实体向量t的对齐关系,表示负例三元组的头实体向量h’与负例三元组的尾实体向量t’的对齐关系;将实体对应的头实体向量、尾实体向量和关系向量按照式(2)进行迭代更新:hi=hi-μ*2*|ti-hi-ri|ri=ri-μ*2*|ti-hi-ri|ti=ti-μ*2*|ti-hi-ri|h′i=h′i-μ*2*|t′i-h′i-r′i|ri′=r′i-μ*2*|t′i-h′i-r′i|t′i=t′i-μ*2*|t′i-h′i-r′i|(2)式中,dim是空间向量的维度,hi代表头实体向量h的第i维向量,μ为学习率。6.根据权利要求1所述的知识图谱中实体对齐方法,其特征在于:在进行步骤1之前,包括构建第二实体对齐模型,具体为:根据式(6)构建打分函数,根据打分函数对所有候选实体关系对中的实体的向量和关系的向量进行打分,取打分值最高的候选实体关系对中的候选实体作为对齐的目标实体;fpredict(h,r,t*)=(1+w×Sim(h,t*))||h-t*||(6)其中,t*表示给定的实体,h表示为与t*存在跨网络实体对齐关系的候选实体,通过打分函数对所有候选实体关系对(h,r,t*)进行打分,打分值最高的候选实体h为对齐的目标实体;||h-t*||衡量基于表示学习的语义相似度,Sim(h,t*)表示属性相似度,w为惩罚力度;Sim(h,t*)=average(Sim(pi))pi为实体h和实体t*的共有属性集:up(h,t*)=property1∩property2(3)式中,property1为实体h的属性集,property2为实体t*的属性集;实体h和实体t*的共有属性集pi的相似度sim(pi)为:式中,pi对应实体h的第x个属性p1x,其属性值为v1x,pi对应实体t*的第y个属性p2y,其属性值为v2y,lcs(v1x,v2y)为属性值的最长公共子序列。7.一种知识图谱中实体对齐系统,其特征在于:包括:协同训练单元,用于对第一实体对齐模型和第二实体对齐模型进行协同训练,得到最终的实体对齐模型;读取单元,用于获取待对齐的知识图谱输入至最终的实体对齐模型,得到实体对齐结果。8.根据权利要求7所述的知识图谱中实体对齐系统,其特征在于:所述协同训练单元具体为...

【专利技术属性】
技术研发人员:王渊冯珺徐海洋冯烛明樊华王鑫张淑娟
申请(专利权)人:江苏瑞中数据股份有限公司国家电网有限公司南瑞集团有限公司国网浙江省电力有限公司信息通信分公司国网安徽省电力有限公司电力科学研究院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1