一种面向SG-CIM模型的实体对齐方法技术

技术编号:34555329 阅读:47 留言:0更新日期:2022-08-17 12:41
本发明专利技术提供了一种面向SG

【技术实现步骤摘要】
一种面向SG

CIM模型的实体对齐方法


[0001]本专利技术涉及大数据
,尤其是涉及一种面向SG

CIM模型的实体对齐方法。

技术介绍

[0002]企业公共数据模型(SG

CIM)是国家电网公司贴合实际业务需求、同时遵循国际统一标准所形成的统一信息视图,被评为行业最佳的应用实践,是面向对象构建的企业级数据模型。目前包含上百个从问题域中抽象出的信息类作为主题及子主题域,例如:安全、财务、电网、客户、人员、市场、物资、项目、资产、综合域等,域下同时涵盖了近千种相关实体和近万种属性,被用作国家电网的统一编码规范,为业务应用系统提供统一的数据模型。企业公共数据模型(SG

CIM)包括:逻辑模型表、物理模型表、标准模型表等。
[0003]在知识图谱的实体对齐领域中,与实体对齐有关的方法主要包括以下两类:基于字符串相似性的实体对齐方法,基于表示学习的实体对齐方法。
[0004](1)基于字符串相似性的实体对齐方法:
[0005]①
LIMES(Long Short

Term Memory,长短期记忆网络),LIMES基于三角不等距离逼近算法,推导距离的上下边界条件,使用这些边界条件来减少映射比较次数。被分割的空间内可以计算该区域中的每个实例与其他实例之间的相似度距离的精确近似。通过这些方法,可以在不牺牲精度的情况下有效地发现链接数据源之间的链接。LIMES在相似度距离计算上提供了多种方案,包括字符串,语义,向量,point

set等。
[0006]②
RDF

AI,RDF

AI实现了一个由预处理、匹配、融合、互连和后处理模块组成的对齐框架,提出一种基于属性的实体对匹配算法:基于序列对齐的模糊字符串匹配算法和词义相似度算法。计算属性匹配相似度,得到两图中所有可能对齐的属性对,通过对属性对相似度求和得到实体相似度。最终实体相似度最高者,被认为是一个实体。
[0007]③
HolisticEM,基于实体的重叠属性和相邻实体,构建了一个潜在实体对的图。然后,图中的局部和全局属性使用个性化页面排名进行传播,以计算实体对的实际相似度。该算法考虑了每个实体中,每个单词对整个实体的语义贡献程度。
[0008](2)基于表示学习的实体对齐方法:
[0009]基于表示学习的模型旨在保留实体的结构信息,也就是说,在知识图谱中具有类似邻居结构的实体应该在表示学习空间中具有接近的表示。这种表示学习模型的进步促使研究者们去研究基于表示学习的实体对齐。
[0010]①
MTransE:通过对单语言实体进行空间转换来执行跨语言的实体对齐,通过空间完成单语言知识图谱的表示学习。针对不同语言,MTransE分别在独立空间中对实体和关系进行编码,并可以对任意实体或关系向量进行跨语言转换,且多语言图谱的表示学习模型保留了单语表示学习时的优良特性。
[0011]②
IPTransE:该方案是一种利用联合知识表示学习实现的实体对齐框架。该方法根据一个小的对齐实体种子集,将不同知识图谱的实体和关系联合编码到一个统一的低维语义空间中。更具体地说,该方案提出了一种迭代和参数共享的方法来提高对齐性能。
[0012]该方法主要由三部分组成:(1)知识表示学习。利用基于翻译的KRL(Knowledge Representation Learning)学习实体和关系的表示学习。(2)联合表示学习。根据种子集将不同知识图谱的知识表示学习映射到联合语义空间。(3)迭代对齐。通过考虑那些在方法中越来越多地发现的高度自信的对齐实体,迭代地对齐实体及其对应实体,并更新联合知识表示学习。
[0013]③
JAPE:当面对不同自然语言的知识库时,传统的跨语言实体对齐方法依靠机器翻译来消除语言障碍。这些方法经常受到语言之间翻译质量不平衡的影响。
[0014]基于表示学习的技术在知识图谱中对实体和关系进行编码,并且不需要机器翻译来实现跨语言实体对齐,但是还有大量的属性尚未被研究。

技术实现思路

[0015]本专利技术提供了一种面向SG

CIM模型的实体对齐方法,以解决现有技术中跨语言实体对齐方法依靠机器翻译来消除语言障碍的缺陷,国家电网公共数据模型SG

CIM中标准模型表、逻辑模型表和物理模型表之间的实体对齐匹配任务效率低的技术问题。
[0016]本专利技术的一个目的在于提供一种面向SG

CIM模型的实体对齐方法,所述方法包括如下方法步骤:
[0017]步骤一,对SG

CIM模型中不同模型表知识图谱的三元组,进行规范化处理,生成一组关系三元组和一组属性三元组;
[0018]步骤二,将规范化处理后的关系三元组进行结构表示学习,将规范化处理后的属性三元组进行属性表示学习,并且,
[0019]使用属性表示学习得到的实体向量,将结构表示学习得到的实体向量,转移到相同的向量空间中,进行联合学习;
[0020]步骤三,经过联合学习后,通过计算不同模型表知识图谱实体向量相似度,对不同模型表知识图谱实体进行对齐。
[0021]在一个较佳的实施例中,所述步骤一中,抽取SG

CIM模型中的至少两个模型表知识图谱的三元组,
[0022]根据抽取的至少两个模型表的三元组的第二维文本数据的相似度,将所述至少两个模型表知识图谱合并成一个知识图谱,
[0023]抽取合并后的知识图谱的三元组,并分割成一组关系三元组和一组属性三元组。
[0024]在一个较佳的实施例中,将抽取的不同模型表知识图谱的三元组的第二维文本数据编辑距离,当距离大于预设阈值时,将对应的第二维文本数据统一命名,使不同模型表知识图谱合并成一个知识图谱。
[0025]在一个较佳的实施例中,所述步骤二中,结构表示学习的目标函数通过下式表述:
[0026][0027][0028]其中,t
r
是有效关系三元组,T
r
是有效关系三元组的集合,t

r
是被破坏的关系三元组,T

r
是被破坏的关系三元组的集合,γ是训练后得到的数值,α是一个权重,f
r
()是将关
相似的实体的集合。
[0049]本专利技术提供的一种面向SG

CIM模型的实体对齐方法,用于跨语言实体对齐的联合属性保留表示学习模型。将两个知识图谱的结构共同嵌入到一个统一的向量空间中,并通过利用知识图谱中的属性相关性进一步细化表示学习,面对国家电网公共数据模型SG

CIM,能够高效的完成标准模型表、逻辑模型表和物理模型表之间的实体对齐匹配任务。
[0050]本专利技术提供的一种面向SG
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向SG

CIM模型的实体对齐方法,其特征在于,所述方法包括如下方法步骤:步骤一,对SG

CIM模型中不同模型表知识图谱的三元组,进行规范化处理,生成一组关系三元组和一组属性三元组;步骤二,将规范化处理后的关系三元组进行结构表示学习,将规范化处理后的属性三元组进行属性表示学习,并且,使用属性表示学习得到的实体向量,将结构表示学习得到的实体向量,转移到相同的向量空间中,进行联合学习;步骤三,经过联合学习后,通过计算不同模型表知识图谱实体向量相似度,对不同模型表知识图谱实体进行对齐。2.根据权利要求1所述的方法,其特征在于,所述步骤一中,抽取SG

CIM模型中的至少两个模型表知识图谱的三元组,根据抽取的至少两个模型表的三元组的第二维文本数据的相似度,将所述至少两个模型表知识图谱合并成一个知识图谱,抽取合并后的知识图谱的三元组,并分割成一组关系三元组和一组属性三元组。3.根据权利要求2所述的方法,其特征在于,将抽取的不同模型表知识图谱的三元组的第二维文本数据编辑距离,当距离大于预设阈值时,将对应的第二维文本数据统一命名,使不同模型表知识图谱合并成一个知识图谱。4.根据权利要求1所述的方法,其特征在于,所述步骤二中,结构表示学习的目标函数通过下式表述:通过下式表述:其中,t
r
是有效关系三元组,T
r
是有效关系三元组的集合,t

r
是被破坏的关系三元组,T

r
是被破坏的关系三元组的集合,γ是训练后得到的数值,α是一个权重,f
r
()是将关系值编码为矢量的组合函数,count(r)是关系r出现的次数,|T|是合并后的知识图谱中的三元组总数。5.根据权利要求1所述的方法,其特征在于,所述步骤二中,属性表示学习的目标函数通过下式表述:下式表述:其中,t
a
是有效属性三元组,T
a
是有效属性三元组的集合,t

a
是被破坏的关系三元组,T

a
是被破坏的属性三元组的集合,γ是训练后得到的数值,α是一个权重,f
a
()...

【专利技术属性】
技术研发人员:沈亮周春雷陈翔张鹏宇王洁胡锡双李雨霏葛鑫亮任小伟杨诗语
申请(专利权)人:国家电网有限公司大数据中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1