【技术实现步骤摘要】
一种面向SG
‑
CIM模型的实体对齐方法
[0001]本专利技术涉及大数据
,尤其是涉及一种面向SG
‑
CIM模型的实体对齐方法。
技术介绍
[0002]企业公共数据模型(SG
‑
CIM)是国家电网公司贴合实际业务需求、同时遵循国际统一标准所形成的统一信息视图,被评为行业最佳的应用实践,是面向对象构建的企业级数据模型。目前包含上百个从问题域中抽象出的信息类作为主题及子主题域,例如:安全、财务、电网、客户、人员、市场、物资、项目、资产、综合域等,域下同时涵盖了近千种相关实体和近万种属性,被用作国家电网的统一编码规范,为业务应用系统提供统一的数据模型。企业公共数据模型(SG
‑
CIM)包括:逻辑模型表、物理模型表、标准模型表等。
[0003]在知识图谱的实体对齐领域中,与实体对齐有关的方法主要包括以下两类:基于字符串相似性的实体对齐方法,基于表示学习的实体对齐方法。
[0004](1)基于字符串相似性的实体对齐方法:
[0005]①
LIMES(Long Short
‑
Term Memory,长短期记忆网络),LIMES基于三角不等距离逼近算法,推导距离的上下边界条件,使用这些边界条件来减少映射比较次数。被分割的空间内可以计算该区域中的每个实例与其他实例之间的相似度距离的精确近似。通过这些方法,可以在不牺牲精度的情况下有效地发现链接数据源之间的链接。LIMES在相似度距离计算上提供了多种方案,包 ...
【技术保护点】
【技术特征摘要】
1.一种面向SG
‑
CIM模型的实体对齐方法,其特征在于,所述方法包括如下方法步骤:步骤一,对SG
‑
CIM模型中不同模型表知识图谱的三元组,进行规范化处理,生成一组关系三元组和一组属性三元组;步骤二,将规范化处理后的关系三元组进行结构表示学习,将规范化处理后的属性三元组进行属性表示学习,并且,使用属性表示学习得到的实体向量,将结构表示学习得到的实体向量,转移到相同的向量空间中,进行联合学习;步骤三,经过联合学习后,通过计算不同模型表知识图谱实体向量相似度,对不同模型表知识图谱实体进行对齐。2.根据权利要求1所述的方法,其特征在于,所述步骤一中,抽取SG
‑
CIM模型中的至少两个模型表知识图谱的三元组,根据抽取的至少两个模型表的三元组的第二维文本数据的相似度,将所述至少两个模型表知识图谱合并成一个知识图谱,抽取合并后的知识图谱的三元组,并分割成一组关系三元组和一组属性三元组。3.根据权利要求2所述的方法,其特征在于,将抽取的不同模型表知识图谱的三元组的第二维文本数据编辑距离,当距离大于预设阈值时,将对应的第二维文本数据统一命名,使不同模型表知识图谱合并成一个知识图谱。4.根据权利要求1所述的方法,其特征在于,所述步骤二中,结构表示学习的目标函数通过下式表述:通过下式表述:其中,t
r
是有效关系三元组,T
r
是有效关系三元组的集合,t
’
r
是被破坏的关系三元组,T
’
r
是被破坏的关系三元组的集合,γ是训练后得到的数值,α是一个权重,f
r
()是将关系值编码为矢量的组合函数,count(r)是关系r出现的次数,|T|是合并后的知识图谱中的三元组总数。5.根据权利要求1所述的方法,其特征在于,所述步骤二中,属性表示学习的目标函数通过下式表述:下式表述:其中,t
a
是有效属性三元组,T
a
是有效属性三元组的集合,t
’
a
是被破坏的关系三元组,T
’
a
是被破坏的属性三元组的集合,γ是训练后得到的数值,α是一个权重,f
a
()...
【专利技术属性】
技术研发人员:沈亮,周春雷,陈翔,张鹏宇,王洁,胡锡双,李雨霏,葛鑫亮,任小伟,杨诗语,
申请(专利权)人:国家电网有限公司大数据中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。