用于建立电网知识图谱的物理模型的方法及系统和介质技术方案

技术编号:27362353 阅读:15 留言:0更新日期:2021-02-19 13:44
本发明专利技术提出一种用于建立用于电网知识图谱的物理模型的方法、系统及介质。方法包括:确定用于定义表对象及其字段的表模式;基于第一数据源按照表模式生成所有表对象的表信息以生成物理模型的物理表集;确定用于定义源表对象和目标表对象之间的关系的关系模式;对于第二数据源中的经过去重复处理的每对源表对象和目标表对象,基于第二数据源按照关系模式生成相应的表关系信息以生成物理模型的关系集;基于物理表集和关系集建立包括表对象、字段和关系的物理模型。利用本发明专利技术的方案,可以对不同数据源进行知识抽取,对现有模型进行查漏补缺以弥补现有模型的设计短板,给用户提供更合理的管控模型,并支持统一数据模型的信息匹配。配。配。

【技术实现步骤摘要】
用于建立电网知识图谱的物理模型的方法及系统和介质


[0001]本专利技术涉及知识图谱技术,更具体而言,涉及一种用于建立用于电网知识图谱的物理模型的方法及相应的系统和计算机可读存储介质。

技术介绍

[0002]随着知识图谱技术的进一步发展,知识图谱以其强大的语义处理能力和知识组织能力为大规模知识库组织和智能化应用奠定了基础。知识图谱由大量实体和实体关联构成。通过知识图谱,可以检索地标、人名、城市、运动队、建筑物、地理特征、电影、天体、艺术作品等实体,并获取与这些实体相关的信息。这是构建智能应用的关键,它融入了网络的集体智慧,并且能更像人去理解世界。在具体的应用场合,需要基于特定领域本体库建设领域知识图谱,支撑面向特定领域的信息智能检索和领域智能应用建设。面向特定领域的知识图谱建设不仅需要通用知识,更侧重结合领域专业知识。领域知识图谱的建设需要支撑实际工程应用,相比通用知识图谱的建设在识别率、准确性等相关指标方面有更高的要求。为了满足面向领域的大规模知识库及智能应用建设,需要研究适应领域特征的信息抽取技术及领域知识图谱的构建方法。
[0003]近些年,国内推出了大量以中文为主语言的知识图谱,它们主要都是基于百度百科和维基百科的结构化信息构建起来的,旨在利用社区力量维护开放域知识图谱的Schema标准。知识图谱的构建方式包括人工编辑和自动抽取,但自动抽取方法主要是基于在线百科中的结构化信息而忽略了非结构化文本,而互联网中大部分的信息恰恰是以非结构化的自由文本形式呈现。在链接数据发展的同期,很多基于信息抽取技术的知识获取方法被提出,用以构建基于自由文本的开放域知识图谱。2007年,华盛顿大学Banko等人率先提出开放域信息抽取(OIE),直接从大规模自由文本中直接抽取实体关系三元组,即头实体、关系指示词以及尾实体三部分。在OIE提出之前,也有很多面向自由文本的信息抽取被提出,但这些方法主要的思路都是为每个目标关系训练相应的抽取器。这类传统的信息抽取方法在面对互联网文本中海量的关系类别时无法高效地工作,即为每个目标关系训练抽取器是不现实的,更为严重的是,很多情况下面对海量的网络文本我们无法事先明确关系的类型。
[0004]此外,当前基于企业级数据模型的知识资源分类、智能搜索、以及对于跨域的知识融合和表示尚处于起步阶段,缺乏面向相关管理人员、业务人员的直观通俗的模型界面,同时数据模型的逻辑链路搜索能力及静态语义分析评估能力也受到严重限制。诸如国家电网公司企业公共数据模型(SG-CIM)的数据模型作为公司企业级电网、资产、财务等方面数据的全面抽象,不仅数量庞大,而且涉及专业门类极多,使得在模型成果、应用和支撑三个方面仍存在以下问题:(1)模型设计质量仍需完善,即在目前模型设计成果中,仍存在部分数据对象抽象程度不一致、实体关系不准确、数据对象及属性不完整、去重不彻底、数据溯源不完整、标准编码与源端业务系统编码不对应等实际问题;(2)模型映射率不高,即各单位基于不同版本的物理模型进行映射比对,导致平均映射率较低;(3)缺乏工具支撑,即目前数据模型管控多采用线下方式,流程复杂、沟通效率低,且模型设计成果较为抽象,造成各
级人员对模型难以理解,应用能力不足,模型应用与迭代完善质量无法保证。
[0005]因此,需要提供一种改进的技术方案,以克服现有数据模型中存在的缺陷。

技术实现思路

[0006]本专利技术的目的在于提供一种方案,以解决上述技术问题。
[0007]具体地,根据本专利技术的第一方面,提供一种用于建立用于电网知识图谱的物理模型的方法,包括:
[0008]确定用于定义表对象及其字段的表模式;
[0009]接收包括多个表对象的第一数据源,所述第一数据源包括表对象相关信息、字段相关信息、表对象来源相关信息和/或字段来源相关信息;
[0010]对于每个表对象,基于所述第一数据源按照所述表模式生成相应的表信息,从而得到所述第一数据源包括的全部表对象的表信息集合,以生成包括所述表信息集合的所述物理模型的物理表集,其中,所述表信息至少指示表对象的表名称、字段、表对象来源和字段来源;
[0011]确定用于定义源表对象和目标表对象之间的关系的关系模式;
[0012]接收包括源表对象和目标表对象之间的关系的关系相关信息的第二数据源,所述第二数据源包括多对源表对象和目标表对象,对于每对源表对象和目标表对象,基于所述第二数据源按照所述关系模式生成该对源表对象和目标表对象的表关系信息,从而得到所述第二数据源包括的全部关系的表关系信息集合,以生成包括所述表关系信息集合的所述物理模型的关系集;
[0013]基于所述物理模型的物理表集和所述物理模型的关系集,建立包括表对象、字段和关系的物理模型。
[0014]在一个实施例中,所述字段基于所述第一数据源中的字段相关信息和字段来源相关信息按照预定义的字段模式确定,所述字段模式包括字段的字段名称、字段数据类型、字段描述、标准代码、数据存储格式、哈希列、责任部门、数据来源系统的名称、数据来源系统的表名称、数据来源系统的字段名称和数据来源系统的字段类型。
[0015]在一个实施例中,所述表模式包括表对象的表名称、主题域、二级主题域、表类型、表描述、责任部门、数据来源系统的名称、数据来源系统的表名称和字段列表。
[0016]在一个实施例中,所述关系模式包括源表对象的表名称、目标表对象的表名称、源表对象与目标表对象之间的关联关系、源表对象与目标表对象之间的关联字段、主题域和二级主题域。
[0017]在一个实施例中,基于所述第二数据源按照所述关系模式生成一对源表对象和目标表对象的表关系信息包括:对于所述第二数据源中的一对源表对象和目标表对象以及另一对源表对象和目标表对象,如果其各自的源表对象的表名称、目标表对象的表名称、源表对象与目标表对象之间的关联关系和源表对象与目标表对象之间的关联字段都相同,则判定该一对源表对象和目标表对象之间的关系与该另一对源表对象和目标表对象的关系相同,对于相同的关系,只对其中的一个关系进行规范化处理并按照所述关系模式生成相应的源表对象和目标表对象的表关系信息。
[0018]在一个实施例中,设有表对象及其字段的表模式的库,从所述表模式的库确定用
于定义表对象及其字段的表模式。
[0019]在一个实施例中,设有表示表对象之间的关系的关系模式的库,从所述关系模式的库确定用于定义源表对象和目标表对象之间的关系的关系模式。
[0020]在一个实施例中,设有表对象、其字段、表对象之间的关系的别名集库,所述别名集库包括既往记录的别名及其出现频次,将所述第一数据源和所述第二数据源中出现的表对象、其字段、表对象之间的关系记录到所述别名库中,并将出现的频次累加;显示的表对象、其字段、表对象之间的关系为出现频次最大的表对象、其字段、表对象之间的关系。
[0021]根据本专利技术的第二方面,提供一种用于建立用于电网知识图谱的物理模型的系统,包括:物理表集生成单元、关系集生成单元和处理单元,
...

【技术保护点】

【技术特征摘要】
1.一种用于建立用于电网知识图谱的物理模型的方法,包括:确定用于定义表对象及其字段的表模式;接收包括多个表对象的第一数据源,所述第一数据源包括表对象相关信息、字段相关信息、表对象来源相关信息和/或字段来源相关信息;对于每个表对象,基于所述第一数据源按照所述表模式生成相应的表信息,从而得到所述第一数据源包括的全部表对象的表信息集合,以生成包括所述表信息集合的所述物理模型的物理表集,其中,所述表信息至少指示表对象的表名称、字段、表对象来源和字段来源;确定用于定义源表对象和目标表对象之间的关系的关系模式;接收包括源表对象和目标表对象之间的关系的关系相关信息的第二数据源,所述第二数据源包括多对源表对象和目标表对象,对于每对源表对象和目标表对象,基于所述第二数据源按照所述关系模式生成该对源表对象和目标表对象的表关系信息,从而得到所述第二数据源包括的全部关系的表关系信息集合,以生成包括所述表关系信息集合的所述物理模型的关系集;基于所述物理模型的物理表集和所述物理模型的关系集,建立包括表对象、字段和关系的物理模型。2.根据权利要求1所述的方法,所述字段基于所述第一数据源中的字段相关信息和字段来源相关信息按照预定义的字段模式确定,所述字段模式包括字段的字段名称、字段数据类型、字段描述、标准代码、数据存储格式、哈希列、责任部门、数据来源系统的名称、数据来源系统的表名称、数据来源系统的字段名称和数据来源系统的字段类型。3.根据权利要求1所述的方法,所述表模式包括表对象的表名称、主题域、二级主题域、表类型、表描述、责任部门、数据来源系统的名称、数据来源系统的表名称和字段列表。4.根据权利要求1所述的方法,所述关系模式包括源表对象的表名称、目标表对象的表名称、源表对象与目标表对象之间的关联关系、源表对象与目标表对象之间的关联字段、主题域和二级主题域。5.根据权利要求4所述的方法,基于所述第二数据源按照所述关系模式生成一对源表对象和目标表对象的表关系信息包括:对于所述第二数据源中的一对源表对象和目标表对象以及另一对源表对象和目标表对象,如果其各自的源表对象的表名称、目标表对象的表名称、源表对象与目标表对象之间的关联关系和源表对象与目标表对象之间的关联字段都相同,则判定该一对源表对象和目标表对象之间的关系与该另一对源表对象和目标表对象的关系相同,对于相同的关系,只对其中的一个关系进行规范化处理并按照所述关系模式生成相应的源表对象和目标表对象的表关系信息。6.一种用于建立用于电网知识图谱的物理模型的系统,包括:物理表集生成单元、关系集生成单元和处理单元,其中,所述物理表集生成单元被配置为...

【专利技术属性】
技术研发人员:沈亮杨帅朱广新廖小琦王春梅宜东海吴桂栋吴一郝保聪
申请(专利权)人:国家电网有限公司大数据中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1