本申请提供了一种基于知识图谱的数据资产库访问方法和装置,所述访问方法包括:根据第一现存系统的数据实体和数据实体之间的关系,以及基于SG
【技术实现步骤摘要】
一种基于知识图谱的数据资产库访问方法和装置
[0001]本公开涉及数据处理领域,尤其涉及一种基于知识图谱的数据资产库访问方法和装置。
技术介绍
[0002]随着电力海量数据的不断增长和电力业务系统的不断扩展,建立国网企业数据资产库,形成电力数据资产库尤为重要,数据资产库能够汇集企业所有能够产生价值的数据资源,为用户提供资产视图,快速了解企业资产,发现不良资产,为管理员提供决策依据,提升数据资产的价值。但是,电网企业数据资产库数据目前存在的突出问题是数据量大,电网各业务应用系统大多具有各自的数据管理系统,缺乏统一的数据整合和集中管理,统一访问困难。
技术实现思路
[0003]本公开的目的之一是通过提供一种基于知识图谱的数据资产库访问方法和装置,以解决
技术介绍
中提到的统一访问数据资产库困难的问题。
[0004]为实现上述目的,根据本公开的一个实施例,提供一种基于知识图谱的数据资产库访问方法,包括:根据第一现存系统的数据实体和数据实体之间的关系,以及基于SG-CIM统一信息模型和已有业务系统的数据,双向构建数据资产库的数据关联模型;通过构建统一的访问本体,对数据资产库中的数据进行访问,其中所述访问本体的知识库基于知识图谱进行完善。
[0005]可选地,所述基于SG-CIM统一信息模型和已有业务系统的数据,构建数据资产库的数据关联模型的步骤包括:获取第一现存系统的数据,根据第一现存系统和已有业务系统的数据以及两者的关联关系,形成第一现存系统数据的非结构化业务元数据;基于SG-CIM统一信息模型和非结构化业务元数据,构建结构化数据与非结构化数据的关联模型。
[0006]可选地,所述对数据资产库中的数据进行访问的步骤包括:向结构化数据中心发送访问请求,以获取所访问的相关设备的基础信息与非结构化数据的实体编码;根据结构化数据中心提供的非结构化数据实体编码,向非结构化数据管理平台发送访问请求,以获取基于数据实体编码对应的目标文档。
[0007]可选地,所述通过构建统一的访问本体,对数据资产库中的数据进行访问的步骤包括:通过对多个业务系统数据仓库中数据资产的实体、属性和关系进行抽取,构建统一的访问本体,以对多个业务系统的数据资产库中的数据进行统一访问。
[0008]可选地,所述访问本体的知识库基于知识图谱进行完善的步骤包括:基于知识图谱技术将从多个业务系统数据仓库检索得到的潜在的和遗漏的关联数据,通过结构化三元组的知识对数据仓库不同类型数据集进行相似度比较,获取关联信息,将统一访问本体进行完善。
[0009]根据本公开的另一个实施例,提供一种基于知识图谱的数据资产库访问装置,包
括:数据管理模型构建单元,用于根据第一现存系统的数据实体和数据实体之间的关系,以及基于SG-CIM统一信息模型和已有业务系统的数据,双向构建数据资产库的数据关联模型;数据访问单元,用于通过构建统一的访问本体,对数据资产库中的数据进行访问,其中所述访问本体的知识库基于知识图谱进行完善。
[0010]本公开的实施例可以实现以下有益效果:针对现有技术中企业级数据资产库中的数据量具有海量和分散的特点,即使将部分重要的数据整合在一起,也不可能实现完全的额数据库合并,本公开提出了一种基于知识图谱的数据资产库访问方法,通过构建统一访问本体,使得数据资产库的管理不再需要将所有数据库合并在一起,就能实现数据访问的统一管理。
[0011]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0012]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0013]图1为本申请一个实施例提供的基于知识图谱的数据资产库访问方法的流程示意图;
[0014]图2为根据本申请的一个实施例的申请访问数据资产库中的数据过程的示意图;
[0015]图3为根据本申请的一个实施例提供的基于知识图谱的数据资产库访问装置的示意性框图;
[0016]附图中相同或相似的附图标记代表相同或相似的结构。
具体实施方式
[0017]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0018]在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包括一个或多个相关联的列出项目的任何或所有可能组合。
[0019]根据本申请的一个方面的一个实施例,提供了一种基于知识图谱的数据资产库访问方法。请参考图1,所述数据资产库访问方法包括:
[0020]步骤S101,根据第一现存系统的数据实体和数据实体之间的关系,以及基于SG-CIM统一信息模型和已有业务系统的数据,双向构建数据资产库的数据关联模型。
[0021]步骤S102,通过构建统一的访问本体,对数据资产库中的数据进行访问,其中所述访问本体的知识库基于知识图谱进行完善。
[0022]具体地,对于步骤S101而言,其中的数据资产库可以包括但不限于电力数据资产库和其他行业及企业的数据资产库。数据资产库的构建通常包括数据采集、脏数据识别、数
据清洗和数据自动关联等过程,这些过程可以适用于本申请的实施例。以构建电网企业的数据资产库为例,本申请构建数据资产库的技术路线包括:
[0023]首先,在SG-CIM(国家电网公司公共数据模型)企业信息模型基础上开展关键业务元数据研究,梳理业务系统提炼形成现存系统数据与结构化业务元数据的关联元素,形成现存系统数据的非结构化业务元数据信息。其中,所述业务元数据可以包括业务名称、定义、描述等用于标识数据仓库和业务系统中各种属性的数据。其中所述业务系统数据仓库可以是基于业务数据的实体、实体之间的关系、实体属性等信息为基础而构建得到。其中,实体可以指业务系统中具有可区别性且独立存在的具体的事物。
[0024]其次,基于SG-CIM统一信息模型,结合非结构化关键业务元数据,形成结构化数据与非结构化数据的关联模型。
[0025]具体地,对于形成现存系统数据的非结构化业务元数据信息而言,可以包括以下两个子步骤:
[0026]第一,业务系统数据梳理。对电网企业现存系统中的数据与业务系统中的结构化数据关联关系进行梳理,采用自动化关联规则形成和手动关联关系录入结合的方式,确定来源业务系统、关联业务数据源表、关联字段信息、关联业务数据的取数逻辑、关联数据所属主题域(SG-CIM模型的主题域)等信息,并遵循CWM规范和SG-CIM规范,制定关联关系描述规范。
[0027]第二,现存本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于知识图谱的数据资产库访问方法,其特征在于,包括:根据第一现存系统的数据实体和数据实体之间的关系,以及基于SG-CIM统一信息模型和已有业务系统的数据,双向构建数据资产库的数据关联模型;通过构建统一的访问本体,对数据资产库中的数据进行访问,其中所述访问本体的知识库基于知识图谱进行完善。2.根据权利要求1所述的数据资产库访问方法,其特征在于,所述基于SG-CIM统一信息模型和已有业务系统的数据,构建数据资产库的数据关联模型的步骤包括:获取第一现存系统的数据,根据第一现存系统和已有业务系统的数据以及两者的关联关系,形成第一现存系统数据的非结构化业务元数据;基于SG-CIM统一信息模型和非结构化业务元数据,构建结构化数据与非结构化数据的关联模型。3.根据权利要求1所述的数据资产库访问方法,其特征在于,所述对数据资产库中的数据进行访问的步骤包括:向结构化数据中心发送访问请求,以获取所访问的相关设备的基础信息与非结构化数据的实体编码;根据结构化数据中心提供的非结构化数据实体编码,向非结构化数据管理平台发送访问请求,以获取基于数据实体编码对应的目标文档。4.根据权利要求1所述的数据资产库访问方法,其特征在于,所述通过构建统一的访问本体,对数据资产库中的数据进行访问的步骤包括:通过对多个业务系统数据仓库中数据资产的实体、属性和关系进行抽取,构建统一的访问本体,以对多个业务系统的数据资产库中的数据进行统一访问。5.根据权利要求1所述的数据资产库访问方法,其特征在于,所述访问本体的知识库基于知识图谱进行完善的步骤包括:基于知识图谱技术将从多个业务系统数据仓库检索得到的潜在的和遗漏的关联数据,通过结构化三元组的知识对数据仓库不同类型数据集进行相似度比较,获取关联信息,将统一访问本体进行完善。6.一种基...
【专利技术属性】
技术研发人员:乔林,陈硕,薄珏,徐立波,刘碧琦,王妍,齐俊,郭任,常将,李希,
申请(专利权)人:国网辽宁省电力有限公司信息通信分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。