基于元数据模型的工程领域知识图谱构建方法技术

技术编号:28978792 阅读:14 留言:0更新日期:2021-06-23 09:24
本发明专利技术公开了一种基于元数据模型的工程领域知识图谱构建方法,包括以下步骤:汇总工程项目中的各类基础数据以构建业务数据源;基于业务数据源中的各类基础数据构建知识图谱本体层,包括本体、本体属性以及本体关系;基于知识图谱本体层构建元数据层,元数据层包括若干个元数据模型;构建数据任务层,包括数据提取任务、数据清洗任务以及数据存储任务;构建知识图谱存储层,以存储由数据任务层所构建的知识图谱;构建知识图谱应用层,知识图谱应用层包括数据获取接口、数据看板以及数据血缘展示模块。本发明专利技术的优点是:基于元数据模型,提出了对工程领域数据的校核、追溯及同步方法,高效地实现知识图谱的标准化构建、管理与应用。

【技术实现步骤摘要】
基于元数据模型的工程领域知识图谱构建方法
本专利技术属于数据处理
,具体涉及一种基于元数据模型的工程领域知识图谱构建方法。
技术介绍
构建工程领域知识图谱时,需要处理大量与工程业务相关的基础数据。业务数据具有来源多样异构、正确性不定,并随企业业务进行不定时更新等特点。采用常规技术手段构建工程领域知识图谱时存在以下难点:构建知识图谱本体层时,需要将多源异构的业务基础数据进行整理清洗,难以保证知识图谱中数据的正确性和完备性;当业务数据更新时,会涉及多个本体数据的更新,知识图谱的知识同步过程较为繁琐,一定程度上存在知识滞后的情况;此外,当业务中需要使用知识图谱中的数据时,图谱数据的读取过程对业务操作人员不友好,存取效率及数据安全性难以保证。为解决构建工程领域知识图谱的上述难点,本专利技术基于元数据模型,提出了对工程领域数据的校核、追溯及同步方法,高效地实现知识图谱的标准化构建、管理与应用。
技术实现思路
本专利技术的目的是根据上述现有技术的不足之处,提供一种基于元数据模型的工程领域知识图谱构建方法,该方法通过基于元数据模型,提出了对工程领域数据的校核、追溯及同步方法,高效地实现知识图谱的标准化构建。本专利技术目的实现由以下技术方案完成:一种基于元数据模型的工程领域知识图谱构建方法,其特征在于所述构建方法包括以下步骤:(1)汇总工程项目中的各类基础数据以构建业务数据源;(2)基于所述业务数据源中的各类基础数据构建知识图谱本体层,所述知识图谱本体层包括本体、本体属性以及本体关系;(3)基于所述知识图谱本体层构建元数据层以定义所述业务数据源与所述知识图谱本体层之间的映射关系,其中,所述元数据层包括若干个元数据模型,各所述元数据模型分别对应不同的应用场景;(4)构建数据任务层,所述数据任务层包括数据提取任务、数据清洗任务以及数据存储任务;(5)构建知识图谱存储层,以存储由所述数据任务层所构建的知识图谱;(6)构件知识图谱应用层,所述知识图谱应用层包括数据获取接口、数据看板以及数据血缘展示模块。所述基础数据包括勘察数据、监测数据、施工数据以及设计数据。所述元数据模型包含有若干个在业务逻辑上相关联的字段,所述字段具有统一的数据规范标准,所述数据规范标准包括字段命名标准、字段说明、字段数据类型规范、数据存储位置以及数据血缘;所述字段具有对应的数据处理方法的声明。所述字段数据类型规范用以描述所述字段的标准数据存储类型,所述标准数据存储类型包括基本数据类型和集合数据类型,所述基本数据类型为int、float或string,所述集合数据类型为列表、哈希表或元组。所述数据血缘为所述字段之间的相互依赖关系。所述数据任务层中的所述数据提取任务、所述数据清洗任务以及所述数据存储任务分别具有各自的数据处理方法。所述数据提取任务的数据处理方法是从所述业务数据源中全量或增量地提取源数据,并对所述源数据进行字段拆分、空值处理以及重复数据处理;所述数据清洗任务的数据处理方法为将经所述数据提取任务处理后的源数据转换为符合所述元数据模型标准的格式;所述数据存储任务的数据处理方法为将经所述数据清洗任务清洗后的源数据进行数据范围校验、数据唯一性与一致性校验、数据更新,之后存储入所述知识图谱中。所述知识图谱存储层由图数据库、关系型数据库、非关系数据库、本地服务器或云服务器中的一类或多类组成。所述数据获取接口对所述知识图谱存储层中的不同存储位置封装了统一数据读取方式,所述数据获取接口可根据用户的权限读取所述权限在所述知识图谱存储层中对应存储位置的数据。本专利技术的优点是:基于元数据模型,提出了对工程领域数据的校核、追溯及同步方法,高效地实现知识图谱的标准化构建、管理与应用,适用于工民建、桥梁、隧道等各类工程领域知识图谱的构建、管理与应用。附图说明图1为本专利技术中基于元数据模型的工程领域知识图谱构建方法的流程示意图;图2为本专利技术中数据血缘展示以有向图的方式展示元数据模型及其中各字段的依赖关系的示意图;图3为本专利技术中隧道工程知识图谱本体层的示意图。具体实施方式以下结合附图通过实施例对本专利技术的特征及其它相关特征作进一步详细说明,以便于同行业技术人员的理解:实施例:如图1、2所示,本实施例以构建隧道工程领域知识图谱为例,具体涉及一种基于元数据模型的工程领域知识图谱构建方法,该构建方法包括以下步骤:(1)整理汇总隧道工程项目中各类基础数据,包括但不限于勘察数据、监测数据、施工数据、设计数据等基础数据,形成隧道工程领域的业务数据源。(2)基于业务数据源中的各类基础数据构建工程领域内的知识图谱本体层,包括本体、本体属性以及本体关系;知识图谱本体层应准确、全面地覆盖隧道工程的各类数据。以隧道工程知识图谱本体层中的隧道区间、隧道管片与病害三个本体为例进行说明。其中,隧道区间的本体属性包括所属线路、区间名称、开通时间、拼装形式等;隧道管片的本体属性包括所属区间、环号、坐标、埋深、变形测值、有无病害等;病害的本体属性包括病害类型、发现时间、严重程度、发现位置等。所述本体、本体属性及之间的本体关系如图3所示。(3)基于知识图谱本体层,构建知识图谱的元数据层,以定义业务数据源与知识图谱本体层间的映射关系。本实施例中,面向隧道工程的设计、施工、监测等不同应用场景,建立若干元数据模型,各元数据模型共同组成隧道工程领域的知识图谱的元数据层。元数据模型包含有多个在业务逻辑上相关的字段,并对各字段定义了统一的数据规范标准,包括字段命名规范、字段说明、字段数据类型规范、数据存储位置、数据血缘等元数据的标准定义,以及该字段对应的数据处理方法的声明。其中,字段数据类型规范描述了字段的标准数据存储类型,该标准数据存储类型包括基本数据类型和集合数据类型,基本数据类型为int、float、string等,集合数据类型为列表、哈希表或元组等;此外,字段类型可以为另一个元数据模型或是元数据模型的集合。如果一个字段的数据类型为集合类型,如下方列表,列表中的元素除基本数据类型外,也可以是另一个元数据模型,例:元数据模型1{字段1:int字段2:string字段3:list[int]}元数据模型2{字段1:list[元数据模型1]字段2:int}其中,数据血缘记录了该字段所依赖的其他字段,以便在数据更新与分析时进行溯源。每个字段可以有多个被依赖字段,同时也可能被多个字段依赖。被依赖字段可以是同一元数据模型中的其它字段,也可以是其他元数据模型中的字段。以隧道工程管片测值的元数据模型为例,其中包含管片环号、管片坐标、变形测值、监测时间以及是否危险等多个字段。该元数据模型中每个字段的命名规范、字段说明、数据类型、数据存储位置与数据血缘关系的定义如下表所示:...

【技术保护点】
1.一种基于元数据模型的工程领域知识图谱构建方法,其特征在于所述构建方法包括以下步骤:/n(1)汇总工程项目中的各类基础数据以构建业务数据源;/n(2)基于所述业务数据源中的各类基础数据构建知识图谱本体层,所述知识图谱本体层包括本体、本体属性以及本体关系;/n(3)基于所述知识图谱本体层构建元数据层以定义所述业务数据源与所述知识图谱本体层之间的映射关系,其中,所述元数据层包括若干个元数据模型,各所述元数据模型分别对应不同的应用场景;/n(4)构建数据任务层,所述数据任务层包括数据提取任务、数据清洗任务以及数据存储任务;/n(5)构建知识图谱存储层,以存储由所述数据任务层所构建的知识图谱;/n(6)构建知识图谱应用层,所述知识图谱应用层包括数据获取接口、数据看板以及数据血缘展示模块。/n

【技术特征摘要】
1.一种基于元数据模型的工程领域知识图谱构建方法,其特征在于所述构建方法包括以下步骤:
(1)汇总工程项目中的各类基础数据以构建业务数据源;
(2)基于所述业务数据源中的各类基础数据构建知识图谱本体层,所述知识图谱本体层包括本体、本体属性以及本体关系;
(3)基于所述知识图谱本体层构建元数据层以定义所述业务数据源与所述知识图谱本体层之间的映射关系,其中,所述元数据层包括若干个元数据模型,各所述元数据模型分别对应不同的应用场景;
(4)构建数据任务层,所述数据任务层包括数据提取任务、数据清洗任务以及数据存储任务;
(5)构建知识图谱存储层,以存储由所述数据任务层所构建的知识图谱;
(6)构建知识图谱应用层,所述知识图谱应用层包括数据获取接口、数据看板以及数据血缘展示模块。


2.根据权利要求1所述的一种基于元数据模型的工程领域知识图谱构建方法,其特征在于所述基础数据包括勘察数据、监测数据、施工数据以及设计数据。


3.根据权利要求1所述的一种基于元数据模型的工程领域知识图谱构建方法,其特征在于所述元数据模型包含有若干个在业务逻辑上相关联的字段,所述字段具有统一的数据规范标准,所述数据规范标准包括字段命名标准、字段说明、字段数据类型规范、数据存储位置以及数据血缘;所述字段具有对应的数据处理方法的声明。


4.根据权利要求3所述的一种基于元数据模型的工程领域知识图谱构建方法,其特征在于所述字段数据类型规范用以描述所述字段的标准数据存储类型,所述标准数据存储类型包括基本数据类型和集合数据类型,...

【专利技术属性】
技术研发人员:杜续苏辉焦宝时波杨石飞许丽萍
申请(专利权)人:上海勘察设计研究院集团有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1