一种基于命名规则和缓存机制的知识图谱构的操作方法技术

技术编号:31844375 阅读:16 留言:0更新日期:2022-01-12 13:24
本发明专利技术提供了一种基于命名规则和缓存机制的知识图谱构的操作方法,包括以下步骤:数据采集

【技术实现步骤摘要】
一种基于命名规则和缓存机制的知识图谱构的操作方法


[0001]本专利技术涉及一种基于命名规则和缓存机制的知识图谱构的操作方法,属于知识图谱构建和数据存储管理利用
,具体涉及一种基于命名规则和缓存机制的知识图谱构建更新回滚和知识图谱数据管理。

技术介绍

[0002]随着计算机技术、信息通信技术和互联网技术的不断发展,电子数据呈现爆发式增长,推动了大数据、人工智能等一系列领域和相关技术的发展,从海量数据中挖掘分析有效信息的技术和能力也愈发重要。尽管目前以机器学习和深度学习为代表的大数据挖掘分析相关技术已经取得众多成果,但是海量数据的挖掘分析依旧存在重复性工作占比高、海量数据频繁处理导致的资源消耗大、部分分析过程可解释性差等问题。为解决上述问题,知识图谱相关理论和技术迎来了新的机遇和发展。
[0003]知识图谱能把海量的数据、不同领域的知识通过数据挖掘分析、信息处理、数据融合、知识抽取和表示、知识融合推理和图形绘制而表示出来,以更为简洁直观的方式揭示知识领域的动态发展规律,支撑基于知识的更高一层的数据分析和挖掘,为学科研究提供切实的、有价值的参考和数据、技术支撑。
[0004]知识图谱的构建属于一个不断迭代和完善的过程,随着人工经验和数据体量的不断增加,知识图谱的规模也会越来越大,实体关系网络复杂程度呈倍数增长,相应的数据更新、校验和问题的发现也就越来越困难。不仅如此,由于现有大部分知识图谱数据库技术方案和硬件条件的优化策略,使得少量多频次的大规模知识图谱的数据更新速度较慢,不如大批量低频次的数据更新迅速,而且许多知识图谱数据库不具备传统关系型数据库所具备的过程日志和回滚功能,一旦出错难以进行问题和数据的追溯,使得知识图谱数据更新和管理存在较大困难。
[0005]为了保证计算机数据的可用性、时效性、准确性和稳定性,在计算机存储、网页浏览器等众多场景下均使用了缓存这一设计。因此借鉴于缓存这一设计,结合大规模数据挖掘分析计算中中间层数据的设计,通过合理规范的命名规则、数据缓存策略和数据备份策略,在海量数据和人工经验分析处理与知识图谱构建管理之间设计一个过渡层,以提升知识图谱构建的自动化程度、数据校对的细致程度,降低知识图谱构建和使用的难度,支持知识图谱数据库数据的快速拆分、融合、备份,支持知识图谱构建管理过程中的数据回滚、问题追溯等需求的实现,进而实现知识图谱构建使用的全过程有效管理,以更好地支撑知识图谱相关技术的研究和应用的实现。

技术实现思路

[0006]为解决上述技术问题,本专利技术提供了一种基于命名规则和缓存机制的知识图谱构的操作方法,该基于命名规则和缓存机制的知识图谱构的操作方法通过制定内容更为丰富的知识图谱schema、合理的命名规范、详细的数据缓存策略,开发集成多个功能为一体的图
谱数据管理模块、日志管理模块,在知识图谱数据库和图谱构成数据之间增加缓存层,实现知识图谱的快速构建、全过程管理、数据校对及问题追溯、回滚操作等。
[0007]本专利技术通过以下技术方案得以实现。
[0008]本专利技术提供的一种基于命名规则和缓存机制的知识图谱构的操作方法,包括以下步骤:
[0009]①
数据采集:通过接口、爬虫获取构建知识图谱的多模态数据;
[0010]②
建立知识图谱schema:建立用于指导知识图谱实体数据、关联数据挖掘存储的图谱schema;
[0011]③
确定缓存策略:确定缓存数据存储位置、数据存储方式及数据备份策略,并确定需要缓存的数据范围,再构建缓存文件夹、缓存文件命名规则;
[0012]④
图谱数据管理模块开发:完成缓存文件自动读取对比识别模块、图谱数据导入更新删除回滚模块、缓存文件管理模块的开发和测试;
[0013]⑤
实体关系数据抽取:按照图谱schema规划内容,从采集的数据中抽取知识图谱必要的实体属性数据和关联关系属性数据;
[0014]⑥
数据缓存及更新校对:按照缓存策略的要求,将抽取得到的实体关系数据进行存储从而得到缓存数据,当缓存数据的积累满足一定条件时,使用图谱数据管理模块进行数据的初步校对及更新,对问题数据进行处理;
[0015]⑦
图谱生成及二次校对:使用图谱数据管理模块自动将完成初步校对更新的数据导入知识图谱数据库,并对更新之后的知识图谱进行二次数据校对工作,根据数据校对情况确定数据调整策略,然后生产图谱;
[0016]⑧
缓存数据备份及管理:根据缓存数据备份策略完成缓存数据的备份及管理。
[0017]所述步骤

分为以下步骤:
[0018](1.1)通过接口、爬虫获取构建知识图谱所必须的常规数值数据、文本数据、图像数据、视频数据、语音数据,形成多模态数据;
[0019](1.2)对获取的多模态数据进行初步的数据清洗、数据处理,并按照数据格式进行分类储存。
[0020]所述步骤

分为以下步骤:
[0021](2.1)定义知识图谱构建的基本原则和约定,包括背景说明、图谱用途说明、数据需求及图谱需求说明、数据保密约定、数据解释、专业词汇解释、数据字段命名约定、数据来源、数据形式;
[0022](2.2)定义知识图谱实体数据及关联关系数据的概念、唯一性约束、类别、域定义、属性命名、属性解释、数据关联方式、属性约束、关联约束;
[0023](2.3)定义知识图谱技术选型及图谱架构,包括图谱数据存储技术、图谱数据检索应用技术、图谱架构组成、图谱及数据开发环境;
[0024](2.4)定义知识图谱备注信息,包括使用到的其他工具、数据、存在的问题。
[0025]所述步骤

分为以下步骤:
[0026](3.1)确定缓存数据的范围、存储位置、存储方式;
[0027](3.2)确定缓存数据的备份策略,包括备份数据命名规则、备份位置、备份数量、备份数据管理及使用策略;
[0028](3.3)定义实体及关联关系数据存储文件夹命名规则;
[0029](3.4)定义实体及关联关系数据对应缓存数据的命名规则。
[0030]所述步骤(3.1)中,缓存数据的范围包括全部数据缓存和部分数据缓存;存储位置包括本地文件系统、本地服务器、云服务器,缓存数据存在相同路径或者多个路径文件系统中;存储方式包括结构化数据存储、非结构化数据存储、半结构化数据存储;
[0031]所述步骤(3.2)中,数据备份位置包括本地和服务器;
[0032]所述步骤(3.4)中,缓存数据存储名称中包含实体或关系关键字词或代号、数据唯一性字段名称或代号、新建实体或关系类型的名称或代号、数据更新时间或代号、数据处理方式或代号、其他数据相关说明或代号,名称中各信息顺序不限制,各信息之间通过特定字符进行间隔识别并保证命名满足系统文件命名要求。
[0033]所述步骤

分为以下步骤:
[0034本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于命名规则和缓存机制的知识图谱构的操作方法,其特征在于:包括以下步骤:

数据采集:通过接口、爬虫获取构建知识图谱的多模态数据;

建立知识图谱schema:建立用于指导知识图谱实体数据、关联数据挖掘存储的图谱schema;

确定缓存策略:确定缓存数据存储位置、数据存储方式及数据备份策略,并确定需要缓存的数据范围,再构建缓存文件夹、缓存文件命名规则;

图谱数据管理模块开发:完成缓存文件自动读取对比识别模块、图谱数据导入更新删除回滚模块、缓存文件管理模块的开发和测试;

实体关系数据抽取:按照图谱schema规划内容,从采集的数据中抽取知识图谱必要的实体属性数据和关联关系属性数据;

数据缓存及更新校对:按照缓存策略的要求,将抽取得到的实体关系数据进行存储从而得到缓存数据,当缓存数据的积累满足一定条件时,使用图谱数据管理模块进行数据的初步校对及更新,对问题数据进行处理;

图谱生成及二次校对:使用图谱数据管理模块自动将完成初步校对更新的数据导入知识图谱数据库,并对更新之后的知识图谱进行二次数据校对工作,根据数据校对情况确定数据调整策略,然后生产图谱;

缓存数据备份及管理:根据缓存数据备份策略完成缓存数据的备份及管理。2.如权利要求1所述的基于命名规则和缓存机制的知识图谱构的操作方法,其特征在于:所述步骤

分为以下步骤:(1.1)通过接口、爬虫获取构建知识图谱所必须的常规数值数据、文本数据、图像数据、视频数据、语音数据,形成多模态数据;(1.2)对获取的多模态数据进行初步的数据清洗、数据处理,并按照数据格式进行分类储存。3.如权利要求1所述的基于命名规则和缓存机制的知识图谱构的操作方法,其特征在于:所述步骤

分为以下步骤:(2.1)定义知识图谱构建的基本原则和约定,包括背景说明、图谱用途说明、数据需求及图谱需求说明、数据保密约定、数据解释、专业词汇解释、数据字段命名约定、数据来源、数据形式;(2.2)定义知识图谱实体数据及关联关系数据的概念、唯一性约束、类别、域定义、属性命名、属性解释、数据关联方式、属性约束、关联约束;(2.3)定义知识图谱技术选型及图谱架构,包括图谱数据存储技术、图谱数据检索应用技术、图谱架构组成、图谱及数据开发环境;(2.4)定义知识图谱备注信息,包括使用到的其他工具、数据、存在的问题。4.如权利要求1所述的基于命名规则和缓存机制的知识图谱构的操作方法,其特征在于:所述步骤

分为以下步骤:(3.1)确定缓存数据的范围、存储位置、存储方式;(3.2)确定缓存数据的备份策略,包括备份数据命名规则、备份位置、备份数量、备份数据管理及使用策略;
(3.3)定义实体及关联关系数据存储文件夹命名规则;(3.4)定义实体及关联关系数据对应缓存数据的命名规则。5.如权利要求4所述的基于命名规则和缓存机制的知识图谱构的操作方法,其特征在于:所述步骤(3.1)中,缓存数据的范围包括全部数据缓存和部分数据缓存;存储位置包括本地文件系统、本地服务器、云服务器,缓存数据存在相同路径或者多个路径文件系统中;存储方式包括结构化数据存储、非结构化数据存储、半结构化数据存储;所述步骤(3.2)中,数据备份位置包括本地和服务器;所述步骤(3.4)中,缓存数据存储名称中包含实体或关系关键字词或代号、数据唯一性字段名称或代号、新建...

【专利技术属性】
技术研发人员:印忠文任学强常兵褚志海李响赵龙军
申请(专利权)人:中国雄安集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1