一种基于知识图谱的自动数据清洗方法技术

技术编号:35038853 阅读:12 留言:0更新日期:2022-09-24 23:16
本发明专利技术公开了一种基于知识图谱的自动数据清洗方法,包括:获取待清洗数据,生成知识图谱;获取待清洗数据所属领域的业务领域知识,基于业务领域知识调整初始知识图谱,获得最终知识图谱,通过路径排序推理算法调整数据清洗顺序和流程;从最终知识图谱中获取待清洗数据的字段对应的清洗要求和规则,组织清洗逻辑;基于数据清洗顺序、流程及逻辑对待清洗数据进行数据清洗,清洗完成后将数据输出。本发明专利技术使用知识图谱来存放数据清洗相关的信息,并通过图谱的推理和查询能力,自动构建数据清洗流程和逻辑,相比原有硬编码方式实现数据清洗的过程,更加灵活,可维护性更高,工作量小,效率高,准确率高。准确率高。准确率高。

【技术实现步骤摘要】
一种基于知识图谱的自动数据清洗方法


[0001]本专利技术属于数据业务领域,特别是涉及一种基于知识图谱的自动数据清洗方法。

技术介绍

[0002]数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误、处理无效值和缺失值等。
[0003]数据清洗一直是一个费时费力的难题。一方面需要投入大量的人力资源,对数据进行人为的清洗工作;另一方面,投入数据清洗的工作人员既要掌握数据处理技术,又要对数据产生的业务领域有所了解。
[0004]当前的技术方案中,通常需要数据清洗人员手工编写SQL代码实现,通过人工检查,逐个验证数据,或者通过预先设定的规则,进行过滤和校验。

技术实现思路

[0005]本专利技术的目的是提供一种基于知识图谱的自动数据清洗方法,以解决上述现有技术存在的问题。
[0006]为实现上述目的,本专利技术提供了一种基于知识图谱的自动数据清洗方法,包括:
[0007]从数据文件或数据库中获取待清洗数据,基于待清洗数据,自动生成初始知识图谱;
[0008]获取所述待清洗数据所属领域的业务领域知识,基于所述业务领域知识调整所述初始知识图谱,获得最终知识图谱;
[0009]基于所述最终知识图谱,通过路径排序推理算法调整数据清洗顺序和数据清洗流程;
[0010]基于所述最终知识图谱,获取所述待清洗数据的字段对应的清洗要求与清洗规则,基于所述清洗要求与所述清洗规则组织清洗逻辑;
[0011]基于所述数据清洗顺序、所述数据清洗流程及所述清洗逻辑对待清洗数据进行数据清洗;
[0012]数据清洗完毕后,将清洗后的数据输出至文件或目标数据库。
[0013]可选的,所述初始知识图谱的获取过程包括:基于待清洗数据中的字段名称、字段长度、字段内容以及取值范围生成所述初始知识图谱的节点,基于待清洗数据中表之间的主外键关系,生成所述初始知识图谱的边。
[0014]可选的,所述最终知识图谱的获取过程包括:将所述业务领域知识中的名词补充定义为所述初始知识图谱的节点或根据所述名词对所述初始知识图谱的节点进行调整,将业务领域知识中的名词间的关系补充定义为所述初始知识图谱的边或根据名词间的关系对所述初始知识图谱的边进行调整,获得最终知识图谱,其中,名词指业务领域中的实体。
[0015]可选的,调整所述数据清洗顺序和所述数据清洗流程的过程包括:基于路径排序推理算法对所述最终知识图谱进行遍历,将所述字段按照亲密度进行排序,得到待清洗数
据中最重要的数据字段,确定数据清洗的顺序和流程。
[0016]可选的,所述清洗过滤的过程包括:剔除不符合规则与要求的数据,并记入清洗日志,按照计算逻辑及清洗顺序自动计算填充字段数据,并将结果记录至缓存。
[0017]本专利技术还提供了一种基于知识图谱的自动数据清洗系统,包括:数据加载模块、数据图谱模块、数据清洗模块、数据输出模块;数据加载模块分别与所述数据图谱模块、所述数据清洗模块连接,数据图谱模块与数据清洗模块相连,数据清洗模块与数据输出模块相连。
[0018]可选的,所述数据加载模块用于从数据文件或者数据库中获取待清洗数据,数据图谱模块基于所述待清洗数据生成初始知识图谱。
[0019]可选的,获取待清洗数据所属领域的业务领域知识,所述数据图谱模块基于所述业务领域知识,对所述初始知识谱图进行调整,获得最终知识图谱。
[0020]可选的,所述数据清洗模块用于从所述最终知识图谱获取数据清洗顺序、数据清洗流程及所述清洗逻辑,获取后对待清洗数据进行数据清洗。
[0021]可选的,所述数据输出模块用于将清洗后的数据输出至文件或目标数据库本专利技术的技术效果为:
[0022]本专利技术使用知识图谱来存放数据清洗相关的信息、规则,并通过图谱的推理和查询能力,自动构建数据清洗流程和逻辑,相比原有硬编码方式实现数据清洗的过程,更加灵活,可维护性更高。本申请中,通过维护知识图谱,即可完成数据清洗流程的调整,工作量小,效率高,准确率高。解决传统数据清洗过程,由于清洗流程和逻辑均通过硬编码方式实现而造成的业务调整、数据发生变化时,需要对原清洗代码进行修改,工作量大、易出错的问题。
附图说明
[0023]构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0024]图1为本专利技术实施例中的流程图。
具体实施方式
[0025]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0026]需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0027]实施例一
[0028]如图1所示,本实施例中提供一种基于知识图谱的自动数据清洗方法,包括:
[0029]从数据文件或数据库中获取待清洗数据,基于待清洗数据,自动生成初始知识图谱;
[0030]获取待清洗数据所属领域的业务领域知识,基于业务领域知识调整初始知识图谱,获得最终知识图谱;
[0031]基于最终知识图谱,通过路径排序推理算法调整数据清洗顺序和数据清洗流程;
[0032]基于最终知识图谱,获取待清洗数据的字段对应的清洗要求与清洗规则,基于清洗要求与清洗规则组织清洗逻辑;
[0033]基于数据清洗顺序、数据清洗流程及清洗逻辑对待清洗数据进行数据清洗;
[0034]数据清洗完毕后,将清洗后的数据输出至文件或目标数据库。
[0035]在一些实施例中,初始知识图谱的获取过程包括:基于待清洗数据中的字段名称、字段长度、字段内容以及取值范围生成初始知识图谱的节点,基于待清洗数据中表之间的主外键关系,生成初始知识图谱的边。
[0036]在一些实施例中,最终知识图谱的获取过程包括:将业务领域知识中的名词补充定义为初始知识图谱的节点或根据名词对初始知识图谱的节点进行调整,将业务领域知识中的名词间的关系补充定义为初始知识图谱的边或根据名词间的关系对初始知识图谱的边进行调整,获得最终知识图谱,其中,名词指业务领域中的实体。
[0037]在一些实施例中,调整数据清洗顺序和数据清洗流程的过程包括:基于路径排序推理算法对最终知识图谱进行遍历,将字段按照亲密度进行排序,得到待清洗数据中最重要的数据字段,确定数据清洗的顺序和流程。
[0038]在一些实施例中,清洗过滤的过程包括:剔除不符合规则与要求的数据,并记入清洗日志,按照计算逻辑及清洗顺序自动计算填充字段数据,并将结果记录至缓存。
[0039]实施例二
[0040]本实施例中提供一种基于知识图谱的自动数据清洗方法,包括:数据加载模块,数据图谱模块,数据清洗模块,数据输出模块。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的自动数据清洗方法,其特征在于,包括以下步骤:从数据文件或数据库中获取待清洗数据,基于待清洗数据,自动生成初始知识图谱;获取所述待清洗数据所属领域的业务领域知识,基于所述业务领域知识调整所述初始知识图谱,获得最终知识图谱;基于所述最终知识图谱,通过路径排序推理算法调整数据清洗顺序和数据清洗流程;基于所述最终知识图谱,获取所述待清洗数据的字段对应的清洗要求与清洗规则,基于所述清洗要求与所述清洗规则组织清洗逻辑;基于所述数据清洗顺序、所述数据清洗流程及所述清洗逻辑对待清洗数据进行数据清洗;数据清洗完毕后,将清洗后的数据输出至文件或目标数据库。2.根据权利要求1所述的基于知识图谱的自动数据清洗方法,其特征在于,所述初始知识图谱的获取过程包括:基于待清洗数据中的字段名称、字段长度、字段内容以及取值范围生成所述初始知识图谱的节点,基于待清洗数据中表之间的主外键关系,生成所述初始知识图谱的边。3.根据权利要求1所述的基于知识图谱的自动数据清洗方法,其特征在于,所述最终知识图谱的获取过程包括:将所述业务领域知识中的名词补充定义为所述初始知识图谱的节点或根据所述名词对所述初始知识图谱的节点进行调整,将业务领域知识中的名词间的关系补充定义为所述初始知识图谱的边或根据名词间的关系对所述初始知识图谱的边进行调整,获得最终知识图谱,其中,名词指业务领域中的实体。4.根据权利要求2所述的基于知识图谱的自动数据清洗方法,其特征在于,调整所述数据清洗顺序和所述数据清洗流程的过...

【专利技术属性】
技术研发人员:程凯征
申请(专利权)人:苏州数猎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1