一种数据清洗方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:32934885 阅读:21 留言:0更新日期:2022-04-07 12:25
本申请实施例属于大数据领域,涉及一种数据清洗方法,包括将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态;查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表;获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则;识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据;将所述清洗后数据存入所述目标表中。本申请还提供一种数据清洗装置、计算机设备及存储介质。本申请实现公共清洗流程,避免了资源的浪费。避免了资源的浪费。避免了资源的浪费。

【技术实现步骤摘要】
一种数据清洗方法、装置、计算机设备及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种数据清洗方法、装置、计算机设备及存储介质。

技术介绍

[0002]对于大多数的系统应用而言,清洗外部接入的数据,让数据变成符合系统内部应用的标准数据,使系统内部微服务群使用该标准数据,可以让系统变得稳定可靠,是非常有必要的。
[0003]然而,现有技术对数据进行清洗,会有比较复杂的处理逻辑和规则,存在代码侵入性高、复用性低等缺点,久而久之,会严重影响系统的性能和可读性,导致程序出错率增加、程序变得臃肿、后期的维护难度大、维护成本高等问题。而一般数据清洗逻辑都是高度定制化的,很难抽象出公共流程提供给项目共用,数据清洗流程设计比较少,一旦需要数据清洗,都需要固化在程序里,造成了资源的浪费。为此,针对系统应用急需设计出一套公共的清洗流程,以解决上述问题。

技术实现思路

[0004]本申请实施例的目的在于提出一种数据清洗方法、装置、计算机设备及存储介质,以解决数据清洗需要定制化和流程复杂的问题。
[0005]为了解决上述技术问题,本申请实施例提供一种数据清洗方法,采用了如下所述的技术方案:
[0006]一种数据清洗方法,包括下述步骤:
[0007]将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态;
[0008]查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表;
[0009]获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则;
[0010]识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据;
[0011]将所述清洗后数据存入所述目标表中。
[0012]进一步的,所述查找出与所述数据分类编码对应的用于存放待清洗数据的源表及用于存放清洗后数据的目标表的步骤包括:
[0013]识别所述清洗任务队列表中的数据分类编码;
[0014]根据所述数据分类编码中的类型码调取用于存放所述待清洗数据的所述源表,并根据所述数据分类编码中的目标码调取存放清洗后数据的所述目标表;
[0015]通过唯一识别码建立所述源表与所述目标表之间的映射关系。
[0016]进一步的,所述获取所述源表中的待清洗数据以及根据所述数据分类编码获取清
洗规则的步骤后还包括:
[0017]根据所述源表、所述目标表和所述清洗规则配置脚本文件;
[0018]所述在清洗状态为待清洗时根据所述清洗规则对所述待清洗字段进行数据清洗具体为:在清洗状态为待清洗时在配置的所述脚本文件中读取清洗规则,并通过清洗规则对所述待清洗字段进行数据清洗。
[0019]进一步的,所述在清洗状态为待清洗时根据所述清洗规则对所述待清洗字段进行数据清洗的步骤具体包括:
[0020]识别是否为首次数据清洗,若是则将所述清洗规则抓取至本地服务器;
[0021]根据所述清洗任务队列表中的批次号顺序识别所述清洗任务队列表中的清洗状态;
[0022]统计所述清洗状态为待清洗的批次号,调用所述批次号所对应的所述待清洗数据根据所述清洗规则进行清洗。
[0023]进一步的,在所述统计清洗状态为待清洗的批次号,调用每个批次号所对应的待清洗数据进行循环清洗的步骤之后还包括:
[0024]每清洗一条所述待清洗数据,将所述清洗任务队列表中所述待清洗数据的参数更新至预设的清洗任务队列历史表,并删除所述清洗任务队列表中所述待清洗数据的参数。
[0025]进一步的,所述将所述清洗后数据存入所述目标表中具体为:根据所述清洗任务队列表中的批次号顺序将所述清洗后数据存入所述目标表中。
[0026]为了解决上述技术问题,本申请实施例还提供一种数据清洗装置,采用了如下所述的技术方案:
[0027]一种数据清洗装置,包括:
[0028]第一存入模块,用于将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态;
[0029]查找模块,用于查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表;
[0030]获取模块,用于获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则;
[0031]清洗模块,用于识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据;
[0032]第二存入模块,用于将所述清洗后数据存入所述目标表中。
[0033]进一步的,所述查找模块包括:
[0034]识别子模块,用于识别所述清洗任务队列表中的数据分类编码;
[0035]调取子模块,用于根据所述数据分类编码中的类型码调取用于存放所述待清洗数据的所述源表,并根据所述数据分类编码中的目标码调取存放清洗后数据的所述目标表;
[0036]映射子模块,用于通过唯一识别码建立所述源表与所述目标表之间的映射关系。
[0037]为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
[0038]一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上述的数据清洗方法的步骤。
[0039]为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
[0040]一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上述的数据清洗方法的步骤。
[0041]与现有技术相比,本申请实施例主要有以下有益效果:
[0042]本专利技术通过将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态;查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表;获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则;识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据;将所述清洗后数据存入所述目标表中,本申请可以保证数据清洗逻辑独立,实现业务逻辑分离,让程序松耦合,并且把数据清洗流程用异步实现,既不影响程序的性能,数据清洗产生的异常也不影响业务,实现公共清洗流程,避免了资源的浪费。
附图说明
[0043]为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0044]图1是本申请可以应用于其中的示例性系统架构图;
[0045]图2根据本申请的数据清洗方法的一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括下述步骤:将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态;查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表;获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则;识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据;将所述清洗后数据存入所述目标表中。2.根据权利要求1所述的数据清洗方法,其特征在于,所述查找出与所述数据分类编码对应的用于存放待清洗数据的源表及用于存放清洗后数据的目标表的步骤包括:识别所述清洗任务队列表中的数据分类编码;根据所述数据分类编码中的类型码调取用于存放所述待清洗数据的所述源表,并根据所述数据分类编码中的目标码调取存放清洗后数据的所述目标表;通过唯一识别码建立所述源表与所述目标表之间的映射关系。3.根据权利要求1所述的数据清洗方法,其特征在于,所述获取所述源表中的待清洗数据以及根据所述数据分类编码获取清洗规则的步骤后还包括:根据所述源表、所述目标表和所述清洗规则配置脚本文件;所述在清洗状态为待清洗时根据所述清洗规则对所述待清洗字段进行数据清洗具体为:在清洗状态为待清洗时在配置的所述脚本文件中读取清洗规则,并通过清洗规则对所述待清洗字段进行数据清洗。4.根据权利要求1所述的数据清洗方法,其特征在于,所述在清洗状态为待清洗时根据所述清洗规则对所述待清洗字段进行数据清洗的步骤具体包括:识别是否为首次数据清洗,若是则将所述清洗规则抓取至本地服务器;根据所述清洗任务队列表中的批次号顺序识别所述清洗任务队列表中的清洗状态;统计所述清洗状态为待清洗的批次号,调用所述批次号所对应的所述待清洗数据根据所述清洗规则进行清洗。5.根据权利要求4所述的数据清洗方法,其特征在于,在所述统计清洗状态为待清...

【专利技术属性】
技术研发人员:武超
申请(专利权)人:平安普惠企业管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1