一种数据清洗的方法技术

技术编号:39649117 阅读:7 留言:0更新日期:2023-12-09 11:17
本申请公开了一种数据清洗的方法

【技术实现步骤摘要】
一种数据清洗的方法、装置、设备及介质


[0001]本申请涉及大数据领域,特别是指一种数据清洗的方法

装置

设备及介质


技术介绍

[0002]数据清洗是指对数据进行重新审查和校验的过程中,发现并纠正数据文件中可识别的错误,按照一定的规则把错误或冲突的数据洗掉,数据清洗包括检查数据一致性,处理无效值和缺失值等

目前,针对大量数据文件的整合过程,通常都会应用到数据清洗

[0003]在现有技术中,针对大量数据文件的数据清洗可能存在遗漏文件数据的风险


技术实现思路

[0004]有鉴于此,本申请提供了一种数据清洗的方法

装置

设备及介质,从而达到降低遗漏文件数据的风险的目的

[0005]本申请提供的一种数据清洗的方法是这样实现的:
[0006]获取文件配置参数表,文件配置参数表用于指示需要进行数据清洗的第一文件集合,第一文件集合包含多个文件,且第一文件集合中的多个文件均基于同一模板生成;
[0007]接收第一文件的成功上传信息,在文件上传记录表上添加第一文件对应的上传记录,第一文件为第一文件集合中的至少一个文件;
[0008]若根据文件上传记录表,确定第一文件集合中的所有文件均已成功上传,则在文件到齐表中添加到齐记录;
[0009]根据到齐记录,对第一文件集合中的所有文件进行数据清洗

[0010]可选地,文件配置参数表包括:第一文件集合中的多个文件对应的源系统的系统编号

模板名称和区域编号,以及第一文件集合中的多个文件各自对应的文件名前缀;
[0011]根据文件上传记录表,确定第一文件集合中的所有文件均已成功上传,包括:
[0012]基于文件上传记录表,根据源系统的系统编号

模板名称以及区域编号进行查询,得到查询列表,查询列表包含多条上传记录;
[0013]根据第一文件集合中的多个文件各自对应的文件名前缀,确定第一文件集合中的所有文件均在查询列表中有对应的上传记录

[0014]可选地,到齐记录包括:
[0015]源系统的系统编号

模板名称

区域编号

到齐日期,以及第一文件集合中的多个文件对应的源目录

[0016]可选地,根据到齐记录,对第一文件集合中的所有文件进行数据清洗,包括:
[0017]根据到齐记录中的源目录,获取第一文件集合中的所有文件;
[0018]对第一文件集合中的所有文件进行数据清洗

[0019]可选地,文件配置参数表还包括:文件上传频率;
[0020]则方法还包括:
[0021]根据文件上传频率,获取需要进行数据清洗的第二文件集合,第二文件集合中的
多个文件与第一文件集合中的多个文件均基于同一模板生成;
[0022]根据第二文件集合中的多个文件对应的源系统的系统编号

模板名称和区域编号,以及第二文件集合中的多个文件各自对应的文件名前缀,重新配置文件配置参数表

[0023]可选地,第一文件对应的上传记录包括:源系统的系统编号

模板名称

区域编号,以及第一文件对应的文件名

数据日期以及源目录

[0024]本申请还提供了一种数据清洗的装置,包括:获取模块

添加模块以及数据清洗模块;
[0025]获取模块,用于获取文件配置参数表,文件配置参数表用于指示需要进行数据清洗的第一文件集合,第一文件集合包含多个文件,且第一文件集合中的多个文件均基于同一模板生成;
[0026]添加模块,用于接收第一文件的成功上传信息,在文件上传记录表上添加第一文件对应的上传记录,第一文件为第一文件集合中的至少一个文件;
[0027]添加模块,还用于若根据文件上传记录表,确定第一文件集合中的所有文件均已成功上传,则在文件到齐表中添加到齐记录;
[0028]数据清洗模块,用于根据到齐记录,对第一文件集合中的所有文件进行数据清洗

[0029]可选地,文件配置参数表包括:第一文件集合中的多个文件对应的源系统的系统编号

模板名称和区域编号,以及第一文件集合中的多个文件各自对应的文件名前缀;
[0030]则添加模块,具体用于基于文件上传记录表,根据源系统的系统编号

模板名称以及区域编号进行查询,得到查询列表,查询列表包含多条上传记录;根据第一文件集合中的多个文件各自对应的文件名前缀,确定第一文件集合中的所有文件均在查询列表中有对应的上传记录

[0031]本申请还提供了一种计算机设备,包括:处理器,处理器与存储器耦合,存储器中存储有至少一条计算机程序指令,至少一条计算机程序指令由处理器加载并执行,以使计算机设备实现数据清洗的方法

[0032]本申请还提供了一种计算机存储介质,用于存储计算机程序,计算机程序被执行时,用于实现数据清洗的方法

[0033]因此,本申请的有益效果是:通过设置文件配置参数表,可以确定需要进行数据清洗的文件,同时设置文件上传记录表,用于记录已上传的文件,以及设置文件到齐表,用于在需要进行数据清洗的文件均已成功上传时进行记录,从而可以在需要进行数据清洗的文件均已成功上传时才进行数据清洗,因此降低了遗漏文件数据的风险

附图说明
[0034]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,还可以根据提供的附图获得其他的附图

[0035]图1为本申请第一实施例的流程图;
[0036]图2为本申请第二实施例的流程图;
[0037]图3为本申请第三实施例的流程图;
[0038]图4为本申请的一种装置示意图;
[0039]图5为本申请的一种计算机设备示意图

具体实施方式
[0040]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例

基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围

[0041]本申请提供的一种数据清洗的方法

装置

设备及介质可用于大数据领域或金融领域

上述仅为示例,并不对本申请提供的一种数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据清洗的方法,其特征在于,所述方法包括:获取文件配置参数表,所述文件配置参数表用于指示需要进行数据清洗的第一文件集合,所述第一文件集合包含多个文件,且所述第一文件集合中的多个文件均基于同一模板生成;接收第一文件的成功上传信息,在文件上传记录表上添加所述第一文件对应的上传记录,所述第一文件为所述第一文件集合中的至少一个文件;若根据所述文件上传记录表,确定所述第一文件集合中的所有文件均已成功上传,则在文件到齐表中添加到齐记录;根据所述到齐记录,对所述第一文件集合中的所有文件进行数据清洗
。2.
根据权利要求1所述的方法,其特征在于,所述文件配置参数表包括:所述第一文件集合中的多个文件对应的源系统的系统编号

模板名称和区域编号,以及所述第一文件集合中的多个文件各自对应的文件名前缀;所述根据所述文件上传记录表,确定所述第一文件集合中的所有文件均已成功上传,包括:基于所述文件上传记录表,根据所述源系统的系统编号

所述模板名称以及所述区域编号进行查询,得到查询列表,所述查询列表包含多条上传记录;根据所述第一文件集合中的多个文件各自对应的文件名前缀,确定所述第一文件集合中的所有文件均在所述查询列表中有对应的上传记录
。3.
根据权利要求2所述的方法,其特征在于,所述到齐记录包括:所述源系统的系统编号

所述模板名称

所述区域编号

到齐日期,以及所述第一文件集合中的多个文件对应的源目录
。4.
根据权利要求3所述的方法,其特征在于,所述根据所述到齐记录,对所述第一文件集合中的所有文件进行数据清洗,包括:根据所述到齐记录中的所述源目录,获取所述第一文件集合中的所有文件;对所述第一文件集合中的所有文件进行数据清洗
。5.
根据权利要求2所述的方法,其特征在于,所述文件配置参数表还包括:文件上传频率;所述方法还包括:根据所述文件上传频率,获取需要进行数据清洗的第二文件集合,所述第二文件集合中的多个文件与所述第一文件集合中的多个文件均基于所述同一模板生成;根据所述第二文件集合中的多个文件对应的源系统的系统编号

模板名称和区域编号,以及所述...

【专利技术属性】
技术研发人员:汤惠蓉
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1