【技术实现步骤摘要】
一种数据清洗的方法、装置、设备及介质
[0001]本申请涉及大数据领域,特别是指一种数据清洗的方法
、
装置
、
设备及介质
。
技术介绍
[0002]数据清洗是指对数据进行重新审查和校验的过程中,发现并纠正数据文件中可识别的错误,按照一定的规则把错误或冲突的数据洗掉,数据清洗包括检查数据一致性,处理无效值和缺失值等
。
目前,针对大量数据文件的整合过程,通常都会应用到数据清洗
。
[0003]在现有技术中,针对大量数据文件的数据清洗可能存在遗漏文件数据的风险
。
技术实现思路
[0004]有鉴于此,本申请提供了一种数据清洗的方法
、
装置
、
设备及介质,从而达到降低遗漏文件数据的风险的目的
。
[0005]本申请提供的一种数据清洗的方法是这样实现的:
[0006]获取文件配置参数表,文件配置参数表用于指示需要进行数据清洗的第一文件集合,第一文件集合包含多个文件,且第一文件集合中的多个文件均基于同一模板生成;
[0007]接收第一文件的成功上传信息,在文件上传记录表上添加第一文件对应的上传记录,第一文件为第一文件集合中的至少一个文件;
[0008]若根据文件上传记录表,确定第一文件集合中的所有文件均已成功上传,则在文件到齐表中添加到齐记录;
[0009]根据到齐记录,对第一文件集合中的所有文件进行数据清洗
。
[0010]可选 ...
【技术保护点】
【技术特征摘要】
1.
一种数据清洗的方法,其特征在于,所述方法包括:获取文件配置参数表,所述文件配置参数表用于指示需要进行数据清洗的第一文件集合,所述第一文件集合包含多个文件,且所述第一文件集合中的多个文件均基于同一模板生成;接收第一文件的成功上传信息,在文件上传记录表上添加所述第一文件对应的上传记录,所述第一文件为所述第一文件集合中的至少一个文件;若根据所述文件上传记录表,确定所述第一文件集合中的所有文件均已成功上传,则在文件到齐表中添加到齐记录;根据所述到齐记录,对所述第一文件集合中的所有文件进行数据清洗
。2.
根据权利要求1所述的方法,其特征在于,所述文件配置参数表包括:所述第一文件集合中的多个文件对应的源系统的系统编号
、
模板名称和区域编号,以及所述第一文件集合中的多个文件各自对应的文件名前缀;所述根据所述文件上传记录表,确定所述第一文件集合中的所有文件均已成功上传,包括:基于所述文件上传记录表,根据所述源系统的系统编号
、
所述模板名称以及所述区域编号进行查询,得到查询列表,所述查询列表包含多条上传记录;根据所述第一文件集合中的多个文件各自对应的文件名前缀,确定所述第一文件集合中的所有文件均在所述查询列表中有对应的上传记录
。3.
根据权利要求2所述的方法,其特征在于,所述到齐记录包括:所述源系统的系统编号
、
所述模板名称
、
所述区域编号
、
到齐日期,以及所述第一文件集合中的多个文件对应的源目录
。4.
根据权利要求3所述的方法,其特征在于,所述根据所述到齐记录,对所述第一文件集合中的所有文件进行数据清洗,包括:根据所述到齐记录中的所述源目录,获取所述第一文件集合中的所有文件;对所述第一文件集合中的所有文件进行数据清洗
。5.
根据权利要求2所述的方法,其特征在于,所述文件配置参数表还包括:文件上传频率;所述方法还包括:根据所述文件上传频率,获取需要进行数据清洗的第二文件集合,所述第二文件集合中的多个文件与所述第一文件集合中的多个文件均基于所述同一模板生成;根据所述第二文件集合中的多个文件对应的源系统的系统编号
、
模板名称和区域编号,以及所述...
【专利技术属性】
技术研发人员:汤惠蓉,
申请(专利权)人:中国银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。