【技术实现步骤摘要】
一种供水行业数据清洗方法
[0001]本申请涉及计算机技术,具体涉及一种供水行业数据清洗方法。
技术介绍
[0002]在很多场景中需要收集供水行业数据,进行一些分析。收集到的供水行业数据表良莠不齐,需要进行清洗之后才可以使用。例如在供水行业现状分析场景中,需求部门会通过供水行业数据表,从各局点(例如,地市,县、乡等)手机供水行业数据。
[0003]目前常用的方法是由人工配置清洗规则,然后利用配置的清洗规则进行清洗。然而如此操作由于人工的介入,一方面,成本较高,另一方面,容易出错。
技术实现思路
[0004]有鉴于此,本申请公开一种供水行业数据清洗方法,所述方法可以包括:获取历史供水数据表;对所述历史供水数据表中每一字段下的数据进行分析,得到所述历史供水数据表中每一字段对应的字段属性;基于每一所述字段与对应字段属性,生成数据清洗字典;利用所述数据清洗字典对待清洗供水数据表中的数据进行数据清洗。
[0005]在一些实施例中,所述字段属性包括所述字段对应数据的数据格式、数据长度、数据范围;所述对所述历史供水数据表中每一字段下的数据进行分析,得到所述历史供水数据表中每一字段对应的字段属性,包括:对每一所述字段下包括的数据进行分析,得到每一所述字段对应数据的数据格式、数据长度、数据范围。
[0006]在一些实施例中,所述对每一所述字段下包括的数据进行分析,得到每一所述字段对应数据的数据格式、数据长度、数据范围,包括:将第一字段对应的首个数据,作为所述第一字段的名称;所述第一字段为所述历史 ...
【技术保护点】
【技术特征摘要】
1.一种供水行业数据清洗方法,其特征在于,所述方法包括:获取历史供水数据表;对所述历史供水数据表中每一字段下的数据进行分析,得到所述历史供水数据表中每一字段对应的字段属性;基于每一所述字段与对应字段属性,生成数据清洗字典;利用所述数据清洗字典对待清洗供水数据表中的数据进行数据清洗。2.根据权利要求1所述的方法,其特征在于,所述字段属性包括所述字段对应数据的数据格式、数据长度、数据范围;所述对所述历史供水数据表中每一字段下的数据进行分析,得到所述历史供水数据表中每一字段对应的字段属性,包括:对每一所述字段下包括的数据进行分析,得到每一所述字段对应数据的数据格式、数据长度、数据范围。3.根据权利要求2所述的方法,其特征在于,所述对每一所述字段下包括的数据进行分析,得到每一所述字段对应数据的数据格式、数据长度、数据范围,包括:将第一字段对应的首个数据,作为所述第一字段的名称;所述第一字段为所述历史供水数据表中的任意字段;读取所述第一字段下包括的数据,确定所述第一字段对应数据的数据格式;响应于所述数据格式为文本格式,将各所述历史供水数据表中所述第一字段下的文本数据进行汇总集合作为所述第一字段对应数据的数据范围,以及根据各所述历史供水数据表中所述第一字段下的最长文本数据确定所述第一字段对应数据的数据长度;响应于所述数据格式为字符串格式,将各所述历史供水数据表中所述第一字段下的字符串数据进行汇总集合,作为所述第一字段对应数据的数据范围,以及根据各所述历史供水数据表中所述第一字段下的最长字符串数据确定所述第一字段对应数据的数据长度;响应于所述数据格式为数值格式,将各所述历史供水数据表中所述第一字段下的最小数值数据和最大数值数据形成的范围,作为所述第一字段对应数据的数据范围,以及根据各所述历史供水数据表中所述第一字段下的最长数值数据确定所述第一字段对应数据的数据长度。4.根据权利要求3所述的方法,其特征在于,所述字段属性包括针对所述字段对应数据的描述信息;所述描述信息用于指示针对所述字段的填写规则;所述对所述历史供水数据表中每一字段下的数据进行分析,得到所述历史供水数据表中每一字段对应的字段属性,包括:利用预先部署的图片截图插件,对所述历史供水数据表进行截图操作,得到与所述历史供水据表对应的表截图;对所述表截图进行文字提取,得到所述表截图包含的若干文字组合;针对每一文字组合,将所述文字组合内的文字与预设文字库中的文字进行比较,将包含预设文字库中文字的目标文字组合,作为针对第二字段对应数据的描述信息;所述预设文字库中包含基于若干描述信息样本提取的描述信息关键字;所述第二字段为所述历史供水数据...
【专利技术属性】
技术研发人员:田志民,牛豫海,张娟,王建伟,宋鹏飞,王泽民,张强,曹红梅,朱乾,
申请(专利权)人:河北建投水务投资有限公司沧州市供水排水集团有限公司河北建投衡水水务有限公司唐山市曹妃甸供水有限责任公司廊坊市清泉供水有限责任公司辛集市建投水务有限责任公司河北建投沙河供水有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。