数据质量监控方法、装置、计算机设备、存储介质制造方法及图纸

技术编号:37111180 阅读:13 留言:0更新日期:2023-04-01 05:08
本公开涉及一种数据质量监控方法、装置、计算机设备、存储介质。所述方法包括:获取至少一个数据文件以及所述数据文件对应的配置信息;根据所述配置信息以及与预先设置的与所述配置信息对应的监控规则,确定所述数据文件是否出现异常;对所述数据文件进行预处理,得到预处理结果,根据加载到外表的数据文件的数据量与所述数据文件的月平均数据量,确定数据波动量是否出现异常;响应于识别出所述数据文件出现异常、所述异常数据文件中存在数据、所述数据波动量出现异常中的至少一种情况,输出异常结果。采用本方法能够对所有类型的数据文件进行数据质量监控。进行数据质量监控。进行数据质量监控。

【技术实现步骤摘要】
数据质量监控方法、装置、计算机设备、存储介质


[0001]本公开涉及大数据处理
,特别是涉及一种数据质量监控方法、装置、计算机设备、存储介质。

技术介绍

[0002]随着大数据的发展,各种类型的数据不断增加,许多企业需要对产生的各种类型的数据进行分析和挖掘。而在进行分析和挖掘之前,通常会对各种类型的数据进行数据质量监控,以此来数据质量的完整性、准确性、合理性等。
[0003]目前,对于数据质量监控的方式通常会在数据写入数据库之前进行,并且大多数数据质量监控的方式是通过固定设置的数据校验规则进行数据质量监控。
[0004]然而,针对不同业务系统产出的数据文件,其数据文件中的表的业务含义、数据文件的产生方式以及加载算法等具有一定的差异,因此通过固定设置的数据校验规则无法适用于所有类型的数据文件,会影响数据质量监控结果的有效性。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够适用于所有类型的数据文件进行数据质量监控的数据质量监控方法、装置、计算机设备、存储介质。
[0006]第一方面,本公开提供了一种数据质量监控方法。所述方法包括:
[0007]获取至少一个数据文件以及所述数据文件对应的配置信息;
[0008]根据所述配置信息以及与预先设置的与所述配置信息对应的监控规则,确定所述数据文件是否出现异常;
[0009]对所述数据文件进行预处理,得到预处理结果,其中,所述预处理包括:将所述数据文件中分隔符的数量与所述配置信息中分隔符的数量进行比较,根据比较结果将所述数据文件加载到外表或者存储在数据不合规的异常数据文件中;
[0010]根据加载到外表的数据文件的数据量与所述数据文件的月平均数据量,确定数据波动量是否出现异常;
[0011]响应于识别出所述数据文件出现异常、所述异常数据文件中存在数据、所述数据波动量出现异常中的至少一种情况,输出异常结果。
[0012]在其中一个实施例中,所述配置信息,还包括:加载策略和加载频度,所述加载策略包括:全量加载和增量加载;所述根据所述配置信息以及与预先设置的与所述配置信息对应的监控规则,确定所述数据文件是否出现异常,包括:
[0013]响应于所述数据文件的加载策略为全量加载,若所述数据文件为空,则确定所述数据文件出现异常;
[0014]响应于所述数据文件的加载策略为增量加载,若所述数据文件为空,且所述数据文件的加载频度为日加载,所述数据文件为空的所述日加载的时间大于预先设置的时间阈值,则确定所述数据文件出现异常。
[0015]在其中一个实施例中,所述对所述数据文件进行预处理,得到预处理结果,包括:
[0016]将数据文件中分隔符的数量和配置信息中分隔符的数量进行比较;
[0017]响应于所述数据文件中的分隔符的数量与所述配置信息中分隔符的数量相同,确定所述数据文件中数据合规,则对所述数据文件进行编码转换、换行和空行的处理,将处理后的所述数据文件加载到外表;
[0018]响应于所述数据文件中分隔符的数量与所述配置信息中分隔符的数量不相同,确定所述数据文件中数据不合规,将所述数据文件保存至预先设置的异常数据文件。
[0019]在其中一个实施例中,所述根据加载到外表的数据文件的数据量与所述数据文件的月平均数据量,确定数据波动量是否出现异常,包括:
[0020]获取加载到外表的数据文件的数据量;
[0021]响应于所述数据文件的加载策略为全量加载,若加载到外表的数据文件的数据量与所述数据文件的月平均数据量的数据差值小于预先设置的波动阈值,则确定所述数据波动量出现异常。
[0022]在其中一个实施例中,所述响应于识别出所述数据文件出现异常、所述脏数据文件存在数据、所述数据波动量出现异常中的至少一种情况,输出异常结果,包括:
[0023]响应于识别出所述数据文件出现异常、所述脏数据文件存在数据、所述数据波动量出现异常中的至少一种情况,将所述数据文件出现异常、所述异常数据文件存在数据或者所述数据波动量出现异常中的至少一种情况的异常结果加载至所述外表对应的日期分区中;
[0024]周期性的输出所述异常结果。
[0025]在其中一个实施例中,所述方法还包括:
[0026]响应于识别出所述数据文件出现异常、所述异常数据文件存在数据或者所述数据波动量出现异常中的至少一种情况,若所述数据文件在预先设置的白名单中,则不输出异常结果。
[0027]第二方面,本公开还提供了一种数据质量监控装置。所述装置包括:
[0028]数据获取模块,用于获取至少一个数据文件以及所述数据文件对应的配置信息;
[0029]文件异常确定模块,用于根据所述配置信息以及与预先设置的与所述配置信息对应的监控规则,确定所述数据文件是否出现异常;
[0030]预处理模块,用于对所述数据文件进行预处理,得到预处理结果,其中,所述预处理包括:将所述数据文件中分隔符的数量与所述配置信息中分隔符的数量进行比较,根据比较结果将所述数据文件加载到外表或者存储在数据不合规的异常数据文件;
[0031]波动量异常确定模块,用于根据加载到外表的数据文件的数据量与所述数据文件的月平均数据量,确定数据波动量是否出现异常;
[0032]异常输出模块,用于响应于识别出所述数据文件出现异常、所述异常数据文件存在数据、所述数据波动量出现异常中至少一种情况,输出异常结果。
[0033]第三方面,本公开还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一方法实施例的步骤。
[0034]第四方面,本公开还提供了一种计算机可读存储介质。所述计算机可读存储介质,
其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法实施例的步骤。
[0035]第五方面,本公开还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一方法实施例的步骤。
[0036]上述各实施例中,上述数据质量监控方法中,获取至少一个数据文件以及所述数据文件对应的配置信息,能够扩大数据质量监控的监控范围,监控范围广泛。根据所述配置信息以及与预先设置的与所述配置信息对应的监控规则,确定所述数据文件是否出现异常。能够灵活的根据不同的数据文件的配置信息设置对应的监控规则,更具有实用性。区别与目前仅仅使用固定的数据校验规则进行监控的方式。并且对数据文件进行预处理,将所述数据文件加载到外表或者存储数据不合规的异常数据文件中,能够保证数据正常加载。另外,还可以根据数据量和月平均数据量来确定数据波动量是否出现异常。本方案对数据库的依赖较少,投资成本低,便于移植。可以作为独立的可配置的应用模块存在于应用平台,整体应用通过读取配置信息、定义监控规则的方式进行监控,可根据实际需要进行定时监控或条件依赖监控。并且适用于所有类型的数据文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据质量监控方法,其特征在于,所述方法包括:获取至少一个数据文件以及所述数据文件对应的配置信息;根据所述配置信息以及与预先设置的与所述配置信息对应的监控规则,确定所述数据文件是否出现异常;对所述数据文件进行预处理,得到预处理结果,其中,所述预处理包括:将所述数据文件中分隔符的数量与所述配置信息中分隔符的数量进行比较,根据比较结果将所述数据文件加载到外表或者存储在数据不合规的异常数据文件中;根据加载到外表的数据文件的数据量与所述数据文件的月平均数据量,确定数据波动量是否出现异常;响应于识别出所述数据文件出现异常、所述异常数据文件中存在数据、所述数据波动量出现异常中的至少一种情况,输出异常结果。2.根据权利要求1所述的方法,其特征在于,所述配置信息,还包括:加载策略和加载频度,所述加载策略包括:全量加载和增量加载;所述根据所述配置信息以及与预先设置的与所述配置信息对应的监控规则,确定所述数据文件是否出现异常,包括:响应于所述数据文件的加载策略为全量加载,若所述数据文件为空,则确定所述数据文件出现异常;响应于所述数据文件的加载策略为增量加载,若所述数据文件为空,且所述数据文件的加载频度为日加载,所述数据文件为空的所述日加载的时间大于预先设置的时间阈值,则确定所述数据文件出现异常。3.根据权利要求1所述的方法,其特征在于,所述对所述数据文件进行预处理,得到预处理结果,包括:将数据文件中分隔符的数量和配置信息中分隔符的数量进行比较;响应于所述数据文件中的分隔符的数量与所述配置信息中分隔符的数量相同,确定所述数据文件中数据合规,则对所述数据文件进行编码转换、换行和空行的处理,将处理后的所述数据文件加载到外表;响应于所述数据文件中分隔符的数量与所述配置信息中分隔符的数量不相同,确定所述数据文件中数据不合规,将所述数据文件保存至预先设置的异常数据文件。4.根据权利要求2所述的方法,其特征在于,所述根据加载到外表的数据文件的数据量与所述数据文件的月平均数据量,确定数据波动量是否出现异常,包括:获取加载到外表的数据文件的数据量;响应于所述数据文件的加载策略为全量加载,若加载到外表的数据文件的数据量与所述数据文件的月平均数据量...

【专利技术属性】
技术研发人员:褚杰徐欣孙敏方向邵晴晴
申请(专利权)人:上海浦东发展银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1