数据质量监控方法、装置、电子设备、存储介质制造方法及图纸

技术编号:35824049 阅读:21 留言:0更新日期:2022-12-03 13:50
本发明专利技术提供一种数据质量监控方法、装置、电子设备、存储介质,方法包括:获取任务执行日志;确定所述任务执行日志的类别;获取对应类别的特征解析模板;采用所述特征解析模板提取所述任务执行日志的特征数据;根据对应类别的历史特征规律,确定所述特征数据是否异常;根据所述特征数据的异常判断结果,生成告警信息;接收所述告警信息的反馈;根据所述告警信息的反馈调整所述历史特征规律。本发明专利技术减少人工工作量,轻量级地实现全面自动化的数据质量检测;能够及时发现数据异常情况,避免数据问题被隐藏,在下游出现更大的问题的时候才暴露,提高数据仓库的数据质量和工程效率。提高数据仓库的数据质量和工程效率。提高数据仓库的数据质量和工程效率。

【技术实现步骤摘要】
数据质量监控方法、装置、电子设备、存储介质


[0001]本专利技术涉及计算机应用
,尤其涉及一种数据质量监控方法、装置、电子设备、存储介质。

技术介绍

[0002]随着信息化的不断发展和数据智能化的不断推进,数据资产已经慢慢成为企业决策和业务支撑中重要的一部分。数据质量的好坏,直接影响到通过数据获取信息的准确度,只有保证好数据质量,奠定稳固的基础,才能发展出更多更有意义的数据应用,为企业及社会创造更大的价值。
[0003]目前业界已有一些较为成熟的数据质量管理平台,开源的如Apache Griffin、Deequ;国内大型互联网公司产品如datawork、dataman等。这些平台在设计上都提供了一整套针对数据质量管理从数据采集,定义标准,配置规则,到用户告警,数据展示的完整方案。但是这类平台往往聚焦在数据质量全流程的把控上,是一个比较重的解决方案,前期部署较为耗时耗力,且需要人工添加规则配置,在数据任务众多的场景下对人工资源的要求较高,不能快速达到数据质量监控全覆盖的要求。
[0004]由此,如何减少人工工作量,轻量级地实现全面自动化的数据质量检测;能够及时发现数据异常情况,避免数据问题被隐藏,在下游出现更大的问题的时候才暴露,提高数据仓库的数据质量和工程效率,是本领域亟待解决的技术问题。

技术实现思路

[0005]本专利技术为了克服上述现有技术存在的缺陷,提供一种数据质量监控方法、装置、电子设备、存储介质,从而减少人工工作量,轻量级地实现全面自动化的数据质量检测;能够及时发现数据异常情况,避免数据问题被隐藏,在下游出现更大的问题的时候才暴露,提高数据仓库的数据质量和工程效率。
[0006]根据本专利技术的一个方面,提供一种数据质量监控方法,包括:
[0007]获取任务执行日志;
[0008]确定所述任务执行日志的类别;
[0009]获取对应类别的特征解析模板;
[0010]采用所述特征解析模板提取所述任务执行日志的特征数据;
[0011]根据对应类别的历史特征规律,确定所述特征数据是否异常;
[0012]根据所述特征数据的异常判断结果,生成告警信息;
[0013]接收所述告警信息的反馈;
[0014]根据所述告警信息的反馈调整所述历史特征规律。
[0015]在本申请的一些实施例中,所述任务执行日志的类别基于业务维度包括生产数据同步任务、通用模型层任务、应用模型层任务、报表类任务中的一种或多种。
[0016]在本申请的一些实施例中,所述任务执行日志的类别基于执行引擎维度包括
HIVE、SPARK、DATAX、PYTHON JOB、JAVA APP中的一种或多种。
[0017]在本申请的一些实施例中,所述历史特征规律根据如下步骤获得:
[0018]获取历史任务执行日志;
[0019]剔除所述历史任务执行日志的异常点;
[0020]根据剔除异常点后的历史任务执行日志,生成历史特征规律。
[0021]在本申请的一些实施例中,所述根据剔除异常点后的历史任务执行日志,生成历史特征规律包括:
[0022]根据剔除异常点后的历史任务执行日志计算历史任务执行日志的数据的平均值和标准差;
[0023]使得所述历史特征规律为:当所述特征数据与所述平均值的差大于三倍的标准差时,确定所述特征数据为异常数据。
[0024]在本申请的一些实施例中,所述根据所述特征数据的异常判断结果,生成告警信息包括:
[0025]根据所述特征数据的异常判断结果以及任务等级,生成不同重要级别的告警信息,不同重要级别的告警信息具有不同的通知方式。
[0026]在本申请的一些实施例中,所述根据对应类别的历史特征规律,确定所述特征数据是否异常包括:
[0027]响应于没有对应类别的历史特征规律,获取对应类别的异常白名单和/或黑名单;
[0028]根据对应类别的异常白名单和/或黑名单,确定所述特征数据是否异常。
[0029]根据本申请的又一方面,还提供一种数据质量监控装置,包括:
[0030]第一获取模块,用于获取任务执行日志;
[0031]确定模块,用于确定所述任务执行日志的类别;
[0032]第二获取模块,用于获取对应类别的特征解析模板;
[0033]解析模块,用于采用所述特征解析模板提取所述任务执行日志的特征数据;
[0034]异常判断模块,用于根据对应类别的历史特征规律,确定所述特征数据是否异常;
[0035]告警信息生成模块,用于根据所述特征数据的异常判断结果,生成告警信息;
[0036]反馈接收模块,用于接收所述告警信息的反馈;
[0037]规律更新模块,用于根据所述告警信息的反馈调整所述历史特征规律。
[0038]根据本专利技术的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述数据质量监控方法的步骤。
[0039]根据本专利技术的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述数据质量监控方法的步骤。
[0040]相比现有技术,本专利技术的优势在于:
[0041]本专利技术根据任务执行日志的类别,来基于对应类别的所述特征解析模板提取所述任务执行日志的特征数据,并根据对应类别的历史特征规律,确定所述特征数据是否异常,从而根据所述特征数据的异常判断结果,生成告警信息,同时,根据所述告警信息的反馈调整所述历史特征规律。由此,本申请用于各个领域的数据仓库对于数据质量做全面的监控,在不增加格外人力配置的前提下,通过通用的数据采集、特征提取、异常判断、告警平台各
个模块的配合,完成平日的常规性检测;进而,减少人工工作量,轻量级地实现全面自动化的数据质量检测;能够及时发现数据异常情况,避免数据问题被隐藏,在下游出现更大的问题的时候才暴露,提高数据仓库的数据质量和工程效率。
附图说明
[0042]通过参照附图详细描述其示例实施方式,本专利技术的上述和其它特征及优点将变得更加明显。
[0043]图1示出了根据本专利技术实施例的数据质量监控方法的流程图。
[0044]图2示出了根据本专利技术实施例的数据质量监控系统的示意图。
[0045]图3示出了根据本专利技术实施例的任务执行日志分类的示意图。
[0046]图4示出了根据本专利技术实施例的数据质量监控装置的模块图。
[0047]图5示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。
[0048]图6示意性示出本公开示例性实施例中一种电子设备示意图。
具体实施方式
[0049]现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据质量监控方法,其特征在于,包括:获取任务执行日志;确定所述任务执行日志的类别;获取对应类别的特征解析模板;采用所述特征解析模板提取所述任务执行日志的特征数据;根据对应类别的历史特征规律,确定所述特征数据是否异常;根据所述特征数据的异常判断结果,生成告警信息;接收所述告警信息的反馈;根据所述告警信息的反馈调整所述历史特征规律。2.如权利要求1所述的数据质量监控方法,其特征在于,所述任务执行日志的类别基于业务维度包括生产数据同步任务、通用模型层任务、应用模型层任务、报表类任务中的一种或多种。3.如权利要求1所述的数据质量监控方法,其特征在于,所述任务执行日志的类别基于执行引擎维度包括HIVE、SPARK、DATAX、PYTHONJOB、JAVAAPP中的一种或多种。4.如权利要求1所述的数据质量监控方法,其特征在于,所述历史特征规律根据如下步骤获得:获取历史任务执行日志;剔除所述历史任务执行日志的异常点;根据剔除异常点后的历史任务执行日志,生成历史特征规律。5.如权利要求4所述的数据质量监控方法,其特征在于,所述根据剔除异常点后的历史任务执行日志,生成历史特征规律包括:根据剔除异常点后的历史任务执行日志计算历史任务执行日志的数据的平均值和标准差;使得所述历史特征规律为:当所述特征数据与所述平均值的差大于三倍的标准差时,确定所述特征数据为异常数据。6.如权利要求1所述的数据质量监控方法,其特征在于,所述根...

【专利技术属性】
技术研发人员:范昊天温斯群谭克佳王昭烁
申请(专利权)人:携程旅游网络技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1