一种全自动检测与分析数据质量的系统及方法技术方案

技术编号:21398911 阅读:44 留言:0更新日期:2019-06-19 06:58
本发明专利技术特别涉及一种全自动检测与分析数据质量的系统及方法。该全自动检测与分析数据质量的系统,包括质量规则管理模块,质量模型管理模块,质量任务管理模块,质量分析模块,质量报告模块和质量督查模块。该全自动检测与分析数据质量的系统及方法,从完整性、一致性、准确性、唯一性、关联性、规范性等方面积累了多种检查数据的规则,给数据打上质量规则的标签自动对数据进行质量检查,实现了全生命周期检测数据问题,并且根据检测出来的结果一方面用于进行分析产生质量报告,另一方面反馈存在质量问题的数据用于整改,充分挖掘数据的价值,确保了数据价值最大化,提高六数据分析结果的精确程度和可靠程度,适宜推广应用。

【技术实现步骤摘要】
一种全自动检测与分析数据质量的系统及方法
本专利技术涉及自动任务调度
,特别涉及一种全自动检测与分析数据质量的系统及方法。
技术介绍
当今社会,数据量正以爆炸方式迅猛增长,数据表示形式千变万化,标志着我们已经进入了大数据时代,云计算、物联网、移动互联网的出现更加催生了大数据时代的产生。而大数据时代的到来,对数据管理、从数据中提取有价值的信息提出了调整。数据质量是有效分析和利用大数据的前提,是大数据产生跨区域、跨行业、跨部门价值的保障。大数据是企业决策的基础,但是单纯的数据量的积累不会对企业产生任何益处,只有建立适当的分析模型,并运用相应的技术手段,对大量的数据进行有效的深入加工,以此来发现隐含在大量数据中的信息并加以利用进而指导企业做出相关决策,才能将大数据的真正效用发挥到极致。基于上述情况,为了实现全生命周期检测数据问题,挖掘数据的价值,提高数据分析结果的精确程度和可靠程度,本专利技术设计了一种全自动检测与分析数据质量的系统及方法。
技术实现思路
本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的全自动检测与分析数据质量的系统及方法。本专利技术是通过如下技术方案实现的:一种全自动检测与分析数据质量的系统,其特征在于:包括质量规则管理模块,质量模型管理模块,质量任务管理模块,质量分析模块,质量报告模块和质量督查模块;所述质量规则管理模块用于全方位沉淀数据质量的规则,形成一个质量规则库;所述质量模型管理模块用于给数据打质量规则标签;所述质量任务管理模块用于监控、管理检测任务以及人工干预任务执行过程;所述质量分析模块用于对数据进行质量分析;所述质量报告模块用于基于质量分析生成质量报告;所述质量督查模块用于对存在质量问题的数据进行反馈并跟踪数据整改情况。该全自动检测与分析数据质量的系统的检测分析方法,包括以下步骤:(1)通过质量规则管理模块全方位沉淀数据质量的规则,形成质量规则库并通过质量模型管理模块给数据打上质量规则标签;(2)通过质量任务管理模块建立健全的日志对检测任务进行管理和监控;(3)质量分析模块基于任务调度对数据进行质量规则的检测,通过质量报告模块将检测分析结果汇总产生质量报告:(4)通过质量督查模块以流程化的方式对存在质量问题的数据进行跟踪,对存在质量问题的数据进行督查整改。所述步骤(1)中,给数据打上规则标签是基于质量规则库从数据完整性,数据一致性,数据准确性,数据唯一性,数据关联性和数据规范性六个方面给需要检测的数据打上对应的标签,使得规则检测过程中能够识别标签进而找到对应的规则检测脚本。所述规则检测脚本为SQL语句检测脚本或正则表达式检测脚本,所述SQL语句检测脚本兼容MySQL,Oracle和Hbase主流数据库,正则表达式检测脚本可以并入SQL语句检测脚本,也可单独进行检测。所述步骤(2)中,检测任务的管理和监控过程中产生的日志都会被持久化到数据库中,可以采集任务节点信息进行监控CPU和内存,及时对任务节点进行升级或横向增加任务节点,以免影响检测任务。所述检测任务的管理和监控结果自动持久化到数据库中,用预先制定的统计分析策略对结果数据进行统计分析,可以对统计分析策略进行定制;结果数据根据预先制定的质量报告模板持久化到数据库中,可以按时间制定质量报告或者自定义质量报告格式。所述步骤(3)中,为了应对庞大的数据量,采用横向扩展任务节点的方式对数据进行并行检测,最后将结果进行汇总返回;质量分析结果可以分析出哪类数据存在的质量问题最多,哪类质量规则检测的最多,对数据质量问题进行趋势预测。所述质量报告可以以pdf格式导出,用于对数据进行整改提供参考依据。所述步骤(4)中,将存在质量问题的数据及时反馈给提供方进行整改,对数据整改问题进行流程化监控;对于只是理论上存在质量问题,但逻辑上并不影响数据价值的问题数据可以进行人工干预,将其进行标注为没有质量问题。该全自动检测与分析数据质量的系统的检测分析方法,以web形式监控数据整改情况,从检测数据开始到数据整改完为止都以可视化的页面进行监控,并且提供邮件或者短信的方式督促数据提供方进行整改。本专利技术的有益效果是:该全自动检测与分析数据质量的系统及方法,从完整性、一致性、准确性、唯一性、关联性、规范性等方面积累了多种检查数据的规则,给数据打上质量规则的标签自动对数据进行质量检查,实现了全生命周期检测数据问题,并且根据检测出来的结果一方面用于进行分析产生质量报告,另一方面反馈存在质量问题的数据用于整改,充分挖掘数据的价值,确保了数据价值最大化,提高六数据分析结果的精确程度和可靠程度,适宜推广应用。附图说明附图1为本专利技术全自动检测与分析数据质量的方法示意图。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图和实施例,对本专利技术进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。该全自动检测与分析数据质量的系统,包括质量规则管理模块,质量模型管理模块,质量任务管理模块,质量分析模块,质量报告模块和质量督查模块;所述质量规则管理模块用于全方位沉淀数据质量的规则,形成一个质量规则库;所述质量模型管理模块用于给数据打质量规则标签;所述质量任务管理模块用于监控、管理检测任务以及人工干预任务执行过程;所述质量分析模块用于对数据进行质量分析;所述质量报告模块用于基于质量分析生成质量报告;所述质量督查模块用于对存在质量问题的数据进行反馈并跟踪数据整改情况。该全自动检测与分析数据质量的系统的检测分析方法,包括以下步骤:(1)通过质量规则管理模块全方位沉淀数据质量的规则,形成质量规则库并通过质量模型管理模块给数据打上质量规则标签;(2)通过质量任务管理模块建立健全的日志对检测任务进行管理和监控;(3)质量分析模块基于任务调度对数据进行质量规则的检测,通过质量报告模块将检测分析结果汇总产生质量报告:(4)通过质量督查模块以流程化的方式对存在质量问题的数据进行跟踪,对存在质量问题的数据进行督查整改。所述步骤(1)中,给数据打上规则标签是基于质量规则库从数据完整性,数据一致性,数据准确性,数据唯一性,数据关联性和数据规范性六个方面给需要检测的数据打上对应的标签,使得规则检测过程中能够识别标签进而找到对应的规则检测脚本。所述规则检测脚本为SQL语句检测脚本或正则表达式检测脚本,所述SQL语句检测脚本兼容MySQL,Oracle和Hbase主流数据库,正则表达式检测脚本可以并入SQL语句检测脚本,也可单独进行检测。所述步骤(2)中,检测任务的管理和监控过程中产生的日志都会被持久化到数据库中,可以采集任务节点信息进行监控CPU和内存,及时对任务节点进行升级或横向增加任务节点,以免影响检测任务。所述检测任务的管理和监控结果自动持久化到数据库中,用预先制定的统计分析策略对结果数据进行统计分析,可以对统计分析策略进行定制;结果数据根据预先制定的质量报告模板持久化到数据库中,可以按时间制定质量报告或者自定义质量报告格式。所述步骤(3)中,为了应对庞大的数据量,采用横向扩展任务节点的方式对数据进行并行检测,最后将结果进行汇总返回;质量分析结果可以分析出哪类数据存在的质量问题最多,哪类质量规则检测的最多,对数据质量问题进行趋势本文档来自技高网...

【技术保护点】
1.一种全自动检测与分析数据质量的系统,其特征在于:包括质量规则管理模块,质量模型管理模块,质量任务管理模块,质量分析模块,质量报告模块和质量督查模块;所述质量规则管理模块用于全方位沉淀数据质量的规则,形成一个质量规则库;所述质量模型管理模块用于给数据打质量规则标签;所述质量任务管理模块用于监控、管理检测任务以及人工干预任务执行过程;所述质量分析模块用于对数据进行质量分析;所述质量报告模块用于基于质量分析生成质量报告;所述质量督查模块用于对存在质量问题的数据进行反馈并跟踪数据整改情况。

【技术特征摘要】
1.一种全自动检测与分析数据质量的系统,其特征在于:包括质量规则管理模块,质量模型管理模块,质量任务管理模块,质量分析模块,质量报告模块和质量督查模块;所述质量规则管理模块用于全方位沉淀数据质量的规则,形成一个质量规则库;所述质量模型管理模块用于给数据打质量规则标签;所述质量任务管理模块用于监控、管理检测任务以及人工干预任务执行过程;所述质量分析模块用于对数据进行质量分析;所述质量报告模块用于基于质量分析生成质量报告;所述质量督查模块用于对存在质量问题的数据进行反馈并跟踪数据整改情况。2.根据权利要求1所述的全自动检测与分析数据质量的系统的检测分析方法,其特征在于,包括以下步骤:(1)通过质量规则管理模块全方位沉淀数据质量的规则,形成质量规则库并通过质量模型管理模块给数据打上质量规则标签;(2)通过质量任务管理模块建立健全的日志对检测任务进行管理和监控;(3)质量分析模块基于任务调度对数据进行质量规则的检测,通过质量报告模块将检测分析结果汇总产生质量报告:(4)通过质量督查模块以流程化的方式对存在质量问题的数据进行跟踪,对存在质量问题的数据进行督查整改。3.根据权利要求2所述的全自动检测与分析数据质量的系统的检测分析方法,其特征在于:所述步骤(1)中,给数据打上规则标签是基于质量规则库从数据完整性,数据一致性,数据准确性,数据唯一性,数据关联性和数据规范性六个方面给需要检测的数据打上对应的标签,使得规则检测过程中能够识别标签进而找到对应的规则检测脚本。4.根据权利要求3所述的全自动检测与分析数据质量的系统的检测分析方法,其特征在于:所述规则检测脚本为SQL语句检测脚本或正则表达式检测脚本,所述SQL语句检测脚本兼容MySQL,Oracle和Hbase主流数据库,正则表达式检测脚本可以并入SQL语句检测脚...

【专利技术属性】
技术研发人员:白凯方亚东
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1