数据质量分析系统及方法技术方案

技术编号:33200353 阅读:40 留言:0更新日期:2022-04-24 00:36
本申请公开了一种数据质量分析系统及方法,该系统包括数据仓库、元数据管理模块、规则解析模块、数据采集模块、监控任务调动模块和数据质量分析模块,元数据管理模块用于存储规则元数据和数据仓库提供的数据源元数据,规则元数据包括多条监控规则,每条监控规则被配置有对应的规则属性,各条监控规则之间通过所述规则属性建立起规则联系;规则解析模块用于根据规则元数据,生成规则引擎能够识别的规则语句;数据采集模块用于数据源元数据从数据仓库中采集数据源数据;规则引擎用于根据规则语句注册监控任务,并对数据源数据执行监控任务,监控任务按规则联系对数据源数据执行各监控规则;数据质量分析模块用于对数据源数据进行质量分析。质量分析。质量分析。

【技术实现步骤摘要】
数据质量分析系统及方法


[0001]本申请属于大数据
,具体涉及一种数据质量分析系统及方法。

技术介绍

[0002]数据集的数据质量指数据集中数据适合使用的程度、满足特定用户期望的程度。
[0003]相关技术中的数据质量分析框架主要提供了动态制定、修改数据质量监控规则的功能,但缺少对规则之间关系的管理。例如对某一字段需要同时监控非空、长度、大小等多个方面时,由于各监控规则之间并无联系,因此通过目前的数据质量分析框架需要多次配置、重复读取数据,从而导致异常数据被多次记录的问题。

技术实现思路

[0004]本申请实施例的目的是提供一种数据质量分析系统及方法,能够解决相关技术在进行数据质量分析时需要多次配置、重复读取数据,导致异常数据被多次记录的问题。
[0005]第一方面,本申请实施例提供了一种数据质量分析系统,包括:数据仓库、元数据管理模块、规则解析模块、数据采集模块、监控任务调动模块和数据质量分析模块,其中,所述数据仓库用于为所述元数据管理模块提供数据源元数据,还用于为所述数据采集模块提供数据源数据,所述元数据管理模块用于存储所述数据源元数据和规则元数据,其中,所述规则元数据为用户在前端编制的,所述规则元数据包括多条监控规则,每条监控规则被配置有对应的规则属性,各条监控规则之间通过所述规则属性建立起规则联系;所述规则解析模块用于根据所述规则元数据,生成所述监控任务调动模块中的规则引擎能够识别的规则语句,并保存所述规则语句至所述元数据管理模块中;所述数据采集模块用于根据所述元数据管理模块中存储的数据源元数据采集所述数据源数据;所述规则引擎用于根据所述规则语句注册监控任务,并对所述数据源数据执行所述监控任务,得到相应的异常统计信息,其中,所述监控任务按所述规则联系对所述数据源数据执行各监控规则;所述数据质量分析模块用于根据所述异常统计信息,对所述数据源数据进行质量分析。
[0006]第二方面,本申请实施例提供了一种数据质量分析方法,包括:根据规则元数据生成规则引擎能够识别的规则语句,其中,所述规则元数据包括多条监控规则,每条监控规则被配置有对应的规则属性,每条监控规则通过所述规则属性建立起规则联系;所述规则引擎根据所述规则语句注册监控任务,并对数据源数据执行所述监控任务,得到相应的异常统计信息,其中,所述监控任务按所述规则联系对所述数据源数据执行各监控规则;根据所述异常统计信息,对所述数据源数据进行质量分析。
[0007]第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第二方面所述的方法的步骤。
[0008]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第二方面所述的方法的步骤。
[0009]第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第二方面所述的方法。
[0010]在本申请实施例中,元数据管理模块存储有数据源元数据和规则元数据,规则解析模块可以根据规则元数据,生成规则引擎能够识别的规则语句,然后监控任务调动模块根据规则语句注册监控任务,并对数据采集模块采集到的数据源数据执行监控任务,得到相应的异常统计信息,之后数据质量分析模块根据所述异常统计信息,对数据源数据进行质量分析。本申请通过规则解析模块可以自动解析被配置有规则属性的监控规则,生成规则引擎能够识别的规则语句,使规则引擎通过监控规则间的规则联系对数据源数据执行监控规则,从而避免数据的重复读取以及异常数据的重复记录,进而提高数据质量分析系统的执行性能,减少资源开销。
附图说明
[0011]图1是本申请实施例提供的数据质量分析系统的一种结构示意图;
[0012]图2是本申请实施例提供的数据质量分析系统的另一种结构示意图;
[0013]图3是本申请实施例提供的数据质量分析方法的一种流程示意图;
[0014]图4是本申请实施例提供的电子设备的一种结构示意图。
具体实施方式
[0015]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
[0016]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0017]下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的数据质量分析系统及方法进行详细地说明。
[0018]图1是本申请实施例提供的数据质量分析系统的一种结构示意图,如图1所示,数据质量分析系统包括数据仓库600、元数据管理模块100、规则解析模块200、数据采集模块300、监控任务调动模块400和数据质量分析模块500。
[0019]具体的,数据仓库600可以分别与元数据管理模块100和数据采集模块300连接,元数据管理模块100分别与规则解析模块200、数据采集模块300和监控任务调动模块400连接,数据采集模块300与监控任务调动模块400连接,监控任务调动模块400与所述数据质量分析模块500连接。
[0020]其中,数据仓库600用于为元数据管理模块100提供数据源元数据,还用于为数据采集模块300提供数据源数据,元数据管理模块100用于存储数据源元数据和规则元数据,
其中,规则元数据为用户在前端编制的,规则元数据包括多条监控规则,每条监控规则被配置有对应的规则属性,各条监控规则之间通过规则属性建立起规则联系;规则解析模块200用于根据规则元数据,生成监控任务调动模块400中的规则引擎410能够识别的规则语句,并保存所述规则语句至所述元数据管理模块中;数据采集模块300用于根据元数据管理模块中存储的数据源元数据采集数据源数据,并传输至监控任务调动模块400;规则引擎410用于根据规则语句注册监控任务,并对数据采集模块300采集的数据源数据执行监控任务,得到相应的异常统计信息,其中,监控任务按规则属性执行监控规则;数据质量分析模块500用于根据异常统计信息,对数据源数据进行质量分析。
[0021]具体的,元数据管理模块100存储有数据源元数据和规则元数据,数据源元数据指数据的结构信息,例如字段名、字段类型、数据采集率等,规则元数据为用户在前端编制的,规则元数据包括多条监控规本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据质量分析系统,其特征在于,包括:数据仓库、元数据管理模块、规则解析模块、数据采集模块、监控任务调动模块和数据质量分析模块,其中,所述数据仓库用于为所述元数据管理模块提供数据源元数据,还用于为所述数据采集模块提供数据源数据;所述元数据管理模块用于存储所述数据源元数据和规则元数据,其中,所述规则元数据为用户在前端编制的,所述规则元数据包括多条监控规则,每条监控规则被配置有对应的规则属性,各条监控规则之间通过所述规则属性建立起规则联系;所述规则解析模块用于根据所述规则元数据,生成所述监控任务调动模块中的规则引擎能够识别的规则语句,并保存所述规则语句至所述元数据管理模块中;所述数据采集模块用于根据所述元数据管理模块中存储的数据源元数据从数据仓库中采集所述数据源数据;所述规则引擎用于根据所述规则语句注册监控任务,并对所述数据源数据执行所述监控任务,得到相应的异常统计信息,其中,所述监控任务按所述规则联系对所述数据源数据执行各监控规则;所述数据质量分析模块用于根据所述异常统计信息,对所述数据源数据进行质量分析。2.根据权利要求1所述的系统,其特征在于,所述规则属性包括分组信息、优先级和流转方式。3.根据权利要求1所述的系统,其特征在于,所述元数据管理模块包括数据源元数据库和规则元数据库,所述数据源元数据库用于存储所述数据源元数据,所述规则元数据库用于存储所述规则元数据。4.根据权利要求3所述的系统,其特征在于,所述监控任务调动模块包括工作内存和规则库,其中,所述规则库用于调用所述元数据管理模块中存储的所述规则语句;所述工作内存用于存储所述数据采集模块采集的所述数据源数据...

【专利技术属性】
技术研发人员:全博楷刘楠
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1