一种数据质量稽核动态扩展的方法、装置和设备制造方法及图纸

技术编号:37126882 阅读:16 留言:0更新日期:2023-04-06 21:25
本发明专利技术提供了一种数据质量稽核动态扩展的方法、装置和设备,所述方法包括:使用Spark的数据源接口,将各类数据源加载为Dataset,并根据配置的稽核对象名,注册为Spark的表;对加载的数据源,根据数据质量稽核控件进行处理,生成数据质量稽核基础指标;对生成的基础指标进行算法逻辑处理,生成新的指标:计算指标;配置Prometheus模板,模板中配置了基础指标和计算指标的编码,在数据质量稽核任务运行时,替换指标编码为具体指标的值,进行上报。以此方式,基于配置,零代码完成数据质量稽核,支持任意扩展,用户只需要编写配置文件,即可完成数据质量的稽核,无需修改代码,数据质量也可对接Prometheus,便于对数据质量的稽核情况进行监控。监控。监控。

【技术实现步骤摘要】
一种数据质量稽核动态扩展的方法、装置和设备


[0001]本专利技术的实施例一般涉及数据稽核的
,尤其涉及一种数据质量稽核动态扩展方法、装置和设备。

技术介绍

[0002]随着技术的发展,数字化成为趋势。为提高基层治理的水平,城市开始向数字化转型,数字政府也开始走进人们的生活。其中,作为数字政府新型基础设施建设的城市大脑更是智慧化城市的重要内容。城市大脑的正常运作离不开数据中台。数据中台是城市大脑的数据基座,其为城市大脑行业应用提供标准、干净、全量数据。数据中台中的数据种类繁多、来源广泛、体量巨大,这些数据主要归集于政府各个单位的政务数据。然而归集数据愈多,数据质量问题愈突出。为了提高收集的数据的质量,在从多个数据源收集数据的过程中,需要对收集的数据进行数据质量稽核。
[0003]现在的数据质量稽核的方法存在以下问题:1.新增数据质量稽核需求,需要开发代码。整个流程设计需求、开发、测试、部署多个环节,耗时长,工作量大,成本高;2.每个数据质量需求需要根据实际的业务需求单独开发,功能重用度低;3.数据稽核的数据源读取扩展性差,没有实现通用的数据读取的功能,数据读取的需求变更,可能都需要修改代码;4.新增数据质量稽核的指标,一般都修改代码
[0004]如专利:“一种数据质量稽核引擎及其稽核方法(申请号:CN202110735553.1)”:该方法包括获取待稽查数据集的元数据和数据质量标准规范的质量规则项,从质量规则项中提取对应的特征词,元数据包括数据集名称、数据属性名称和数据属性注释;将特征词与元数据中的数据属性名称或者数据属性注释进行匹配,建立质量规则项和元数据中每个属性的关联关系;基于待稽查数据集中的属性和关联关系得到稽核任务;基于稽核任务与质量规则项对应的稽核处理方法,获得待稽查数据集的稽核处理方法,以生成待稽查数据集的稽核脚本;运行稽核脚本对待稽查数据集进行稽查以获得稽核结果。该专利技术能够解决现有技术中稽核效率较低,配置任务工作繁重的问题,但是无法解决新增需求需要修改代码、功能重用度低的问题。

技术实现思路

[0005]为解决以上问题,本专利技术基于配置,零代码完成数据质量稽核,并且,数据稽核对象和基础指标控件,根据定义的流程规则,支持任意扩展,支持接入任意的数据源以及任意的数据质量稽核规则,用户只需要编写配置文件,即可完成数据质量的稽核,无需修改代码,数据质量也可对接Prometheus,便于对数据质量的稽核情况进行监控。
[0006]根据本专利技术的实施例,提供了一种数据质量稽核动态扩展的方法、装置和设备。
[0007]在本专利技术的第一方面,提供了一种数据质量稽核动态扩展的方法。该方法包括:
[0008]S01:使用Spark的数据源接口,将各类数据源加载为Dataset,并根据配置的稽核对象名,注册为Spark的表;
[0009]S02:对加载的数据源,根据数据质量稽核控件进行处理,生成数据质量稽核基础指标;
[0010]S03:对生成的基础指标进行算法逻辑处理,生成新的指标:计算指标;
[0011]S04:配置Prometheus模板,模板中配置了基础指标和计算指标的编码,在数据质量稽核任务运行时,替换指标编码为具体指标的值,进行上报。
[0012]进一步地,S01中所述的数据源具有可拓展性,具体拓展步骤如下:
[0013]S011:定义数据源接入的trait类,加载的数据源继承trait类,实现trait类的抽象方法,读取每个数据源的数据并转换为Spark的Dataset类型;
[0014]S012:将实现步骤S011的代码进行打包并生成一个目录,目录名为通过type指定的名称;
[0015]S013:将步骤S012生成jar包的数据源目录统一存放在一个固定的控件目录下,数据质量稽核的业务在配置文件中进行配置;
[0016]S014:读取配置文件中的source模块,对配置文件进行遍历,根据type定义的数据源名称,加载控件目录下在数据源子目录的jar包,创建数据源控件的实例,根据数据源控件读取配置,生成每个数据源的Dataset,并将每个数据源生成的Dataset注册为表。
[0017]进一步地,S012中所述的配置文件中的source模块配置了多个数据源。
[0018]4.根据权利要求1所述的一种数据质量稽核动态扩展的方法,其特征在于,所述的S02的具体步骤为:
[0019]S021:trait类定义四个基础指标定义的流程:读取基础指标控件的配置、检查配置、预处理、生成基础指标的Dataset;
[0020]S022:根据需求自行控制实现抽象的方法、数据稽核的逻辑及每个基础指标控件的配置项,并将代码进行打包,生成一个目录名为通过type指定名称的目录,该目录存放基础指标控件相关的jar包;
[0021]S023:将生成jar包的基础控件目录统一存放在固定的控件目录下,数据质量稽核的业务在配置文件中,进行配置;
[0022]S024:读取配置文件中的basicKpi模块,遍历所有的数据质量稽核控件,针对每个数据质量稽核控件,根据type的值,匹配控件目录下的子目录,加载子目录下的jar包,生成unique数据质量稽核控件的实例。
[0023]进一步地,S021中所述的基础指标的Dataset有且只能返回4个字段:数据稽核对象、指标名称、指标值和指标描述。
[0024]进一步地,所述的基础指标的编码的命名规则为:使用“.”号连接数据稽核对象、基础控件名称及基础指标名称。
[0025]进一步地,S023中所述的配置文件中的basicKpi模块配置了多个数据质量稽核的控件。
[0026]进一步地,所述的S04的具体步骤为:
[0027]S041:配置Prometheus数据格式的模板,在模板里配置基础指标和计算指标的编码,并根据基础指标和计算指标,生成数据上报的条件,根据基础指标和计算指标,配置数据上报的条件;
[0028]S042:在数据质量稽核任务运行时,将满足上报条件的数据的基础指标和计算指
标的编码替换为指标的值并上报至Prometheus;
[0029]S043:将数据稽核模板生成的Prometheus监控指标写入PushGateway;
[0030]S044:Prometheus采用定时Pull模式从PushGateway采集Prometheus的监控指标数据;
[0031]S045:Prometheus根据采集的数据,基于Prom QL创建告警规则,如果满足Prom QL定义的规则,则会产生一条告警并告知工作人员。
[0032]进一步地,所述的Prometheus具有基于可视化的工具,对数据质量的指标进行可视化监控的功能。
[0033]在本专利技术的第二方面,提供了一种数据质量稽核动态扩展的装置。该装置包括:
[0034]数据稽核对象注册模块:用于使用Spark的数据源接口本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据质量稽核动态扩展的方法,其特征在于,该方法包括:S01:使用Spark的数据源接口,将各类数据源加载为Dataset,并根据配置的稽核对象名,注册为Spark的表;S02:对加载的数据源,根据数据质量稽核控件进行处理,生成数据质量稽核基础指标;S03:对生成的基础指标进行算法逻辑处理,生成新的指标:计算指标;S04:配置Prometheus模板,模板中配置了基础指标和计算指标的编码,在数据质量稽核任务运行时,替换指标编码为具体指标的值,进行上报。2.根据权利要求1所述的一种数据质量稽核动态扩展的方法,其特征在于,S01中所述的数据源具有可拓展性,具体拓展步骤如下:S011:定义数据源接入的trait类,加载的数据源继承trait类,实现trait类的抽象方法,读取每个数据源的数据并转换为Spark的Dataset类型;S012:将实现步骤S011的代码进行打包并生成一个目录,目录名为通过type指定的名称;S013:将步骤S012生成jar包的数据源目录统一存放在一个固定的控件目录下,数据质量稽核的业务在配置文件中进行配置;S014:读取配置文件中的source模块,对配置文件进行遍历,根据type定义的数据源名称,加载控件目录下在数据源子目录的jar包,创建数据源控件的实例,根据数据源控件读取配置,生成每个数据源的Dataset,并将每个数据源生成的Dataset注册为表。3.根据权利要求2所述的一种数据质量稽核动态扩展的方法,其特征在于,S012中所述的配置文件中的source模块配置了多个数据源。4.根据权利要求1所述的一种数据质量稽核动态扩展的方法,其特征在于,所述的S02的具体步骤为:S021:trait类定义四个基础指标定义的流程:读取基础指标控件的配置、检查配置、预处理、生成基础指标的Dataset;S022:根据需求自行控制实现抽象的方法、数据稽核的逻辑及每个基础指标控件的配置项,并将代码进行打包,生成一个目录名为通过type指定名称的目录,该目录存放基础指标控件相关的jar包;S023:将生成jar包的基础控件目录统一存放在固定的控件目录下,数据质量稽核的业务在配置文件中,进行配置;S024:读取配置文件中的basicKpi模块,遍历所有的数据质量稽核控件,针对每个数据质量稽核控件,根据type的值,匹配控件目录下的子目录,加载子目录下的jar包,生成数据质量稽核控件的实...

【专利技术属性】
技术研发人员:周朝卫刘钧张梅周世军覃华云
申请(专利权)人:中盈优创资讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1