基于数据质量规则的数据校验方法、系统、设备及介质技术方案

技术编号:32646339 阅读:60 留言:0更新日期:2022-03-12 18:29
本发明专利技术涉及基架运维领域,提供了一种基于数据质量规则的数据校验方法,所述方法包括:执行第一目标任务的第i个运行操作;当所述第一目标任务的第i个运行操作结束后,执行所述第一目标任务的第i个校验操作;判断所述第i个校验结果是否为校验失败;若第i个校验结果为校验失败,则根据第i

【技术实现步骤摘要】
基于数据质量规则的数据校验方法、系统、设备及介质


[0001]本专利技术实施例涉及基架运维领域,尤其涉及一种基于数据质量规则的数据校验方法、系统、设备及介质。

技术介绍

[0002]ETL(Extract

Transform

Load数据仓库技术)调度系统是大数据平台或数据仓库系统里不可或缺的模块,所述ETL调度系统可以根据一定的规则去触发一个或一系列的ETL作业,比如,定时触发和通过任务依赖触发。在大数据平台离线处理作业的情况下,ETL调度系统触发ETL作业运行相应的任务时所产生的数据通常存储在HDFS(Hadoop Distributed File System分布式文件系统)的数据表,由于HDFS不具有传统数据库对数据表的完整性约束能力,所以在任务运行过程中,可能会有一些异常数据(脏数据或不符合规范的数据)进入到数据表里,而任务依然是显示运行正常。
[0003]现有的数据质量管理平台的往往是在任务结束后对数据表中的数据进行质量规则检验,即,在一些异常数据已经进入到数据表之后进行质量规则检验,虽然,这种方式也可以检测出数据表中的异常数据,并根据异常数据进行事后的提醒,但是,这种方式无法及时数据表中的异常数据,也实现无法及时处理数据表中的异常数据,只能根据异常数据进行事后的提醒;从而导致数据表中整体数据的正确性较差,且对数据表异常数据的修复时间较长、修复成本较高。因此,如何解决现有技术中数据质量管理平台无法及时发现数据表中的异常数据,导致无法及时处理异常数据的问题,从而解决数据表中整体数据的正确性较差,对异常数据的修复时间较长、修复成本较高的问题,成为了当前急需解决的技术问题。

技术实现思路

[0004]有鉴于此,有必要提供一种基于数据质量规则的数据校验方法、系统、设备及可读存储介质,以解决现有技术中数据质量管理平台无法及时发现数据表中的异常数据,也无法及时处理异常数据,导致数据表中整体数据的正确性较差,对异常数据的修复时间较长、修复成本较高的问题。
[0005]为实现上述目的,本专利技术实施例提供了一种基于数据质量规则的数据校验方法,所述方法步骤包括:
[0006]执行第一目标任务的第i个运行操作:根据第一目标任务的第i

1个任务脚本,运行所述第一目标任务;其中,i为正整数,当所述i=1时,所述第i

1个任务脚本为所述第一目标任务的原始脚本;当所述i>1时,所述第i

1个任务脚本为第i个修改操作得到的修改结果;
[0007]当所述第一目标任务的第i个运行操作结束后,执行所述第一目标任务的第i个校验操作:调用预先配置的数据质量规则对所述第i

1个任务脚本进行校验,以得到第i个校验结果;
[0008]判断所述第i个校验结果是否为校验失败;
[0009]若所述第i个校验结果为校验失败,则根据所述第i

1个任务脚本对所述第一目标任务进行第i个修改操作,以得到所述第一目标任务的第i个任务脚本,并执行所述第一目标任务的第i+1个运行操作;及
[0010]若所述第i个校验结果为校验成功,则执行第二目标任务的第1个运行操作,其中,所述第二目标任务为所述第一目标任务的下一个目标任务。
[0011]可选的,所述调用预先配置的数据质量规则对所述第i

1个任务脚本进行校验,以得到第i个校验结果的步骤,包括:
[0012]根据所述第i

1个任务脚本获取所述第i

1个任务脚本的传入参数;
[0013]调用所述数据质量规则对所述传入参数进行校验,以得到第i个校验结果。
[0014]可选的,还包括:
[0015]若所述第i个校验结果为校验失败,则判断i是否大于预设阈值;
[0016]如果i大于所述预设阈值,则执行所述第二目标任务的第1个运行操作;
[0017]如果i不大于所述预设阈值,则触发所述根据所述第i

1个任务脚本对所述第一目标任务进行第i个修改操作的步骤。
[0018]可选的,还包括:
[0019]若所述第i个校验结果为校验失败,则计算所述第一目标任务的i个校验操作的验证总时长;
[0020]判断所述第一目标任务的i个校验操作的验证总时长是否大于预设时长;
[0021]如果所述第一目标任务的i个校验操作的验证总时长大于所述预设时长,则执行所述第二目标任务的第1个运行操作;
[0022]如果i不大于所述预设时长,则根据所述第i

1个任务脚本对所述第一目标任务进行第i个修改操作。
[0023]可选的,还包括:
[0024]判断所述第一目标任务是否为最后一个任务;
[0025]若所述第一目标任务不是最后一个任务,则执行第二目标任务的第1个运行操作。
[0026]可选的,还包括:将所述第i个校验结果上传到区块链。
[0027]为实现上述目的,本专利技术实施例还提供了一种基于数据质量规则的数据校验系统,包括:
[0028]第一运行模块,用于执行第一目标任务的第i个运行操作:根据第一目标任务的第i

1个任务脚本,运行所述第一目标任务;其中,i为正整数,所述i为1时,所述第i

1个任务脚本为所述第一目标任务的原始脚本;所述i为>1时,所述第i

1个任务脚本为第i个修改操作得到的修改结果;
[0029]任务校验模块,用于当所述第一目标任务的第i个运行操作结束后,执行所述第一目标任务的第i个校验操作:调用预先配置的数据质量规则对所述第i

1个任务脚本进行校验,以得到第i个校验结果;
[0030]结果判断模块,用于判断所述第i个校验结果是否为校验失败;
[0031]脚本修改模块,用于若所述第i个校验结果为校验失败,则根据所述第i

1个任务脚本对所述第一目标任务进行第i个修改操作,以得到所述第一目标任务的第i个任务脚
本,并执行所述第一目标任务的第i+1个运行操作;及
[0032]第二运行模块,用于若所述第i个校验结果为校验成功,则执行第二目标任务的第1个运行操作,其中,所述第二目标任务为所述第一目标任务的下一个目标任务。
[0033]可选的,所述任务校验模块,还用于:
[0034]根据所述第i

1个任务脚本获取所述第i

1个任务脚本的传入参数;
[0035]调用所述数据质量规则对所述传入参数进行校验,以得到第i个校验结果。
[0036]为实现上述目的,本专利技术实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上述的基于数据质量规则的数据校验方法的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据质量规则的数据校验方法,其特征在于,所述方法包括:执行第一目标任务的第i个运行操作:根据第一目标任务的第i

1个任务脚本,运行所述第一目标任务;其中,i为正整数,当所述i=1时,所述第i

1个任务脚本为所述第一目标任务的原始脚本;当所述i>1时,所述第i

1个任务脚本为第i个修改操作得到的修改结果;当所述第一目标任务的第i个运行操作结束后,执行所述第一目标任务的第i个校验操作:调用预先配置的数据质量规则对所述第i

1个任务脚本进行校验,以得到第i个校验结果;判断所述第i个校验结果是否为校验失败;若所述第i个校验结果为校验失败,则根据所述第i

1个任务脚本对所述第一目标任务进行第i个修改操作,以得到所述第一目标任务的第i个任务脚本,并执行所述第一目标任务的第i+1个运行操作;及若所述第i个校验结果为校验成功,则执行第二目标任务的第1个运行操作,其中,所述第二目标任务为所述第一目标任务的下一个目标任务。2.如权利要求1所述的基于数据质量规则的数据校验方法,其特征在于,所述调用预先配置的数据质量规则对所述第i

1个任务脚本进行校验,以得到第i个校验结果的步骤,包括:根据所述第i

1个任务脚本获取所述第i

1个任务脚本的传入参数;调用所述数据质量规则对所述传入参数进行校验,以得到第i个校验结果。3.如权利要求2所述的基于数据质量规则的数据校验方法,其特征在于,还包括:若所述第i个校验结果为校验失败,则判断i是否大于预设阈值;如果i大于所述预设阈值,则执行所述第二目标任务的第1个运行操作;如果i不大于所述预设阈值,则触发所述根据所述第i

1个任务脚本对所述第一目标任务进行第i个修改操作的步骤。4.如权利要求2所述的基于数据质量规则的数据校验方法,其特征在于,还包括:若所述第i个校验结果为校验失败,则计算所述第一目标任务的i个校验操作的验证总时长;判断所述第一目标任务的i个校验操作的验证总时长是否大于预设时长;如果所述第一目标任务的i个校验操作的验证总时长大于所述预设时长,则执行所述第二目标任务的第1个运行操作;如果所述第一目标任务的i个校验操作的验证总时长不大于所述预设时长,则根据所述第i

1个任务脚本对所述第一目...

【专利技术属性】
技术研发人员:邱云春叶耀青
申请(专利权)人:平安养老保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1