【技术实现步骤摘要】
基于数据质量规则的数据校验方法、系统、设备及介质
[0001]本专利技术实施例涉及基架运维领域,尤其涉及一种基于数据质量规则的数据校验方法、系统、设备及介质。
技术介绍
[0002]ETL(Extract
‑
Transform
‑
Load数据仓库技术)调度系统是大数据平台或数据仓库系统里不可或缺的模块,所述ETL调度系统可以根据一定的规则去触发一个或一系列的ETL作业,比如,定时触发和通过任务依赖触发。在大数据平台离线处理作业的情况下,ETL调度系统触发ETL作业运行相应的任务时所产生的数据通常存储在HDFS(Hadoop Distributed File System分布式文件系统)的数据表,由于HDFS不具有传统数据库对数据表的完整性约束能力,所以在任务运行过程中,可能会有一些异常数据(脏数据或不符合规范的数据)进入到数据表里,而任务依然是显示运行正常。
[0003]现有的数据质量管理平台的往往是在任务结束后对数据表中的数据进行质量规则检验,即,在一些异常数据已经进入到数据表之后进行质量规则检验,虽然,这种方式也可以检测出数据表中的异常数据,并根据异常数据进行事后的提醒,但是,这种方式无法及时数据表中的异常数据,也实现无法及时处理数据表中的异常数据,只能根据异常数据进行事后的提醒;从而导致数据表中整体数据的正确性较差,且对数据表异常数据的修复时间较长、修复成本较高。因此,如何解决现有技术中数据质量管理平台无法及时发现数据表中的异常数据,导致无法及时处理异常数据的问题,从 ...
【技术保护点】
【技术特征摘要】
1.一种基于数据质量规则的数据校验方法,其特征在于,所述方法包括:执行第一目标任务的第i个运行操作:根据第一目标任务的第i
‑
1个任务脚本,运行所述第一目标任务;其中,i为正整数,当所述i=1时,所述第i
‑
1个任务脚本为所述第一目标任务的原始脚本;当所述i>1时,所述第i
‑
1个任务脚本为第i个修改操作得到的修改结果;当所述第一目标任务的第i个运行操作结束后,执行所述第一目标任务的第i个校验操作:调用预先配置的数据质量规则对所述第i
‑
1个任务脚本进行校验,以得到第i个校验结果;判断所述第i个校验结果是否为校验失败;若所述第i个校验结果为校验失败,则根据所述第i
‑
1个任务脚本对所述第一目标任务进行第i个修改操作,以得到所述第一目标任务的第i个任务脚本,并执行所述第一目标任务的第i+1个运行操作;及若所述第i个校验结果为校验成功,则执行第二目标任务的第1个运行操作,其中,所述第二目标任务为所述第一目标任务的下一个目标任务。2.如权利要求1所述的基于数据质量规则的数据校验方法,其特征在于,所述调用预先配置的数据质量规则对所述第i
‑
1个任务脚本进行校验,以得到第i个校验结果的步骤,包括:根据所述第i
‑
1个任务脚本获取所述第i
‑
1个任务脚本的传入参数;调用所述数据质量规则对所述传入参数进行校验,以得到第i个校验结果。3.如权利要求2所述的基于数据质量规则的数据校验方法,其特征在于,还包括:若所述第i个校验结果为校验失败,则判断i是否大于预设阈值;如果i大于所述预设阈值,则执行所述第二目标任务的第1个运行操作;如果i不大于所述预设阈值,则触发所述根据所述第i
‑
1个任务脚本对所述第一目标任务进行第i个修改操作的步骤。4.如权利要求2所述的基于数据质量规则的数据校验方法,其特征在于,还包括:若所述第i个校验结果为校验失败,则计算所述第一目标任务的i个校验操作的验证总时长;判断所述第一目标任务的i个校验操作的验证总时长是否大于预设时长;如果所述第一目标任务的i个校验操作的验证总时长大于所述预设时长,则执行所述第二目标任务的第1个运行操作;如果所述第一目标任务的i个校验操作的验证总时长不大于所述预设时长,则根据所述第i
‑
1个任务脚本对所述第一目...
【专利技术属性】
技术研发人员:邱云春,叶耀青,
申请(专利权)人:平安养老保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。