跨集群版本的ETL加工需求迁移和数据验证方法和系统技术方案

技术编号:38929054 阅读:12 留言:0更新日期:2023-09-25 09:35
本发明专利技术提供了一种跨集群版本的ETL加工需求迁移和数据验证方法和系统,将旧版本大数据集群上的原需求的逻辑代码改造为能够在具有新特性的新版本大数据集群上执行的逻辑代码;将新版本大数据集群上的改造需求的逻辑代码跑出的结果数据进行MD5转码,将旧版本大数据集群上的需求逻辑代码跑出的结果数据进行MD5转码,作为比对数据;进行比对作业的跨平台通信,启动自动传输作业流,传输需比对的MD5数据;对新、旧集群的MD5数据进行比对,自动验证数据总条数、数据内容,并输出差异数据,完成字段级比对分析。本发明专利技术高效省力地完成跨大数据集群、跨版本的改造迁移需求,减少接口迁移开发和验证的周期、接口服务并行运行的时间。接口服务并行运行的时间。接口服务并行运行的时间。

【技术实现步骤摘要】
跨集群版本的ETL加工需求迁移和数据验证方法和系统


[0001]本专利技术涉及需求改造迁移
,具体地,涉及跨集群版本的ETL加工需求迁移和数据验证方法和系统,具体是跨大数据集群、跨版本的ETL加工需求迁移和数据验证方法和系统。尤其是基于不同大数据集群版本的ETL加工需求迁移和数据验证方法和系统。

技术介绍

[0002]专利文献CN107704597A公开了一种关系型数据库至Hive的ETL脚本创建方法,所述方法包含以下步骤:获取数据库元数据信息;快速识别关系型数据库中各数据表的特征分类;根据所属分类为各数据表自动创建ETL脚本;通过模拟访问技术或者服务调用方式将生成的ETL脚本注册到调度平台中。
[0003]该专利文献解决的是自动化将关系型数据库(如mysql)的数据及最基础的简单数据变换(增、删、改)映射成插入hive数据库的数据并进行ETL跑批调度,完成数据处理的场景,仅是简单的SQL变换。
[0004]但是该专利文件没有解决集群升级需要整体迁移低版本(hive库)的复杂加工脚本逻辑代码到高版本(hive库)的复杂加工逻辑,以及校验迁移改造后的ETL脚本加工产出的数据每一行每一个字段的一系列校验流程方法的技术问题。

技术实现思路

[0005]针对现有技术中的缺陷,本专利技术的目的是提供一种跨集群版本的ETL加工需求迁移和数据验证方法和系统。
[0006]根据本专利技术提供的一种跨集群版本的ETL加工需求迁移和数据验证方法,包括:
[0007]步骤S1:将旧版本大数据集群上的原需求的逻辑代码改造为能够在具有新特性的新版本大数据集群上执行的逻辑代码;
[0008]步骤S2:将新版本大数据集群上的改造需求的逻辑代码跑出的结果数据进行MD5转码,将旧版本大数据集群上的需求逻辑代码跑出的结果数据进行MD5转码,作为比对数据;
[0009]步骤S3:进行比对作业的跨平台通信,启动自动传输作业流,传输需比对的MD5数据;
[0010]步骤S4:对新集群、旧集群的MD5数据进行比对,自动验证数据总条数、数据内容,并输出差异数据,完成字段级比对分析。
[0011]优选地,所述步骤S2包括如下步骤:
[0012]步骤S2.1:生成旧版本大数据集群对应的ETL结果表数据的MD5转码生成脚本,配置调度工具CTM调度作业依赖和作业流;
[0013]步骤S2.2:生成新版本大数据集群对应的ETL结果表数据的MD5转码生成脚本,配置新版本大数据集群对应的调度系统调度作业依赖和作业流。
[0014]优选地,所述步骤3包括如下步骤:
[0015]步骤S3.1:在数据传输源集群配置传输作业流和依赖,传输作业流包括:传输源集群对应MD5码值到目标集群,检测到传输完成后,在目标集群自动生成标识源集群MD5码值传输完成的通知文件;
[0016]步骤S3.2:在MD5码值数据传输的目标集群配置监控通知文件的作业,若通知文件已经存在,通知比对作业,在比对前置条件满足情况下触发步骤S4进行比对。
[0017]优选地,对旧平台使用with as语句的内容进行优化,在新平台自定义SparkSQL的UDF函数;
[0018]同时在新旧两套平台上分别加工业务数据,再进行跨平台数据传输和数据一致性比对;其中,将旧平台的业务加工脚本产出报表数据D1、新平台的业务加工脚本产出报表数据D2,即ETL结果表数据,分别在旧平台和准备迁移的新平台上生成对应的MD5表数据,即MD5码值,旧平台MD5表每一行对应报表数据D1中每一行全字段,新平台MD5表每一行对应报表数据D2中每一行全字段;在新旧两套平台中,将其中一方大数据集群平台每日生成的MD5表数据传到另一方大数据集群平台上进行一致性匹配计算,获得匹配结果,并标识出比对不一致的表数据内容,作为评估迁移脚本质量的依据。
[0019]根据本专利技术提供的一种跨集群版本的ETL加工需求迁移和数据验证系统,包括:
[0020]模块M1:将旧版本大数据集群上的原需求的逻辑代码改造为能够在具有新特性的新版本大数据集群上执行的逻辑代码;
[0021]模块M2:将新版本大数据集群上的改造需求的逻辑代码跑出的结果数据进行MD5转码,将旧版本大数据集群上的需求逻辑代码跑出的结果数据进行MD5转码,作为比对数据;
[0022]模块M3:进行比对作业的跨平台通信,启动自动传输作业流,传输需比对的MD5数据;
[0023]模块M4:对新集群、旧集群的MD5数据进行比对,自动验证数据总条数、数据内容,并输出差异数据,完成字段级比对分析。
[0024]优选地,所述模块M2包括如下模块:
[0025]模块M2.1:生成旧版本大数据集群对应的ETL结果表数据的MD5转码生成脚本,配置调度工具CTM调度作业依赖和作业流;
[0026]模块M2.2:生成新版本大数据集群对应的ETL结果表数据的MD5转码生成脚本,配置新版本大数据集群对应的调度系统调度作业依赖和作业流。
[0027]优选地,所述模块M3包括如下模块:
[0028]模块M3.1:在数据传输源集群配置传输作业流和依赖,传输作业流包括:传输源集群对应MD5码值到目标集群,检测到传输完成后,在目标集群自动生成标识源集群MD5码值传输完成的通知文件;
[0029]模块M3.2:在MD5码值数据传输的目标集群配置监控通知文件的作业,若通知文件已经存在,通知比对作业,在比对前置条件满足情况下触发模块M4进行比对。
[0030]优选地,对旧平台使用with as语句的内容进行优化,在新平台自定义SparkSQL的UDF函数;
[0031]同时在新旧两套平台上分别加工业务数据,再进行跨平台数据传输和数据一致性比对;其中,将旧平台的业务加工脚本产出报表数据D1、新平台的业务加工脚本产出报表数
据D2,即ETL结果表数据,分别在旧平台和准备迁移的新平台上生成对应的MD5表数据,即MD5码值,旧平台MD5表每一行对应报表数据D1中每一行全字段,新平台MD5表每一行对应报表数据D2中每一行全字段;在新旧两套平台中,将其中一方大数据集群平台每日生成的MD5表数据传到另一方大数据集群平台上进行一致性匹配计算,获得匹配结果,并标识出比对不一致的表数据内容,作为评估迁移脚本质量的依据。
[0032]根据本专利技术提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现所述的跨集群版本的ETL加工需求迁移和数据验证方法的步骤。
[0033]根据本专利技术提供的一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现所述的跨集群版本的ETL加工需求迁移和数据验证方法的步骤。
[0034]与现有技术相比,本专利技术具有如下的有益效果:
[0035]1、相比于很多传统数据仓库不用大数据来实现,不是建立在大数据集群基础上的,本专利技术提供了基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨集群版本的ETL加工需求迁移和数据验证方法,其特征在于,包括:步骤S1:将旧版本大数据集群上的原需求的逻辑代码改造为能够在具有新特性的新版本大数据集群上执行的逻辑代码;步骤S2:将新版本大数据集群上的改造需求的逻辑代码跑出的结果数据进行MD5转码,将旧版本大数据集群上的需求逻辑代码跑出的结果数据进行MD5转码,作为比对数据;步骤S3:进行比对作业的跨平台通信,启动自动传输作业流,传输需比对的MD5数据;步骤S4:对新集群、旧集群的MD5数据进行比对,自动验证数据总条数、数据内容,并输出差异数据,完成字段级比对分析。2.根据权利要求1所述的跨集群版本的ETL加工需求迁移和数据验证方法,其特征在于,所述步骤S2包括如下步骤:步骤S2.1:生成旧版本大数据集群对应的ETL结果表数据的MD5转码生成脚本,配置调度工具CTM调度作业依赖和作业流;步骤S2.2:生成新版本大数据集群对应的ETL结果表数据的MD5转码生成脚本,配置新版本大数据集群对应的调度系统调度作业依赖和作业流。3.根据权利要求1所述的跨集群版本的ETL加工需求迁移和数据验证方法,其特征在于,所述步骤3包括如下步骤:步骤S3.1:在数据传输源集群配置传输作业流和依赖,传输作业流包括:传输源集群对应MD5码值到目标集群,检测到传输完成后,在目标集群自动生成标识源集群MD5码值传输完成的通知文件;步骤S3.2:在MD5码值数据传输的目标集群配置监控通知文件的作业,若通知文件已经存在,通知比对作业,在比对前置条件满足情况下触发步骤S4进行比对。4.根据权利要求1所述的跨集群版本的ETL加工需求迁移和数据验证方法,其特征在于,对旧平台使用with as语句的内容进行优化,在新平台自定义SparkSQL的UDF函数;同时在新旧两套平台上分别加工业务数据,再进行跨平台数据传输和数据一致性比对;其中,将旧平台的业务加工脚本产出报表数据D1、新平台的业务加工脚本产出报表数据D2,即ETL结果表数据,分别在旧平台和准备迁移的新平台上生成对应的MD5表数据,即MD5码值,旧平台MD5表每一行对应报表数据D1中每一行全字段,新平台MD5表每一行对应报表数据D2中每一行全字段;在新旧两套平台中,将其中一方大数据集群平台每日生成的MD5表数据传到另一方大数据集群平台上进行一致性匹配计算,获得匹配结果,并标识出比对不一致的表数据内容,作为评估迁移脚本质量的依据。5.一种跨集群版本的ETL加工需求迁移和数据验证系统,其特征在于,包括:模块M1:将旧版本大数据集群上的原需求的逻辑代码改造为能够在具有新特性的新版本大数据集群上执行的逻辑代码;模块M2:将新版本大数据集群上...

【专利技术属性】
技术研发人员:赵兰英甘论清孙贵凡
申请(专利权)人:兴业数字金融服务上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1