System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于图形界面配置的自动化ETL装置和方法制造方法及图纸_技高网

基于图形界面配置的自动化ETL装置和方法制造方法及图纸

技术编号:40601178 阅读:10 留言:0更新日期:2024-03-12 22:05
本发明专利技术公开了基于图形界面配置的自动化ETL装置和方法,提供可视化,供设计人员描述ETL需求后自动生成ETL逻辑,对数据源模式变化进行处理,自动分享目标表结构,多环节降低成本。其技术方案为:图形界面模块,提供基于WEB的图形界面展示,与用户交互操作;ETL引擎模块,接收图形界面模块传入的任务创建的信息,生成ETL逻辑并提交执行;收集运行日志和告警信息并提交给日志和告警模块;生成目标表结构并提交给目标表结构发布和管理模块;目标表结构发布和管理模块,将目标表结构转换成与编程语言相适应的二方包,并发布到相应的二方库;日志和告警模块,记录ETL引擎模块产生的日志和告警信息,并通知用户。

【技术实现步骤摘要】

本专利技术涉及数据处理技术,具体涉及一种基于图形界面配置的自动化etl装置和方法。


技术介绍

1、etl(全称extract-transform-load)是将原始数据经过提取、转换、加载到目标存储的过程,是数据应用领域常见的处理技术。现有的etl开发流程通常是:基于flink等工具框架开发相应的代码,在代码中通常分为三部分:定义数据源和抽取过程、定义转换逻辑、将转换后的数据存储到目标存储中。将etl逻辑制作成可执行程序提交给工具框架执行。受执行时内存等资源限制,通常一个可执行程序完成一个或少量etl过程。

2、上述做法存在以下问题:

3、1)重复定义数据源和抽取过程。使用相同数据源的可执行程序,需要在多个可执行程序中重复定义数据源和抽取过程。

4、2)可视化不佳。etl开发者无法直接查看图形界面获取数据源的表之间关系(如外键引用等),需通过数据库的表定义或业务逻辑等厘清彼此关系,信息难以沉淀记录下来。

5、3)etl的开发成本高。通常由设计人员确定etl需求,交给开发人员开发,沟通过程和开发过程人力成本高。

6、4)etl的维护成本高。当数据源模式(schema)发生变化(如列被重命名等),需手工调整etl代码并重新执行。

7、5)目标表结构无法自动共享。前述etl开发过程的第三步中定义的目标表结构需etl开发人员共享给使用者(如发布二方库),或由使用者二次定义,两种方式都需要人力成本。


技术实现思路

1、以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

2、本专利技术的目的在于解决上述问题,提供了一种基于图形界面配置的自动化etl装置和方法,提供良好的可视化,供设计人员描述etl需求后自动生成etl逻辑,对数据源的模式变化进行适当处理,自动分享目标表结构,进而从多个环节降低成本。

3、本专利技术的技术方案为:本专利技术揭示了一种基于图形界面配置的自动化etl装置,装置包括:

4、图形界面模块,配置为提供基于web的图形界面展示功能,与用户交互操作,当用户创建自动化etl任务后,图形界面模块将任务创建的信息传递给etl引擎模块,当用户查看日志和告警信息时,从日志和告警模块载入数据;

5、etl引擎模块,配置为接收图形界面模块传入的任务创建的信息,生成etl逻辑并提交执行;收集运行日志和告警信息并提交给日志和告警模块;生成目标表结构并提交给目标表结构发布和管理模块;

6、目标表结构发布和管理模块,配置为将目标表结构转换成与编程语言相适应的二方包,并发布到相应的二方库;

7、日志和告警模块,配置为记录etl引擎模块产生的日志和告警信息,将告警转为通知发送给用户。

8、根据本专利技术的基于图形界面配置的自动化etl装置的一实施例,图形界面模块与用户的交互操作包括:

9、供用户在图形界面创建数据源连接、查看数据源表结构和表关系、经界面交互补充表关系、创建自动化etl任务、查看目标表结构、查看任务执行情况和告警信息。

10、根据本专利技术的基于图形界面配置的自动化etl装置的一实施例,etl引擎模块进一步配置自动化etl引擎算法:

11、步骤s1:接收图形界面提交的数据源表关系描述,解析数据结构中的内容,校验语法与格式正确;

12、步骤s2:从数据源表关系描述的数据结构中,计算涉及到的全部数据源表,分别建立这些表的cdc连接,初始化时将这些表的数据全部加载到内存中,之后cdc监控数据源的数据变动和模式变动;

13、步骤s3:当初始执行或cdc监测到有数据发生变化,执行步骤s4,否则等待;

14、步骤s4:调用数据源表关系描述处理算法,根据数据源表关系描述和内存中这些表的数据,计算生成全量的目标数据;

15、步骤s5:计算生成的全量的目标数据中每条记录的哈希值,若是初始执行,则全部筛选,否则通过比对每条记录中该哈希值与上轮计算的哈希值,筛选出数据发生变化的目标表数据记录;

16、步骤s6:将变动记录写入目标存储;

17、步骤s7:将步骤s5步骤中计算的哈希值作为下轮计算的比较对象,然后执行步骤s3,实现持续的数据更新。

18、根据本专利技术的基于图形界面配置的自动化etl装置的一实施例,步骤s2进一步包括当发生模式变动时,执行模式变动后适应算法:

19、步骤s2-1:cdc监控数据源的数据变动和模式变动;

20、步骤s2-2:检测到cdc发送了模式变动时,根据不同的变动类型分别处理,如果是删除列或删除表,执行步骤s2-3,如果是新增列或新增表,执行步骤s2-5,如果是表或列的重命名或属性变动,执行步骤s2-4;

21、步骤s2-3:如果被删除的列或表在数据源表结构描述中涉及,执行步骤s2-6,否则执行步骤s2-5;

22、步骤s2-4:尝试重新生成自动化etl引擎,以兼容变动后的模式,调整兼容过程如果成功,则执行步骤s2-5,如果失败,则执行步骤s2-6;

23、步骤s2-5:继续运行,用户无感知;

24、步骤s2-6:系统无法继续运行,停止运行并告警。

25、本专利技术还揭示了一种基于图形界面配置的自动化etl方法,方法在如上述的基于图形界面配置的自动化etl装置上运行,方法包括:

26、步骤1:用户进入图形界面,新建数据源或使用已创建的数据源,在新建数据源时输入信息后,图形界面展示数据源中的表及其关系,展示过程中按照表之间的外键关系自动加载字段引用关系;

27、步骤2:用户额外补充字段引用关系,或调整自动加载的引用关系;

28、步骤3:用户创建自动化etl任务;

29、步骤4:装置收到任务后,生成目标表结构二方包,设置版本号,发布到二方库;生成用于数据转换的自动化etl引擎算法并执行;

30、步骤5:客户端引用二方库中的二方包,连接到目标数据库后查询目标表数据。

31、根据本专利技术的基于图形界面配置的自动化etl方法的一实施例,步骤1中在新建数据源时输入的信息包括:数据源的访问路径、用户、密码、需要使用的数据库。

32、根据本专利技术的基于图形界面配置的自动化etl方法的一实施例,在步骤3中,创建自动化etl任务的过程进一步包括:

33、选择需要使用的表;指定中心表,其中中心表必须且只能指定一个;指定字段引用关系的模式;选择需要使用的字段;重命名字段名、表名在目标表结构中默认的名字;提交任务。

34、根据本专利技术的基于图形界面配置的自动化etl方法的一实施例,自动化etl引擎算法的本文档来自技高网...

【技术保护点】

1.一种基于图形界面配置的自动化ETL装置,其特征在于,装置包括:

2.根据权利要求1所述的基于图形界面配置的自动化ETL装置,其特征在于,图形界面模块与用户的交互操作包括:

3.根据权利要求2所述的基于图形界面配置的自动化ETL装置,其特征在于,ETL引擎模块进一步配置自动化ETL引擎算法:

4.根据权利要求3所述的基于图形界面配置的自动化ETL装置,其特征在于,步骤S2进一步包括当发生模式变动时,执行模式变动后适应算法:

5.一种基于图形界面配置的自动化ETL方法,其特征在于,方法在如权利要求1至4中任一项所述的基于图形界面配置的自动化ETL装置上运行,方法包括:

6.根据权利要求5所述的基于图形界面配置的自动化ETL方法,其特征在于,步骤1中在新建数据源时输入的信息包括:数据源的访问路径、用户、密码、需要使用的数据库。

7.根据权利要求6所述的基于图形界面配置的自动化ETL方法,其特征在于,在步骤3中,创建自动化ETL任务的过程进一步包括:

8.根据权利要求7所述的基于图形界面配置的自动化ETL方法,其特征在于,自动化ETL引擎算法的执行操作包括:从数据源进行CDC操作,生成目标表数据写入目标数据库;当数据源的数据或模式发生变化被自动化ETL引擎算法捕捉到后,自动化ETL引擎算法进行调整处理并保持继续运行,若调整失败则告警并退出。

...

【技术特征摘要】

1.一种基于图形界面配置的自动化etl装置,其特征在于,装置包括:

2.根据权利要求1所述的基于图形界面配置的自动化etl装置,其特征在于,图形界面模块与用户的交互操作包括:

3.根据权利要求2所述的基于图形界面配置的自动化etl装置,其特征在于,etl引擎模块进一步配置自动化etl引擎算法:

4.根据权利要求3所述的基于图形界面配置的自动化etl装置,其特征在于,步骤s2进一步包括当发生模式变动时,执行模式变动后适应算法:

5.一种基于图形界面配置的自动化etl方法,其特征在于,方法在如权利要求1至4中任一项所述的基于图形界面配置的自动化etl装置上运行,方法包括...

【专利技术属性】
技术研发人员:谢恒陈冬严马克李凡张成张千里
申请(专利权)人:上海金融期货信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1