System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于DolphinScheduler的实时数据集成方法技术_技高网

一种基于DolphinScheduler的实时数据集成方法技术

技术编号:43712749 阅读:2 留言:0更新日期:2024-12-18 21:26
本发明专利技术公开了一种基于DolphinScheduler的实时数据集成方法,涉及数据处理领域,解决了Flink CDC上手难度高和Apache DolphinScheduler数据处理方式处理延迟高和实时性不足的技术问题。该方法为,步骤一:设置实时集成任务界面,对所述实时集成任务界面中的参数进行校验并根据所述实时集成任务界面的参数创建实时数据集成任务;步骤二:启动所述实时数据集成任务;步骤三:通过所述实时集成任务界面对实时数据集成任务进行停止,当再次启动所述实时数据集成任务时,将所述实时数据集成任务中的数据更新进数据库中。本发明专利技术实现将数据变化即时更新到数据库,减少数据延迟,提高数据处理的效率。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,更具体地说,它涉及一种基于dolphinscheduler的实时数据集成方法。


技术介绍

1、在实时数据集成、流式数据处理的领域内,apache flink作为一个高性能、可扩展的流处理框架,已经被广泛应用于处理大规模数据流。flink cdc(change data capture)作为flink的一个组件,可以实时同步并处理数据库变更事件,使得数据变化可以即时反映到数据仓库、指标计算或其他系统中。然而,尽管flink cdc在实时数据同步方面表现出色,其在用户使用上需要专业的知识和技能,缺乏灵活性和易用性。apache dolphinscheduler作为一个分布式工作流任务调度系统,提供了丰富的调度策略,但其在实时任务方面支持程度有待提高,在用户体验上、对于非技术用户的兼容上还有待进一步探索和优化。


技术实现思路

1、本专利技术要解决的技术问题是针对现有技术的不足,提供一种基于dolphinscheduler的实时数据集成方法,解决flink cdc上手难度高和apachedolphinscheduler数据处理方式处理延迟高和实时性不足的技术问题。

2、本专利技术所述的一种基于dolphinscheduler的实时数据集成方法,该方法为,步骤一:新增实时集成任务界面,在所述实时集成任务界面中上设置页面参数,对所述页面参数进行校验同时创建实时数据集成任务;

3、步骤二:启动所述实时数据集成任务;

4、步骤三:若通过所述实时集成任务界面对实时数据集成任务进行了停止操作,当再次启动所述实时数据集成任务时,将所述实时数据集成任务中的数据更新进数据库中。

5、作进一步的改进,在步骤一中,所述页面参数包括源数据表、目标数据表、源数据表与目标数据表的字段映射关系、yarn队列、flink任务相关启动参数。

6、进一步的,在步骤一中对所述页面参数进行校验的方法为,当所述目标数据表为hive型的数据表时,则通过ranger restful接口查询用户是否对所述目标数据表的操作权限;

7、当所述目标数据表不存在时,则根据所述源数据表与目标数据表的字段映射关系自动建立目标数据表;

8、当所述目标数据表存在时,则检验所述源数据表与目标数据表的字段映射关系是否符合目标数据表的字段;

9、将所述页面参数转换成后端实体类存入相关数据库表中。

10、更进一步的,在所述步骤二中,启动所述实时数据集成任务的步骤为:

11、第一步:在所述实时集成任务界面上设置包括savepoint位点、检测点间隔数、失败重试次数和延迟执行时间参数的执行参数;

12、第二步:将所述执行参数封装为任务启动command消息,将所述任务启动command消息通过netty通讯发送到dolphinscheduler master组件;

13、所述dolphinscheduler master组件中的taskexecutestartprocessor实时任务处理器根据任务启动command消息创建streamtaskexecuterunnable流式任务执行可运行器,所述streamtaskexecuterunnable流式任务执行可运行器在streamtaskexecutethreadpool流式任务执行线程池中运行;

14、将所述streamtaskexecuterunnable流式任务执行可运行器中的任务参数封装成任务执行command消息,将所述任务执行command消息通过netty通讯发送到dolphinscheduler worker组件中;

15、第三步:所述dolphinscheduler worker组件的taskexecuteprocessor任务执行处理器根据任务执行command消息创建taskexecutethread任务执行线程,所述taskexecutethread任务执行线程在workerexecservice任务执行线程池中运行,所述taskexecutethread任务执行线程中设置有实时数据集成任务的执行路径和日志的存放路径,根据所述实时数据集成任务的任务类型调用执行路径和日志的存放路径构建启动命令,执行所述启动命令,所述实时数据集成任务在yarn中执行;

16、第四步:获取所述实时数据集成任务的任务状态和任务日志,所述dolphinscheduler worker组件通过解析任务日志来获取每个实时任务的jobmanager地址,并将所述jobmanager地址填充并生成响应,将所述响应发送到dolphinschedulermaster组件中并存入数据库中。

17、更进一步的,在所述第三步中,

18、当所述启动命令的启动模式为初次启动时,则选择run-application yarn-application命令;

19、当所述第一步中设置有savepoint位点时,则选择run-applicationfromsavepoint命令。

20、更进一步的,当选择所述run-application fromsavepoint命令后,根据预先上传的jar包,将所述dolphinscheduler master组件和dolphinscheduler worker组件中的任务执行上下文的参数按照jar包定义的参数转换成json格式的字符串,再将所述字符串拼接到启动命令的后面更新启动命令。

21、更进一步的,所述jar包基于flinkcdc开发,所述jar包通过接收预定义参数创建源数据表和目标数据表的flinkcdc连接器来执行数据同步。

22、更进一步的,所述预定义参数包括源数据表连接方式、目标数据表连接方式、源数据表与目标数据表的字段映射关系、flink任务相关启动参数。

23、更进一步的,在所述步骤三中,对所述实时数据集成任务进行停止后,再次启动所述实时数据集成任务时,所述数据库对jobmanager地址进行更新。

24、有益效果

25、本专利技术的优点在于:

26、1.本专利技术通过在实时数据集成任务进行停止后,再次启动所述实时数据集成任务时,数据库对jobmanager地址进行更新,实现将数据变化即时更新到数据库,减少数据延迟,提高数据处理的效率。

27、2.本专利技术通过新增实时集成任务界面来创建和操作实时数据集成任务,简化了用户操作,提升了用户体验,提高了非技术用户的操作友好性,降低了用户上手难度。

28、3.本专利技术通过结合dolphinscheduler和flinkcdc技术,预先开发好的jar包中包含flink任务相关启动参数,运用dolphinscheduler master组件和dolphinschedulerworker组件对实时数据集成任务进行调度,解决了dolphinscheduler在实本文档来自技高网...

【技术保护点】

1.一种基于DolphinScheduler的实时数据集成方法,其特征在于,该方法为,步骤一:新增实时集成任务界面,在所述实时集成任务界面中上设置页面参数,对所述页面参数进行校验同时创建实时数据集成任务;

2.根据权利要求1所述的一种基于DolphinScheduler的实时数据集成方法,其特征在于,在步骤一中,所述页面参数包括源数据表、目标数据表、源数据表与目标数据表的字段映射关系、yarn队列、flink任务相关启动参数。

3.根据权利要求2所述的一种基于DolphinScheduler的实时数据集成方法,其特征在于,在步骤一中对所述页面参数进行校验的方法为,当所述目标数据表为hive型的数据表时,则通过Ranger restFul接口查询用户是否对所述目标数据表的操作权限;

4.根据权利要求1所述的一种基于DolphinScheduler的实时数据集成方法,其特征在于,在所述步骤二中,启动所述实时数据集成任务的步骤为:

5.根据权利要求4所述的一种基于DolphinScheduler的实时数据集成方法,其特征在于,在所述第三步中,

6.根据权利要求5所述的一种基于DolphinScheduler的实时数据集成方法,其特征在于,当选择所述run-application fromSavepoint命令后,根据预先上传的jar包,将所述dolphinscheduler master组件和dolphinscheduler worker组件中的任务执行上下文的参数按照jar包定义的参数转换成json格式的字符串,再将所述字符串拼接到启动命令的后面从而更新启动命令。

7.根据权利要求6所述的一种基于DolphinScheduler的实时数据集成方法,其特征在于,所述jar包基于flinkCDC开发,所述jar包通过接收预定义参数创建源数据表和目标数据表的flinkCDC连接器来执行数据同步。

8.根据权利要求7所述的一种基于DolphinScheduler的实时数据集成方法,其特征在于,所述预定义参数包括源数据表连接方式、目标数据表连接方式、源数据表与目标数据表的字段映射关系、flink任务相关启动参数。

9.根据权利要求4所述的一种基于DolphinScheduler的实时数据集成方法,其特征在于,在所述步骤三中,对所述实时数据集成任务进行停止后,再次启动所述实时数据集成任务时,所述数据库对jobmanager地址进行更新。

...

【技术特征摘要】

1.一种基于dolphinscheduler的实时数据集成方法,其特征在于,该方法为,步骤一:新增实时集成任务界面,在所述实时集成任务界面中上设置页面参数,对所述页面参数进行校验同时创建实时数据集成任务;

2.根据权利要求1所述的一种基于dolphinscheduler的实时数据集成方法,其特征在于,在步骤一中,所述页面参数包括源数据表、目标数据表、源数据表与目标数据表的字段映射关系、yarn队列、flink任务相关启动参数。

3.根据权利要求2所述的一种基于dolphinscheduler的实时数据集成方法,其特征在于,在步骤一中对所述页面参数进行校验的方法为,当所述目标数据表为hive型的数据表时,则通过ranger restful接口查询用户是否对所述目标数据表的操作权限;

4.根据权利要求1所述的一种基于dolphinscheduler的实时数据集成方法,其特征在于,在所述步骤二中,启动所述实时数据集成任务的步骤为:

5.根据权利要求4所述的一种基于dolphinscheduler的实时数据集成方法,其特征在于,在所述第三步中,

6.根据权利要求5所述的一种基于dolphinscheduler...

【专利技术属性】
技术研发人员:吴德海魏文曾令成陈翠合蓝雪日徐雄松尹海朋周海扬周东蔡力泉
申请(专利权)人:中国—东盟信息港股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1