一种基于数据湖的时间线获取方法、装置、执行节点制造方法及图纸

技术编号:34724294 阅读:11 留言:0更新日期:2022-08-31 18:10
本申请公开了一种基于数据湖的时间线获取方法、装置、执行节点、电子设备、计算机可读介质、计算机程序产品,该方法包括:在该执行节点确定达到时间线拉取条件时,先由该执行节点创建第一元数据客户端,并在该第一元数据客户端中创建时间线视图;再由该执行节点利用该时间线视图从管理节点的内置元数据服务中获取待使用时间线,以使该待使用时间线能够表示出该管理节点中的至少一个事务,以便后续该执行节点能够从该待使用时间线中获知需要由其执行的事务,如此能够实现借助该执行节点辅助该管理节点实现写入任务的目的,从而能够有效地提高借助该执行节点辅助管理节点所实现的写入任务的执行效果。入任务的执行效果。入任务的执行效果。

【技术实现步骤摘要】
一种基于数据湖的时间线获取方法、装置、执行节点


[0001]本申请涉及计算机
,尤其涉及一种基于数据湖的时间线获取方法、装置、执行节点、电子设备、计算机可读介质、计算机程序产品。

技术介绍

[0002]数据湖(DataLake)是指使用大型二进制对象或者文件格式存储数据的系统;而且数据湖被用于统一存储数据。
[0003]数据湖框架(Apache Hudi,简称Hudi)是一个流式数据湖平台;而且Hudi可以通过多种工具(例如,Spark、Flink等)接入大量数据(例如,关系型数据库、日志、消息队列的数据等)进行数据存储。
[0004]然而,因一些Hudi方案(例如,基于Flink的hudi等)存在缺陷,导致利用这些Hudi方案实现的写入任务的执行效果比较差。

技术实现思路

[0005]为了解决上述技术问题,本申请提供了一种基于数据湖的时间线获取方法、装置、执行节点、电子设备、计算机可读介质、计算机程序产品,能够有效地提高写入任务的执行效果。
[0006]为了实现上述目的,本申请实施例提供的技术方案如下:
[0007]本申请实施例提供一种基于数据湖的时间线获取方法,应用于基于数据湖的执行节点,所述方法包括:
[0008]在达到时间线拉取条件时,创建第一元数据客户端,并在所述第一元数据客户端中创建时间线视图;
[0009]利用所述时间线视图从管理节点的内置元数据服务中获取待使用时间线;其中,所述内置元数据服务中存储有所述待使用时间线;所述待使用时间线用于记录所述管理节点中的至少一个事务。
[0010]在一种可能的实施方式中,所述至少一个事务包括至少一个处于未完成状态的事务。
[0011]在一种可能的实施方式中,所述内置元数据服务用于存储所述管理节点中实时的时间线。
[0012]在一种可能的实施方式中,所述待使用时间线的更新过程,包括:
[0013]在达到时间线更新条件时,所述管理节点创建第二元数据客户端;
[0014]所述管理节点利用所述第二元数据客户端从元数据系统中拉取元数据时间线;
[0015]所述管理节点利用所述元数据时间线,更新所述内置元数据服务中存储的所述待使用时间线。
[0016]在一种可能的实施方式中,所述方法还包括:
[0017]在所述待使用时间线表示待处理事务已创建时,执行所述待处理事务。
[0018]本申请实施例还提供了一种基于数据湖的时间线获取装置,包括:
[0019]创建单元,用于在达到时间线拉取条件时,创建第一元数据客户端,并在所述第一元数据客户端中创建时间线视图;
[0020]获取单元,用于利用所述时间线视图从管理节点的内置元数据服务中获取待使用时间线;其中,所述内置元数据服务中存储有所述待使用时间线;所述待使用时间线用于记录所述管理节点中的至少一个事务。
[0021]本申请实施例还提供了一种基于数据湖的执行节点,所述执行节点,用于在达到时间线拉取条件时,创建第一元数据客户端,并在所述第一元数据客户端中创建时间线视图;
[0022]所述执行节点,还用于利用所述时间线视图从管理节点的内置元数据服务中获取待使用时间线;其中,所述内置元数据服务中存储有所述待使用时间线;所述待使用时间线用于记录所述管理节点中的至少一个事务。
[0023]本申请实施例还提供了一种电子设备,所述设备包括:处理器和存储器;
[0024]所述存储器,用于存储指令或计算机程序;
[0025]所述处理器,用于执行所述存储器中的所述指令或计算机程序,以使得所述电子设备执行本申请实施例提供的基于数据湖的时间线获取方法的任一实施方式。
[0026]本申请实施例还提供了一种计算机可读介质,所述计算机可读介质中存储有指令或计算机程序,当所述指令或计算机程序在设备上运行时,使得所述设备执行本申请实施例提供的基于数据湖的时间线获取方法的任一实施方式。
[0027]本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的基于数据湖的时间线获取方法的任一实施方式。
[0028]与现有技术相比,本申请实施例至少具有以下优点:
[0029]本申请实施例提供的技术方案中,对于基于数据湖的执行节点(例如,Flink)来说,在该执行节点确定达到时间线拉取条件时,先由该执行节点创建第一元数据客户端,并在该第一元数据客户端中创建时间线视图;再由该执行节点利用该时间线视图从管理节点的内置元数据服务中获取待使用时间线,以使该待使用时间线能够表示出该管理节点中的至少一个事务(例如,至少一个处于未完成状态的事务等),以便后续该执行节点能够从该待使用时间线中获知需要由其执行的事务,如此能够实现借助该执行节点辅助该管理节点实现写入任务的目的。
[0030]其中,因管理节点的内置元数据服务能够通过时间线视图直接向基于数据湖的执行节点提供时间线,使得该执行节点可以直接从管理节点的内置元数据服务中获取时间线,从而使得该执行节点无需向元数据系统请求时间线,如此能够有效地避免在由该执行节点直接向元数据系统请求时间线时所导致的不良影响(例如,元数据系统出现服务不稳定问题、任务并发量比较小等),从而能够有效地提高借助该执行节点辅助管理节点所实现的写入任务的执行效果。
附图说明
[0031]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0032]图1为本申请实施例提供的一种基于Spark的事务提交过程的示意图;
[0033]图2为本申请实施例提供的一种基于Flink的事务提交过程的示意图;
[0034]图3为本申请实施例提供的一种时间线获取过程的示意图;
[0035]图4为本申请实施例提供的另一种时间线获取过程的示意图;
[0036]图5为本申请实施例提供的一种基于数据湖的时间线获取方法的流程图;
[0037]图6为本申请实施例提供的两种时间线获取流程的对比图;
[0038]图7为本申请实施例提供的一种基于数据湖的时间线获取装置的结构示意图;
[0039]图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0040]为了便于理解本申请实施例提供的技术方案,下面先介绍一些技术名词。
[0041]数据湖是原始数据层,可以存放各种结构化、半结构化、甚至非结构化的数据。
[0042]Hudi用于通过分布式文件系统(Hadoop Distributed File System,HDFS)或者云存储等来摄取和/或管理大型分析型数据集;而且Hudi可以被用于构建数据湖。
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据湖的时间线获取方法,其特征在于,应用于基于数据湖的执行节点,所述方法包括:在达到时间线拉取条件时,创建第一元数据客户端,并在所述第一元数据客户端中创建时间线视图;利用所述时间线视图从管理节点的内置元数据服务中获取待使用时间线;其中,所述内置元数据服务中存储有所述待使用时间线;所述待使用时间线用于记录所述管理节点中的至少一个事务。2.根据权利要求1所述的方法,其特征在于,所述至少一个事务包括至少一个处于未完成状态的事务。3.根据权利要求1所述的方法,其特征在于,所述内置元数据服务用于存储所述管理节点中实时的时间线。4.根据权利要求1所述的方法,其特征在于,所述待使用时间线的更新过程,包括:在达到时间线更新条件时,所述管理节点创建第二元数据客户端;所述管理节点利用所述第二元数据客户端从元数据系统中拉取元数据时间线;所述管理节点利用所述元数据时间线,更新所述内置元数据服务中存储的所述待使用时间线。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述待使用时间线表示待处理事务已创建时,执行所述待处理事务。6.一种基于数据湖的时间线获取装置,其特征在于,包括:创建单元,用于在达到时间线拉取条件时,创建第一元数据客户端,并在所述第一元数据客户端中创建时间线视图;获取单元,用...

【专利技术属性】
技术研发人员:喻兆靖郭俊杨诗旻罗旋
申请(专利权)人:北京火山引擎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1