System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 信息记录方法、装置、电子设备及计算机可读存储介质制造方法及图纸_技高网

信息记录方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:42340243 阅读:6 留言:0更新日期:2024-08-14 16:17
本公开提供了一种信息记录方法、装置、电子设备及计算机可读存储介质,本公开涉及信息维护领域。该方法包括:在Flink作业运行时,实时记录用于执行作业的各个TaskManager节点的第一信息;在TaskManager节点在所述Flink作业运行的情况下故障退出时,触发上传信号;基于所述上传信号,将TaskManager节点在Flink作业运行时产生的错误信息上传至JobManager节点,以使JobManager节点将错误信息保存于所述第一信息中。通过本公开的方法,能够实时记录TaskManager节点的第一信息,并在故障时上传错误信息。

【技术实现步骤摘要】

本公开涉及信息维护领域,具体涉及一种信息记录方法、装置、电子设备及计算机可读存储介质


技术介绍

1、apache flink是一个开源的流处理和批处理框架,用于在无界和有界数据流上提供低延迟、高吞吐量和exactly-once语义的数据处理能力。它由apache软件基金会维护。flink集群在作业运行时由两种核心组件组成:jobmanager节点和taskmanager节点。

2、然而,相关技术在flink作业运行时taskmanager节点故障退出错误根因的定位上存在不足。尽管flink集群能够在taskmanager节点遇到异常时获取到异常原因,但在taskmanager节点遇到问题崩溃进程退出的情况下,无法准确获取到崩溃原因。新的taskmanager节点会启动并替代原有的taskmanager节点,导致崩溃时的日志较难找到和排查。对于已停止的flink作业,也无法确保完整保存历史运行日志。因此,亟需一种能够方便定位到taskmanager节点崩溃退出的错误信息和历史日志的解决方法。


技术实现思路

1、本公开实施例提供一种信息记录方法、装置、电子设备及计算机可读存储介质,旨在解决上述
技术介绍
存在的问题。

2、为了解决上述技术问题,本公开是这样实现的:

3、第一方面,本公开实施例提供了一种信息记录方法,应用于flink集群,所述flink集群包括taskmanager节点、jobmanager节点、错误信息上传模块和历史信息记录模块,所述错误信息上传模块部署在所述taskmanager节点上,所述历史信息记录模块部署在所述jobmanager节点上,所述方法包括:

4、在flink作业运行时,通过所述历史信息记录模块记录用于执行所述flink作业的各个taskmanager节点的第一信息,所述第一信息包括用于追溯运行所述flink作业的taskmanager节点的运行日志信息所必需的内容,所述第一信息用于响应用户端的信息查询和/或问题追溯;

5、在所述taskmanager节点在所述flink作业运行的情况下故障退出时,触发上传信号;

6、基于所述上传信号,通过所述错误信息上传模块将所述taskmanager节点在所述flink作业运行时产生的错误信息上传至所述jobmanager节点,以使所述jobmanager节点将所述错误信息保存于所述第一信息中。

7、可选地,所述第一信息包括运行属性信息、运行状态信息和定位信息,所述运行状态信息用于表示当前的taskmanager节点的和历史的taskmanager节点运行状态,所述运行状态信息包括:正在运行、正常退出和异常退出,所述通过所述历史信息记录模块实时记录用于执行所述flink作业的各个taskmanager节点的第一信息,包括:

8、根据所述flink作业的不同的调度框架,保存所述各个taskmanager节点的运行属性信息;

9、实时检测用于执行所述flink作业的各个taskmanager节点的运行状态信息,将所述运行状态信息更新在运行状态表中;

10、记录所述各个taskmanager节点的定位信息,所述定位信息用于描述追溯所述taskmanager节点的第一信息的方式;

11、所述方法还包括:

12、接收所述用户端的taskmanager节点状态查询请求;

13、基于所述taskmanager节点状态查询请求将所述运行状态表显示在所述jobmanager节点的作业监控页面,以使所述用户端获取正在运行的taskmanager节点和/或停止运行的taskmanager节点,所述停止运行的taskmanager节点包括正常停止运行的taskmanager节点和异常停止运行的taskmanager节点。

14、可选地,所述根据所述flink作业的不同的调度框架,保存所述各个taskmanager节点的运行属性信息,包括:

15、当所述调度框架为yarn调度时,保存所述yarn调度中的第一运行属性信息,所述第一运行属性信息包括:所述taskmanager节点运行时所处的主机名、所述taskmanager节点在运行时的容器id、所述flink作业的用户名称、所述yarn调度中的资源管理器节点的ip、所述yarn调度中的资源管理器节点的管理页面服务的端口号,所述容器中封装有所述flink作业及所述flink作业的运行环境和所需资源,所述taskmanager节点在所述容器中执行所述flink作业;

16、所述方法还包括:基于所述第一运行属性信息包含的各项信息的名称构造统一资源定位符,所述统一资源定位符用于获取所述taskmanager节点的第一运行属性信息;

17、当所述调度框架为kubernetes调度时,保存所述kubernetes调度中的第二运行属性信息,所述第二运行属性信息包括:所述flink作业提交所属的命名空间和所述taskmanager节点运行时所处的单元的名称;

18、所述方法还包括:在确定所述taskmanager节点在所述flink作业运行的情况下故障退出时,调用命令获取所述taskmanager节点的第二运行属性信息;在确定所述flink作业停止时,基于所述第二运行属性信息,定位到日志同步工具导出的所述taskmanager节点的日志信息。

19、可选地,在所述taskmanager节点的进程在所述flink作业运行的情况下故障退出之前,还包括:

20、在运行所述taskmanager节点的java虚拟机退出前,调用所述java虚拟机的钩子函数;

21、基于所述钩子函数的内容,收集并上传与所述java虚拟机运行时的错误环境信息。

22、可选地,所述错误信息包括故障异常信息、java虚拟机内存使用情况和java虚拟机的启动参数、启动命令和路径信息,在所述通过所述错误信息上传模块将所述taskmanager节点在所述flink作业运行时产生的错误信息上传至所述jobmanager节点之前,包括:

23、当所述taskmanager节点正常运行时,收集所述taskmanager节点的启动后的java虚拟机的启动参数、启动命令和路径信息;

24、当所述taskmanager节点的进程故障时,收集所述故障异常信息和所述java虚拟机内存使用情况,所述故障异常信息包括错误堆栈信息,所述java虚拟机内存使用情况为所述taskmanager节点故障时所述java虚拟机的内存使用情况;

25、所述通过所述错误信息上传模块将所述taskmanager节点在所述flink作业运行时产生的错误信息上传至所述jobmanager节点,包括:

26、当所述jobmanager节点可用时,通过所述错误信息上传模块将所述故障异常信息、所述java虚拟机内存使本文档来自技高网...

【技术保护点】

1.一种信息记录方法,其特征在于,应用于Flink集群,所述Flink集群包括TaskManager节点、JobManager节点、错误信息上传模块和历史信息记录模块,所述错误信息上传模块部署在所述TaskManager节点上,所述历史信息记录模块部署在所述JobManager节点上,所述方法包括:

2.根据权利要求1所述的信息记录方法,其特征在于,所述第一信息包括运行属性信息、运行状态信息和定位信息,所述运行状态信息用于表示当前的TaskManager节点的和历史的TaskManager节点运行状态,所述运行状态信息包括:正在运行、正常退出和异常退出,所述通过所述历史信息记录模块实时记录用于执行所述Flink作业的各个TaskManager节点的第一信息,包括:

3.根据权利要求2所述的信息记录方法,其特征在于,所述根据所述Flink作业的不同的调度框架,保存所述各个TaskManager节点的运行属性信息,包括:

4.根据权利要求1所述的信息记录方法,其特征在于,在所述TaskManager节点的进程在所述Flink作业运行的情况下故障退出之前,还包括:

5.根据权利要求1所述的信息记录方法,其特征在于,所述错误信息包括故障异常信息、Java虚拟机内存使用情况和Java虚拟机的启动参数、启动命令和路径信息,在所述通过所述错误信息上传模块将所述TaskManager节点在所述Flink作业运行时产生的错误信息上传至所述JobManager节点之前,包括:

6.根据权利要求1所述的信息记录方法,其特征在于,所述方法还包括:

7.根据权利要求1所述的信息记录方法,其特征在于,所述通过所述错误信息上传模块将所述TaskManager节点在所述Flink作业运行时产生的错误信息上传至所述JobManager节点,包括:

8.一种信息记录装置,其特征在于,应用于Flink集群,所述Flink集群包括TaskManager节点、JobManager节点、错误信息上传模块和历史信息记录模块,所述错误信息上传模块部署在所述TaskManager节点上,所述历史信息记录模块部署在所述JobManager节点上,所述装置包括:

9.一种电子设备,其特征在于,包括存储器、处理器以及存储在存储器上的计算机程序,其中,所述处理器执行所述计算机程序以实现如权利要求1-7中任一项所述的信息记录方法。

10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的信息记录方法。

...

【技术特征摘要】

1.一种信息记录方法,其特征在于,应用于flink集群,所述flink集群包括taskmanager节点、jobmanager节点、错误信息上传模块和历史信息记录模块,所述错误信息上传模块部署在所述taskmanager节点上,所述历史信息记录模块部署在所述jobmanager节点上,所述方法包括:

2.根据权利要求1所述的信息记录方法,其特征在于,所述第一信息包括运行属性信息、运行状态信息和定位信息,所述运行状态信息用于表示当前的taskmanager节点的和历史的taskmanager节点运行状态,所述运行状态信息包括:正在运行、正常退出和异常退出,所述通过所述历史信息记录模块实时记录用于执行所述flink作业的各个taskmanager节点的第一信息,包括:

3.根据权利要求2所述的信息记录方法,其特征在于,所述根据所述flink作业的不同的调度框架,保存所述各个taskmanager节点的运行属性信息,包括:

4.根据权利要求1所述的信息记录方法,其特征在于,在所述taskmanager节点的进程在所述flink作业运行的情况下故障退出之前,还包括:

5.根据权利要求1所述的信息记录方法,其特征在于,所述错误信息包括故障异常信息、java虚拟机内存使用情况和j...

【专利技术属性】
技术研发人员:张垚
申请(专利权)人:苏州元脑智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1