作业管理方法及计算设备技术

技术编号:36883204 阅读:9 留言:0更新日期:2023-03-15 21:19
本申请实施例公开了一种作业管理方法及计算设备,属于计算集群技术领域。缩短作业运行时间,提高集群资源利用率;该方法包括:计算节点将自身的资源信息发送至管理节点;管理节点确定是否满足弹性恢复开启条件,若满足弹性恢复开启条件,则从多个作业的作业信息中选取到至少一个待调整作业的作业信息,并基于待调整作业的作业信息,向运行待调整作业的计算节点发送作业结束消息,以及将待调整作业重新分配给集群计算系统的计算节点;运行待调整作业的计算节点在接收到作业结束消息后,结束运行待调整作业;由重新分配到待调整作业的计算节点运行待调整作业,其中,待调整作业在重新分配后的计算资源大于在重新分配前的计算资源。配后的计算资源大于在重新分配前的计算资源。配后的计算资源大于在重新分配前的计算资源。

【技术实现步骤摘要】
作业管理方法及计算设备


[0001]本申请涉及计算集群
,尤其涉及作业管理方法及计算设备。

技术介绍

[0002]在高性能计算(High

performance computing,简称HPC)领域,许多科学问题的求解和仿真任务规模庞大,需要同时借助多台计算节点的资源来完成。在大规模HPC集群中,通常采用调度器统一进行资源分配和节点管理。为了提高集群计算系统的容错能力,调度器通常集成了检查点/恢复(Checkpoint/Restart,简称C/R)技术,可将故障退出的作业运行状态恢复,避免重新运行所带来的损失。
[0003]目前,用户可以通过调度器命令行工具进行提交作业、创建检查点、恢复作业等操作,在集群计算系统中的管理节点接收到用户提交的作业处理请求,并生成作业的资源调度结果后,可以发送给计算节点该资源调度结果,使得计算节点按照资源调度结果中指示的计算节点并行运行作业,计算节点自行运行作业直到作业退出后,用户可以选择是否恢复作业运行状态。
[0004]上述相关技术中,由于并行运行作业的计算节点是按照用户提交的需求进行分配的,直到作业运行退出计算节点运行作业的并行度都不会改变,可能会导致集群资源的浪费。

技术实现思路

[0005]本申请实施例提供了一种作业管理方法及计算设备,可以缩短作业运行时间,提高集群资源利用率。
[0006]第一方面,本申请提供了一种作业管理方法,应用于集群计算系统,集群计算系统包括管理节点和至少一个计算节点,集群计算系统的至少一个计算节点上运行有至少一个作业,管理节点中包含至少一个作业的作业信息;该方法包括:计算节点将自身的资源信息发送至管理节点;管理节点基于每个计算节点的资源信息,确定是否满足弹性恢复开启条件,若满足弹性恢复开启条件,则从多个作业的作业信息中选取到至少一个待调整作业的作业信息,并基于待调整作业的作业信息,向运行待调整作业的计算节点发送作业结束消息,以及将待调整作业重新分配给集群计算系统的计算节点;运行待调整作业的计算节点在接收到作业结束消息后,结束运行待调整作业;由重新分配到待调整作业的计算节点运行待调整作业,其中,待调整作业在重新分配后的计算资源大于在重新分配前的计算资源。
[0007]可以理解的是,由于该方法中集群计算系统中的管理节点可以通过获取集群计算系统中计算节点自身的资源信息,监控资源信息是否满足弹性恢复开启条件,在监控到满足弹性恢复开启条件时选择集群计算系统中运行的部分作业作为待调整作业,按照待调整作业的作业信息向运行待调整作业的计算节点发送作业结束消息终止运行待调整作业,并且将待调整作业重新分配给计算资源大于重新分配前的计算节点,使得管理节点可以在集群计算系统中的计算节点资源信息满足弹性恢复开启条件时弹性触发部分作业按照更大
的并行度重新分配运行,然后按照重新分配的扩大计算资源后的计算节点继续运行作业,由于重新分配的计算节点处于空闲状态,所以保证了计算节点的计算性能,并且提高了计算集群中计算节点的整体利用率,同时,也提高了运行作业的并行度,缩短作业运行时间,从而提高了作业运行的效率。
[0008]在一种可能的实现方式中,从多个作业的作业信息中选取到至少一个待调整作业的作业信息,包括:若连续多次基于每个计算节点的资源信息,确定满足弹性恢复开启条件,从多个作业的作业信息中选取到至少一个待调整作业的作业信息。
[0009]可以理解的是,为了规避短时间内集群计算系统中由于作业完成对计算节点资源释放,所造成的对集群计算系统空闲度的影响,保证集群计算系统长期存在资源空闲的情况下,开启弹性触发部分作业按照更大的并行度重新分配并继续运行。
[0010]在一种可能的实现方式中,若资源信息包括CPU内核空闲情况,CPU内核空闲情况满足预设空闲情况,从集群计算系统中的多个作业中确定待调整作业,包括:若连续多次确定CPU内核空闲情况满足预设空闲情况,从集群计算系统中的多个作业中确定待调整作业。
[0011]可以理解的是,为了规避短时间内集群计算系统中由于作业完成对计算节点资源释放,所造成的对集群计算系统空闲度的影响,保证集群计算系统长期存在资源空闲的情况下,开启弹性触发部分作业按照更大的并行度重新分配并继续运行。
[0012]在一种可能的实现方式中,从多个作业的作业信息中选取到至少一个待调整作业的作业信息,包括:获取多个作业各自的作业信息中的检查点信息,检查点信息中包括检查点镜像文件创建周期,检查点镜像文件用于将作业恢复为作业在检查点时刻的运行状态;基于多个作业各自的检查点镜像文件创建周期,获取多个作业各自距离当前时刻最近的一次检查点镜像文件创建时间;基于多个作业各自距离当前时刻最近的一次检查点镜像文件创建时间,从多个作业的作业信息中选取到至少一个待调整作业的作业信息。
[0013]可以理解的是,管理节点基于检查点镜像文件创建时间最近的作业进行弹性恢复尽可能的避免作业重复运行,尽可能的减少了恢复待调整作业运行的时间开销。
[0014]在一种可能的实现方式中,基于多个作业各自距离当前时刻最近的一次检查点镜像文件创建时间,从多个作业的作业信息中选取到至少一个待调整作业的作业信息,包括:将多个作业中距离当前时刻最近一次的检查点镜像文件创建时间小于或等于指定阈值的指定数量的作业的作业信息选取为至少一个待调整作业的作业信息。
[0015]可以理解的是,限制待调整作业是检查点镜像文件创建时间距离当前时刻小于等于指定阈值,可以限制重复运行作业的时间,避免重复运行作业的时间过长影响作业运行效率,另外,由于限制了可选择的待调整作业的数量,避免了确定的待调整作业过多导致的集群计算系统并行处理的作业过多,而导致的作业运行效率较差的问题。
[0016]在一种可能的实现方式中,将待调整作业重新分配给集群计算系统的计算节点,包括:将待调整作业重新分配给集群计算系统中第一数量的计算节点运行,第一数量大于待调整作业的作业信息中的运行待调整作业需要调度的计算节点的预设数量。
[0017]可以理解的是,已经停止运行的待调整作业可以重新分配给第一数量的计算节点运行,使得管理节点可以主动控制待调整作业终止,并且保证终止后的待调整作业可以在重新分配给更大的计算资源的计算节点后继续运行。
[0018]在一种可能的实现方式中,将待调整作业重新分配给集群计算系统的计算节点之
后,还包括:管理节点删除待调整作业的作业信息,作业信息在接收到针对待调整作业的处理作业请求后存储在管理节点中,作业信息包括作业标识、预设的运行作业需要调度的计算节点数量以及检查点信息,处理作业请求用于指示管理节点为待调度作业分配计算节点。
[0019]可以理解的是,在待调度作业重新分配给计算节点运行后可以将该待调度作业在管理节点中存储的作业信息进行删除,控制管理节点中存储的作业信息的数量,避免作业信息只存不删导致的管理节点存储空间不足的问题,另一方面,通过删除已经重新分配的作业信息,可以保证集群计算系统中运行的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种作业管理方法,其特征在于,应用于集群计算系统,所述集群计算系统包括管理节点和至少一个计算节点,所述集群计算系统的至少一个计算节点上运行有至少一个作业,所述管理节点中包含至少一个所述作业的作业信息;所述方法包括:所述计算节点将自身的资源信息发送至所述管理节点;所述管理节点基于每个所述计算节点的资源信息,确定是否满足弹性恢复开启条件,若满足所述弹性恢复开启条件,则从多个所述作业的作业信息中选取到至少一个待调整作业的作业信息,并基于所述待调整作业的作业信息,向运行所述待调整作业的计算节点发送作业结束消息,以及将所述待调整作业重新分配给所述集群计算系统的计算节点;所述运行所述待调整作业的计算节点在接收到所述作业结束消息后,结束运行所述待调整作业;由重新分配到所述待调整作业的所述计算节点运行所述待调整作业,其中,所述待调整作业在重新分配后的计算资源大于在重新分配前的计算资源。2.根据权利要求1所述的方法,其特征在于,所述从多个所述作业的作业信息中选取到至少一个待调整作业的作业信息,包括:若连续多次基于每个所述计算节点的资源信息,确定满足所述弹性恢复开启条件,从多个所述作业的作业信息中选取到至少一个待调整作业的作业信息。3.根据权利要求1或2所述的方法,其特征在于,所述从多个所述作业的作业信息中选取到至少一个待调整作业的作业信息,包括:获取多个所述作业各自的所述作业信息中的检查点信息,所述检查点信息中包括检查点镜像文件创建周期,所述检查点镜像文件用于将所述作业恢复为作业在检查点时刻的运行状态;基于多个所述作业各自的检查点镜像文件创建周期,获取多个所述作业各自距离当前时刻最近的一次检查点镜像文件创建时间;基于多个所述作业各自距离当前时刻最近的一次检查点镜像文件创建时间,从多个所述作业的作业信息中选取到至少一个所述待调整作业的所述作业信息。4.根据权利要求3所述的方法,其特征在于,所述基于多个所述作业各自距离当前时刻最近的一次检查点镜像文件创建时间,从多个所述作业的作业信息中选取...

【专利技术属性】
技术研发人员:陆旭
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1