集群调度系统技术方案

技术编号:35060445 阅读:15 留言:0更新日期:2022-09-28 11:13
本申请涉及一种集群调度系统。所述集群调度系统包括slurm集群和K8s集群,所述集群调度系统中包括多个混合计算节点,所述混合计算节点归属于所述slurm集群和所述K8s集群,但同一时间任一所述混合计算节点仅供所述slurm集群和所述K8s集群中的一个集群调度。采用本申请提供的集群调度系统可以提高任务执行效率。提供的集群调度系统可以提高任务执行效率。提供的集群调度系统可以提高任务执行效率。

【技术实现步骤摘要】
集群调度系统


[0001]本申请涉及通信
,特别是涉及一种集群调度系统。

技术介绍

[0002]目前应用于传统高性能集群的集群调度器主要为slurm,主流的高性能容器为Singularity容器,应用于AI计算的集群调度器主要是Kubernetes(简称K8s),主流的容器为Docker容器。
[0003]而在一些高性能计算领域(例如:气象海洋环境研究领域、数值天气预报和数值海洋预报等领域),高性能计算集群往往需要同时支撑并行计算、AI(Artificial Intelligence,人工智能)等混合负载。
[0004]相关技术中,可以在同一集群中同时部署slurm、K8s两种调度器和Singularity和Docker两种容器来实现混合负载。但该种方式存在slurm、K8s两种任务在同一个节点冲突运行,严重影响计算效率。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够避免混合负载时,slurm、K8s两种任务在同一个节点冲突运行的集群调度系统。
[0006]第一方面,本申请提供了一种集群调度系统,所述集群调度系统包括slurm集群和K8s集群,所述集群调度系统中包括多个混合计算节点,所述混合计算节点归属于所述slurm集群和所述K8s集群,但同一时间任一所述混合计算节点仅供所述slurm集群和所述K8s集群中的一个集群调度。
[0007]基于本公开实施例提供的集群调度系统,通过混合计算节点将slurm集群和K8s集群融合在同一个集群调度系统中运行,且同一时间混合计算节点仅供slurm集群或K8s集群调度,避免两种任务同时运行在同一个计算节点的问题,进而可以提高任务执行效率。
[0008]在其中一个实施例中,所述slurm集群与所述K8s集群之间具有通信机制,所述slurm集群与所述K8s集群通过所述通信机制占用和释放所述混合计算节点,以使同一时间任一所述混合计算节点仅供所述slurm集群和K8s集群中的一个集群调度。
[0009]本公开实施例提供的集群调度系统,在slurm集群和K8s集群之间建立通信机制,通过该通信机制动态获取和释放混合计算节点,实现同一混合计算节点同一时刻最多只能同时服务于一套集群,以避免两种任务同时运行在同一个计算节点的问题,进而可以提高任务执行效率。
[0010]在其中一个实施例中,所述slurm集群中的slurm主服务在启动时,遍历全部所述混合计算节点,并执行第一K8s命令,以将所述K8s集群侧所述全部混合计算节点的K8s集群调度状态设置为第一调度状态;
[0011]遍历全部所述混合计算节点,根据存在slurm作业的第一混合计算节点执行第二K8s命令,以将所述K8s集群侧所述第一混合计算节点的所述K8s集群调度状态设置为第二
调度状态;
[0012]其中,所述第一调度状态表征所述混合计算节点能够被所述K8s集群调度,所述第二调度状态表征所述混合计算节点不能被所述K8s集群调度。
[0013]本公开实施例提供的集群调度系统,可以避免重新启动前因为故障等原因,导致slurm作业未完成,但未能变更其占用的混合计算节点的K8s集群调度状态,进而导致混合计算节点被误占用,造成的资源浪费的问题。
[0014]在其中一个实施例中,在slurm作业前处理过程中,确定对应所述slurm作业的第一目标混合计算节点,根据所述第一目标混合计算节点执行所述第二K8s命令,以将所述K8s集群侧所述第一目标混合计算节点的所述K8s集群调度状态设置为所述第二调度状态。
[0015]本公开实施例提供的集群调度系统,在确定第一目标混合计算节点服务于slurm集群后,在slurm作业前处理中,通过第二K8s命令实现slurm集群和K8s集群之间的通信,以使得第一目标混合计算节点不能被K8s集群调用,保证同一时刻同一混合计算节点最多只能同时服务于一套集群,以避免两种任务同时运行在同一个计算节点的问题,进而可以提高任务执行效率。
[0016]在其中一个实施例中,在slurm作业后处理过程后,确定对应所述slurm作业的第二目标混合计算节点,根据所述第二目标混合计算节点执行所述第一K8s命令,以将所述K8s集群侧所述第二目标混合计算节点的所述K8s集群调度状态设置为所述第一调度状态。
[0017]本公开实施例提供的集群调度系统,在slurm作业完成后,可以通过第二K8s命令实现slurm集群和K8s集群之间的通信,及时释放第二混合计算节点,以使得第二目标混合计算节点能够被K8s集群调用,可以提高资源利用率。
[0018]在其中一个实施例中,所述slurm主服务在所述slurm作业前处理过程中和/或所述slurm作业后处理过程中,获取第一全部混合节点列表和所述slurm作业对应的第一计算节点列表,所述第一全部混合节点列表用于记录所述集群调度系统中的全部所述混合计算节点,所述第一计算节点列表用于记录运行所述slurm作业的全部计算节点;
[0019]在slurm作业前处理过程中,将所述第一全部混合节点列表与所述第一计算节点列表交集中的计算节点,作为所述第一目标混合计算节点,和/或在slurm作业后处理过程中,将所述第一全部混合节点列表与所述第一计算节点列表交集中的计算节点,作为所述第二目标混合计算节点。
[0020]本公开实施例提供的集群调度系统,在slurm作业前处理过程和/或slurm作业后处理过程中,均可以通过获取第一混合节点列表和第一计算节点列表,并对第一混合节点列表和第一计算节点列表求并集的方式,确定第一目标混合计算节点和第二目标混合计算节点,进而根据第一目标混合计算节点和第二目标混合计算节点实现针对混合计算节点的占用和释放,可以提高混合计算节点的占用精度和释放精度,避免两种任务同时运行在同一个计算节点的问题,以及提高资源利用率。
[0021]在其中一个实施例中,所述K8s集群中的K8s调度器根据运行有容器组pod的第二混合计算节点执行第一slurm命令,以将所述slurm集群侧所述第二混合计算节点的所述slurm集群调度状态设置为第三调度状态;
[0022]所述K8s调度器根据未运行有容器组pod的第三混合计算节点执行第二slurm命令,以将所述slurm集群侧所述第三混合计算节点的所述slurm集群调度状态设置为第四调
度状态;
[0023]其中,所述第三调度状态表征所述混合计算节点不能被所述slurm集群调度,所述第四调度状态表征所述混合计算节点能够被所述slurm集群调度。
[0024]本公开实施例提供的集群调度系统,K8s集群通过slurm命令实现与slurm集群之间的通信,以使得第三目标混合计算节点不能被K8s集群调用,保证同一时刻同一混合计算节点最多只能同时服务于一套集群,以避免两种任务同时运行在同一个计算节点的问题,进而可以提高任务执行效率。
[0025]在其中一个实施例中,所述K8s调度器获取第二全部混合节本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种集群调度系统,其特征在于,所述集群调度系统包括slurm集群和K8s集群,所述集群调度系统中包括多个混合计算节点,所述混合计算节点归属于所述slurm集群和所述K8s集群,但同一时间任一所述混合计算节点仅供所述slurm集群和所述K8s集群中的一个集群调度。2.根据权利要求1所述的集群调度系统,其特征在于,所述slurm集群与所述K8s集群之间具有通信机制,所述slurm集群与所述K8s集群通过所述通信机制占用和释放所述混合计算节点,以使同一时间任一所述混合计算节点仅供所述slurm集群和K8s集群中的一个集群调度。3.根据权利要求1所述的集群调度系统,其特征在于,所述slurm集群中的slurm主服务在启动时,遍历全部所述混合计算节点,并执行第一K8s命令,以将所述K8s集群侧所述全部混合计算节点的K8s集群调度状态设置为第一调度状态;遍历全部所述混合计算节点,根据存在slurm作业的第一混合计算节点执行第二K8s命令,以将所述K8s集群侧所述第一混合计算节点的所述K8s集群调度状态设置为第二调度状态;其中,所述第一调度状态表征所述混合计算节点能够被所述K8s集群调度,所述第二调度状态表征所述混合计算节点不能被所述K8s集群调度。4.根据权利要求3所述的集群调度系统,其特征在于,在slurm作业前处理过程中,确定对应所述slurm作业的第一目标混合计算节点,根据所述第一目标混合计算节点执行所述第二K8s命令,以将所述K8s集群侧所述第一目标混合计算节点的所述K8s集群调度状态设置为所述第二调度状态。5.根据权利要求3所述的集群调度系统,其特征在于,在slurm作业后处理过程后,确定对应所述slurm作业的第二目标混合计算节点,根据所述第二目标混合计算节点执行所述第一K8s命令,以将所述K8s集群侧所述第二目标混合计算节点的所述K8s集群调度状态设置为所述第一调度状态。6.根据权利要求4或5所述的集群调度系统,其特征在于,所述slurm主服务在所述slurm作业前处理过程中和/或所述slurm作业后处理过程中,获取第一全部混合节点列表和所述slurm作业对应的第一计算节点列表,所述第一全部混合节点列表用于记录所述集群调度系统中...

【专利技术属性】
技术研发人员:胡梦龙张涛原帅吕灼恒张晋锋
申请(专利权)人:青岛中科曙光科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1