一种基于slurm作业调度的方法及装置制造方法及图纸

技术编号:27489991 阅读:17 留言:0更新日期:2021-03-02 18:08
本发明专利技术公开了一种基于slurm作业调度的方法及装置,包括:第一步,作业调度装置中管理员设置普通用户的等级;第二步,管理员可设置分区等级(如一级、二级等,数字越大等级越高);第三步,普通用户使用分区资源进行创建作业;第四步,普通用户选择分区,作业调度装置判断用户等级;第五步,若普通用户的等级大于等于分区等级时,可以调用分区资源,使用该分区的资源创建作业。通过上述方式,本发明专利技术能够智能、高效地实现资源调度与利用,极大程度利用了服务器资源,对服务器资源进行高效的利用。对服务器资源进行高效的利用。对服务器资源进行高效的利用。

【技术实现步骤摘要】
一种基于slurm作业调度的方法及装置


[0001]本专利技术涉及系统设计领域,特别是涉及一种基于slurm作业调度的方法及装置。

技术介绍

[0002]SLURM是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统,面向Linux和Unix类似内核的免费和开源工作调度程序,由世界上许多超级计算机和计算机集群使用。它提供了三个关键功能。首先,它在一段时间内为用户分配对资源(计算机节点)的独占和/或非独占访问权限,以便他们可以执行工作。其次,它提供了一个框架,用于在一组分配的节点上启动,执行和监视工作(通常是并行作业,例如MPI)。最后,它通过管理待处理作业队列来仲裁资源争用。SLURM维护着一个待处理工作的队列并管理此工作的整体资源利用。它还以一种排他或非排他的方式管理可用的计算节点(取决于资源的需求)。最后,SLURM将作业分发给一组已分配的节点来执行工作并监视平行作业至其完成。
[0003]现有slurm作业调度系统可以实现将一组节点组成分区。分区也可以配置各种约束条件,比如哪个用户可以使用它,分区支持的时限的作业大小。用户可在队列上提交作业,slurm会为任务队列合理地分配资源,并监视作业至其完成,维护着一个待处理工作的队列并管理此工作的整体资源利用。
[0004]对于多用户同时提交作业时,仅依靠slurm调度系统现有机制,不能智能、高效地实现资源调度与利用,极大程度浪费服务器资源,无法对服务器资源进行高效的利用。

技术实现思路

[0005]本专利技术主要解决的技术问题是提供一种基于slurm作业调度的方法及装置,能够解决多用户同时提交作业的情况下,slurm调度系统调度资源不合理,作业完成效率差以及slurm无法自动根据节点资源性能分配分区的问题和slurm无法监控性能且进行调节的问题。
[0006]为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种基于slurm作业调度的方法,包括:第一步,作业调度装置中管理员设置普通用户的等级;第二步,管理员设置分区等级;第三步,普通用户使用分区资源进行创建作业;第四步,普通用户选择分区,作业调度装置判断用户等级;第五步,若普通用户的等级不小于分区等级,则调用所述分区资源,使用所述分区的资源创建作业。
[0007]进一步,所述第二步中,管理员可设置分区等级时,管理员根据节点的资源特性设置分区,并且所述作业调度装置监控分区性能,当出现性能过差时,所述作业调度装置报警并且自动调节。
[0008]进一步,所述第三步中,普通用户使用分区资源进行创建作业时,普通用户可以手动选择分区,也可以自动选择分区。
[0009]进一步,所述自动选择分区为自动选择分区时,作业调度装置自动根据用户等级
调度性能中分数高的分区进行分配分区的自动化作业。
[0010]一种基于slurm作业调度的装置,包括:登录模块、获取节点信息模块、权限模块、监控性能模块、温度控制模块和创建作业模块;所述登录模块连接到所述获取节点信息模块;所述获取节点信息模块将登录模块中信息传递给所述权限模块;所述权限模块判断权限,判断通过后,所述监控性能模块进行工作,工作完成后;所述创建作业模块执行普通用户创建作业任务。
[0011]进一步,所述登录模块包括管理员登录模块和普通用户登录模块。
[0012]进一步,所述获取节点信息模块获取节点的信息,管理员根据节点的资源特性设置分区。
[0013]进一步,所述权限模块为管理员登录后启动权限模块进行设置普通用户的等级、设置分区等级以及暂停、删除其他任意等级用户的作业。
[0014]进一步,所述监控性能模块监控各个分区的性能,并根据性能好坏以分数的形式呈现,分数过低时可触发报警提醒用户,当用户提交作业,不想手动指定具体分区时,监控性能模块自动根据用户等级调度性能分数高的分区实现分配分区的自动化作业。
[0015]进一步,所述温度控制模块根据BMC监控到的CPU、GPU温度,当温度过高时,可自动进行调节,提高风扇转速,进行降温;所述创建作业模块执行普通用户创建作业任务。
[0016]本专利技术的有益效果是:本专利技术解决多用户同时提交作业的情况下,slurm调度系统调度资源不合理,作业完成效率差以及slurm无法自动根据节点资源性能分配分区的问题和slurm无法监控性能且进行调节的问题,可以实现合理、高效调度资源。
附图说明
[0017]图1是本专利技术一种基于slurm作业调度的方法一较佳实施例的流程;
[0018]图2是本专利技术一种基于slurm作业调度的装置架构图。
具体实施方式
[0019]下面结合附图对本专利技术的较佳实施例进行详细阐述,以使本专利技术的优点和特征能更易于被本领域技术人员理解,从而对本专利技术的保护范围做出更为清楚明确的界定。
[0020]请参阅图1和图2,本专利技术实施例包括:
[0021]一种基于slurm作业调度的方法,包括:第一步,作业调度装置中管理员设置普通用户的等级;第二步,管理员可设置分区等级(如一级、二级等,数字越大等级越高);第三步,普通用户使用分区资源进行创建作业;第四步,普通用户选择分区,作业调度装置判断用户等级;第五步,若普通用户的等级大于等于分区等级时,可以调用分区资源,使用该分区的资源创建作业。
[0022]在上述方法步骤中,管理员有权限暂停、删除其他任意等级用户的作业,防止个别用户一直强占资源影响其他用户使用。
[0023]所述第二步中,管理员可设置分区等级时,可根据节点的资源特性设置专用分区,例如CPU分区、GPU分区、内存分区等,方便用户选择最合适的分区运行作业,避免分区资源浪费,并且进行监控分区性能,当出现性能过差时,进行报警并且自动调节。
[0024]所述第三步中,普通用户使用分区资源进行创建作业时,可以进行手动选择分区,
也可以进行自动选择分区;自动选择分区时所述装置自动根据用户等级调度性能最好的分区资源即分数较高的分区,实现分配分区的自动化作业。
[0025]见图2,基于与前述实施例中一种基于slurm作业调度的方法同样的专利技术构思,本说明书实施例还提供一种基于slurm作业调度的装置,包括,登录模块、获取节点信息模块、权限模块、监控性能模块、温度控制模块和创建作业模块;所述登录模块连接到所述获取节点信息模块;所述获取节点信息模块将登录模块中信息传递给所述权限模块;所述权限模块判断权限,判断通过后,所述监控性能模块进行工作,工作完成后;所述创建作业模块执行普通用户创建作业任务。
[0026]所述登录模块包括管理员登录模块和普通用户登录模块;所述获取节点信息模块为可以获取节点的信息,如CPU、GPU、内存等,管理员可根据节点的资源特性设置专用分区,例如CPU分区、GPU分区、内存分区等,方便用户选择最合适的分区运行作业,避免分区资源浪费;所述权限模块为管理员登录后可以启动权限模块进行设置普通用户的等级、设置分区等级以及有权限暂停、删除其他任意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于slurm作业调度的方法,其特征在于,包括:第一步,作业调度装置中管理员设置普通用户的等级;第二步,管理员设置分区等级;第三步,普通用户使用分区资源进行创建作业;第四步,普通用户选择分区,作业调度装置判断用户等级;第五步,若普通用户的等级不小于分区等级,则调用所述分区资源,使用所述分区的资源创建作业。2.根据权利要求1所述的一种基于slurm作业调度的方法,其特征在于:所述第二步中,管理员可设置分区等级时,管理员根据节点的资源特性设置分区,并且所述作业调度装置监控分区性能,当出现性能过差时,所述作业调度装置报警并且自动调节。3.根据权利要求1所述的一种基于slurm作业调度的方法,其特征在于:所述第三步中,普通用户使用分区资源进行创建作业时,普通用户可以手动选择分区,也可以自动选择分区。4.根据权利要求3所述的一种基于slurm作业调度的方法,其特征在于:所述自动选择分区为自动选择分区时,作业调度装置自动根据用户等级调度性能中分数高的分区进行分配分区的自动化作业。5.一种基于slurm作业调度的装置,其特征在于,包括:登录模块、获取节点信息模块、权限模块、监控性能模块、温度控制模块和创建作业模块;所述登录模块连接到所述获取节点信息模块;所述获取节点...

【专利技术属性】
技术研发人员:都雯卿
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1