本发明专利技术涉及一种基于超级计算机的队列资源调度的资源分配方法,包括:(1)用户提交作业,指定计算资源数目与私人队列名;(2)提交的参数发送至系统判定,如果私人队列资源够使用,即私人队列资源中的资源数目大于计算资源数目,则用户作业正常运算,结束;否则,系统判断是否符合条件;提交的参数是指用户指定的计算资源数目与私人队列名;(3)如果符合条件,则将需要的临时节点从资源池中划分到中私人队列名对应的私人队列中,用户作业正常运算完成;否则,打印出不符合条件的理由;(4)系统将临时节点重新划回到资源池中,结束。本发明专利技术优化计算资源配置,提高效率。可以保持一个旺盛的资源队列,以供紧急时刻的资源调用。以供紧急时刻的资源调用。以供紧急时刻的资源调用。
【技术实现步骤摘要】
一种基于超级计算机的队列资源调度的资源分配方法
[0001]本专利技术涉及一种基于超级计算机的队列资源调度的资源分配方法,属于高性能计算超级计算计算资源动态调度算法
技术介绍
[0002]超级计算机多用于国家高科技领域和尖端技术研究,是一个国家科研实力的体现,对国家安全、经济和社会发展具有举足轻重的意义,是国家科技发展水平和综合国力的重要标志。一个国家的超级计算机,一般由国家级超级计算中心负责运营和维护。截至2020年5月底,中国共建成或正在建设七座超级计算中心,分别为国家超级计算天津中心、国家超级计算长沙中心、国家超级计算济南中心、国家超级计算广州中心、国家超级计算深圳中心、国家超级计算无锡中心、国家超级计算郑州中心。
[0003]现在国家超级计算中心(超算中心)无论是商用计算资源还是国产计算资源,队列资源分配基本是两种模式,共享计算节点队列资源和独占计算节点队列资源。在超级计算机领域计算节点资源本身属性一致,并无从逻辑层面调度的动态调度算法,大部分通过用户购买申请情况手动分配计算资源,灵活性和实时性有待提高。
[0004]在超级计算机建设初期,一般使用超级计算机的全机计算节点资源评测超级计算机的总体性能。当超级计算中心逐步投入运营之后,计算节点资源逐步被租赁出去之后,很难再有一个相对较大的计算资源队列池来协调辅助重大的科学计算。在超算中心运营过程中,会有如下问题:(1)用户频繁占用共享队列大部分计算资源,突击计算,造成某一时刻资源紧张,系统压力过大。(2)独占队列被一家或者一种类型的用户拥有,计算资源被占用,但是空闲率高,以至超级计算机无法提供大量集中的计算能力。(3)某些大型计算科研任务短时间得不到充足的计算资源支持。
技术实现思路
[0005]针对现有技术的不足,本专利技术提供了一种基于超级计算机的队列资源调度的资源分配方法。
[0006]现有技术手段无动态分配能力,需要在用户调度系统层修改重新封装调度算法,实现逻辑层面的动态资源调度。因此,需要根据动态触发监测,进行现有资源分析及用户本身的资源分析,设计一种资源逻辑层的超算中心动态调度机制,通过一系列的方式提高资源调度过程中的资源利用率问题,进而解决超算中心计算资源不足的问题。
[0007]本专利技术的技术方案为:
[0008]一种基于超级计算机的队列资源调度的资源分配方法,包括步骤如下:
[0009](1)用户提交作业,指定所需要的计算资源数目与私人队列名;例如,所需要的计算资源数目包括节点数、每个节点所需的核数与所需要提交任务的私人队列名;
[0010](2)提交的参数,经过本专利技术设计的队列资源调度资源分配方法的判定,如果私人队列资源够使用,即私人队列资源中的资源数目大于步骤(1)计算资源数目,则用户作业正
常运算,结束;否则,队列资源调度资源分配方法判断已有的计算资源是否满足所需要的计算资源数目,进入步骤(3);提交的参数是指步骤(1)用户指定的计算资源数目与私人队列名;
[0011](3)如果已有的计算资源满足所需要的计算资源数目,则将需要的临时节点从资源池中划分到步骤(1)中私人队列名对应的私人队列中,用户作业正常运算完成,进入步骤(4);否则,打印出不符合条件的理由;例如:提交作业计算节点数已超实际购买总数。
[0012](4)队列资源调度资源分配方法将临时节点重新划回到资源池中,结束。
[0013]根据本专利技术优选的,步骤(2)至步骤(4),包括步骤如下:
[0014]A、判断私人队列资源中的资源数目是否满足用户所需资源数目,用户所需资源数目即计算资源数目,如果满足,则执行将bsub1参数传递到系统bsub2中,进入步骤F,否则,进入步骤B;bsub1参数为用户提交bsub命令并配置的所有参数,包括节点数、每个节点所需的核数以及所需要提交任务的私人队列名,bsub2为步骤(4)结束后调用的bsub命令;即:获取该作业的作业节点号,检测该作业状态,当该作业正常结束之后,执行系统命令将相应数目的零时资源从用户队列划分到资源池队列,正常结束后调用的bsub命令。
[0015]B、统计此刻用户已经提交作业中的节点数与本次提交作业预计使用的节点数之和,如该和大于用户够买节点总数,则返回打印提示用户,提交作业计算节点数已超实际购买总数,否则,执行步骤C;
[0016]C、系统计算此刻资源池中剩余可使用的计算资源,如果此刻资源池中剩余可使用的计算资源小于本次提交作业预计使用的节点数,进入步骤D,否则,进入步骤E;
[0017]D、t分钟(min)后,系统计算此刻资源池中剩余可使用的计算资源,如果此刻资源池中剩余可使用的计算资源仍然小于本次提交作业预计使用的节点数,则返回打印提示用户,系统计算资源不足,并请联系系统管理员,否则,进入步骤E;
[0018]E、执行调度系统命令,从资源池中划拨本次提交作业预计使用的节点数到用户的私人队列名对应的私人队列中,则执行将bsub1参数传递到bsub2中;
[0019]F、执行bsub2并获取本次提交作业的作业节点号,执行本次提交作业;
[0020]G、本次提交作业正常结束之后,执行系统命令,将从资源池中划拨本次提交作业预计使用的节点数从私人用户队列划分到资源池中。
[0021]进一步优选的,t=1。
[0022]根据本专利技术优选的,上述基于超级计算机的队列资源调度的资源分配方法中,私人队列资源中的资源数目大于资源池中的资源数目。一般来讲,超算中心X86架构机群的常年利用率在75%上下浮动。
[0023]本专利技术的有益效果为:
[0024]1、本专利技术优化计算资源配置,提高效率。即使计算资源不能统一,该算法对集群资源管理仍然有效,该算法基数越大,用处越大。可以保持一个旺盛的资源队列,以供紧急时刻的资源调用。
[0025]2、本专利技术除去初次设定需要修改每个用户属性,后期可以自动化维护,系统能自动运行,以节约人力成本。
附图说明
[0026]图1为一种基于超级计算机的队列资源调度的资源分配方法的流程示意图。
具体实施方式
[0027]下面结合说明书附图和实施例对本专利技术作进一步限定,但不限于此。
[0028]实施例1
[0029]一种基于超级计算机的队列资源调度的资源分配方法,如图1所示,包括步骤如下:
[0030](1)用户提交作业,指定所需要的计算资源数目与私人队列名;例如,所需要的计算资源数目包括节点数、每个节点所需的核数与所需要提交任务的私人队列名;
[0031](2)提交的参数,经过本专利技术设计的队列资源调度资源分配方法的判定,如果私人队列资源够使用,即私人队列资源中的资源数目大于步骤(1)计算资源数目,则用户作业正常运算,结束;否则,队列资源调度资源分配方法判断已有的计算资源是否满足所需要的计算资源数目,进入步骤(3);提交的参数是指步骤(1)用户指定的计算资源数目与私人队列名;
[0032]本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于超级计算机的队列资源调度的资源分配方法,其特征在于,包括步骤如下:(1)用户提交作业,指定所需要的计算资源数目与私人队列名;(2)如果私人队列资源够使用,即私人队列资源中的资源数目大于步骤(1)计算资源数目,则用户作业正常运算,结束;否则,判断已有的计算资源是否满足所需要的计算资源数目,进入步骤(3);提交的参数是指步骤(1)用户指定的计算资源数目与私人队列名;(3)如果已有的计算资源满足所需要的计算资源数目,则将需要的临时节点从资源池中划分到步骤(1)中私人队列名对应的私人队列中,用户作业正常运算完成,进入步骤(4);否则,打印出不符合条件的理由;(4)将临时节点重新划回到资源池中,结束。2.根据权利要求1所述的一种基于超级计算机的队列资源调度的资源分配方法,其特征在于,步骤(2)至步骤(4),包括步骤如下:A、判断私人队列资源中的资源数目是否满足用户所需资源数目,用户所需资源数目即计算资源数目,如果满足,则执行将bsub1参数传递到系统bsub2中,进入步骤F,否则,进入步骤B;bsub1参数为用户提交bsub命令并配置的所有参数,包括节点数、每个节点所需的核数以及所需要提交任务的私人队列名,bsub2为步骤(4)结束后调用的bsub命令;B、统计此刻用户已经提交作业中的节点数与本次...
【专利技术属性】
技术研发人员:刘弢,田敏,潘景山,郭莹,
申请(专利权)人:山东省计算中心国家超级计算济南中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。