【技术实现步骤摘要】
一种集群资源调度方法、系统、终端及存储介质
[0001]本专利技术涉及计算机
,尤其涉及一种集群资源调度方法、系统、终端及存储介质。
技术介绍
[0002]随着人工智能的快速发展,单个计算单元(例如:AI计算卡)以无法支撑模型的训练、优化,所以将深度学习模型部署于集群中,通过集群所提供的计算资源,提高深度学习模型训练、优化的效率。其中,集群由多个节点组成,每个节点上可以设置多个计算单元。
[0003]深度学习模型的训练、优化可以分为多个作业任务,每个作业任务所需要的计算资源可能不同。现有技术中,对于每个作业任务往往是采用对集群的计算资源平均分配或者预先配置的方式,导致集群利用率低、作业任务排队严重,集群效率低等问题。
技术实现思路
[0004]本专利技术的主要目的在于提供一种集群资源调度方法、系统、终端及计算机可读存储介质,旨在解决现有技术中在对深度学习模型的训练、优化过程中集群利用率低、作业任务排队严重,集群效率低等问题。
[0005]为了实现上述目的,本专利技术提供了一种集群资源调度方法,所述方法包括:
[0006]获取用于深度学习模型训练的待处理作业;
[0007]在所述待处理作业为弹性训练作业的情况下,根据所述集群在第一预设时间段内的预测空闲资源量、所述弹性训练作业的需求计算资源量,确定所述弹性训练作业的分配计算资源量;
[0008]根据所述集群的实时空闲资源量以及所述弹性训练作业的分配计算资源量,为所述弹性训练作业分配所述集群中的节点,作为所述弹 ...
【技术保护点】
【技术特征摘要】
1.一种集群资源调度方法,其特征在于,所述方法包括:获取用于深度学习模型训练的待处理作业;在所述待处理作业为弹性训练作业的情况下,根据所述集群在第一预设时间段内的预测空闲资源量、所述弹性训练作业的需求计算资源量,确定所述弹性训练作业的分配计算资源量;根据所述集群的实时空闲资源量以及所述弹性训练作业的分配计算资源量,为所述弹性训练作业分配所述集群中的节点,作为所述弹性训练作业的作业节点,以调用所述作业节点在第二预设时间段内执行所述弹性训练作业;基于所述集群在下一第一预设时间段内的所述预测空闲资源量,调整所述弹性训练作业的所述分配计算资源量;根据所述集群的所述实时空闲资源量以及所述弹性训练作业调整后的所述分配计算资源量,为所述弹性训练作业重新分配所述弹性训练作业的作业节点,以调用重新分配的所述作业节点在下一所述第二预设时间段内继续执行所述弹性训练作业,并继续执行基于所述集群在下一第一预设时间段的预测空闲资源量,调整所述弹性训练作业的所述分配计算资源量的步骤,直至所述弹性训练作业完成。2.根据权利要求1所述的集群资源调度方法,其特征在于,所述根据所述集群在第一预设时间段内的预测空闲资源量、所述弹性训练作业的需求计算资源量,确定所述弹性训练作业的分配计算资源量,具体包括:在所述集群的第一预设时间段内的所述预测空闲资源量大于所述弹性训练作业的所述需求计算资源量的最大值的情况下,将所述弹性训练作业的所述需求计算资源量的最小值,作为所述弹性训练作业的作业固定资源量;以及将第一差值作为所述弹性训练作业的作业弹性资源量;其中,所述第一差值为所述弹性训练作业的所述需求计算资源量的所述最大值与所述最小值的差值;在所述集群的实时空闲资源量小于所述弹性训练作业的所述需求计算资源量的所述最大值并且大于或者等于所述需求计算资源量的所述最小值的情况下,将所述弹性训练作业的所述最小值作为所述弹性训练作业的作业固定资源量;以及将第二差值作为所述弹性训练作业的作业弹性资源量;其中,所述第二差值为所述集群的所述实时空闲资源量与所述弹性训练作业的所述需求计算资源量的所述最小值的差值;在所述集群的实时空闲资源量小于所述弹性训练作业的所述需求计算资源量的所述最小值的情况下,将所述弹性训练作业的所述需求计算资源量的所述最小值作为所述弹性训练作业的作业固定资源量,以及将0作为所述弹性训练作业的作业弹性资源量;根据所述弹性训练作业的所述作业固定资源量、所述作业弹性资源量,确定所述弹性训练作业的分配计算资源量。3.根据权利要求1所述的集群资源调度方法,其特征在于,在根据所述集群在第一预设时间段内的预测空闲资源量、所述弹性训练作业的需求计算资源量,确定所述弹性训练作业的分类计算资源量之前,所述方法还包括:通过预设集群资源预测模型,预测所述集群在所述第一预设时间段内的预测可用资源
量;以及获取所述集群的当前正在运行的待处理作业在所述第一预设时间段释放的释放可用资源量;根据所述预测可用资源量以及所述释放可用资源量,确定所述集群在所述第一预设时间段内的所述预测空闲资源量。4.根据权利要求1所述的集群资源调度方法,其特征在于,所述基于所述集群在下一第一预设时间段内的所述预测空闲资源量,调整所述弹性训练作业的所述分配计算资源量,具体包括:在所述集群的下一第一预设时间段内的所述预测空闲资源量大于0并且所述弹性训练作业的所述作业弹性资源量小于第一比较值的情况下,对所述弹性训练作业的作业弹性资源量进行扩容;其中,所述第一比较值为所述弹性训练作业的所述需求计算资源量的最大值与最小值的差值;在所述集群的下一第一预设时间段内的等待作业资源量大于0并且所述弹性训练作业的所述作业弹性资源量大于0的情况下,对所述弹性训练作业的所述作业弹性资源量进行缩减;根据所述弹性训练作业进行扩容或者缩减后的所述作业弹性资源量,调整所述弹性训练作业的所述分配计算资源量。5.根据权利要求4所述的集群资源调度方法,其特征在于,在所述集群的下一第一预设时间段内的所述预测空闲资源量大于0并且所述弹性训练作业的作业弹性资源量小于第一比较值的情况下,对所述弹性训练作业的作业弹性资源量进行扩容,具体包括:在所述集群在下一所述第一预设时间段内的预测空闲资源量大于第二比较值的情况下,将所述第二比较值作为扩容资源量;其中,所述第二比较值为所述弹性训练作业的所述需求计算资源量的最大值减去所述需求计算资源量的最小值再减去所述作业弹性资源量的差值;在所述集群在下一所述第一预设时间段内的预测空闲资源量小于或者等于第二比较值的情况下,将所述集群在下一所述第一预设时间段内的预测空闲资源量作为扩容资源量;根据所述扩容资源...
【专利技术属性】
技术研发人员:曹绍猛,刘昌松,徐莉芳,陈红宇,靳新,
申请(专利权)人:鹏城实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。