一种AI平台资源切换方法、系统及介质技术方案

技术编号:29043827 阅读:13 留言:0更新日期:2021-06-26 05:54
本发明专利技术公开了一种AI平台资源切换方法,包括以下步骤:初始化底层资源组和资源组关系;获取第一任务,检测所述第一任务的任务需求;基于所述任务需求和所述底层资源组创建任务资源组,基于所述任务资源组对所述第一任务进行处理;获取所述第一任务的处理情况,基于所述资源组关系、所述处理情况和所述任务资源组设定目的资源组,并执行切换步骤;本发明专利技术能够根据不同的情况、负载、用户需求配置对应的资源组,并且可以根据模拟训练任务的实时情况采取不同的调整方式来切换资源组,极大的提高了AI平台模拟训练的效率,降低了模拟训练所占用AI平台的资源。AI平台的资源。AI平台的资源。

【技术实现步骤摘要】
一种AI平台资源切换方法、系统及介质


[0001]本专利技术涉及人工智能
,特别是涉及一种AI平台资源切换方法、系统及介质。

技术介绍

[0002]服务器的工作处理过程中,必不可少的是GPU卡,而GPU卡在投入使用前,会在AI平台对GPU卡进行数据处理的模拟训练;现有的模拟训练方法只针对单独类型的GPU卡,既占用大量的资源,又会在不同的配置下产生不等的时间损耗,进而降低模拟训练的效率。

技术实现思路

[0003]本专利技术主要解决的是应用于GPU卡的现有模拟训练方法资源占用率高、训练效率低以及适应范围低的问题。
[0004]为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种AI平台资源切换方法,包括以下步骤:
[0005]初始化底层资源组和资源组关系;
[0006]获取第一任务,检测所述第一任务的任务需求;
[0007]基于所述任务需求和所述底层资源组创建任务资源组,基于所述任务资源组对所述第一任务进行处理;
[0008]获取所述第一任务的处理情况,基于所述资源组关系、所述处理情况和所述任务资源组设定目的资源组,并执行切换步骤。
[0009]作为一种改进的方案,所述底层资源组中配置有初始节点、第一GPU节点和第二GPU节点;
[0010]所述任务需求包括初始需求和GPU限定需求;
[0011]所述任务资源组包括:公共资源组、训练资源组、开发非共享资源组、复用率资源组、显存隔离资源组和实例资源组。
[0012]作为一种改进的方案,所述基于所述任务需求和所述底层资源组创建任务资源组的步骤进一步包括:
[0013]当所述任务需求为所述初始需求时,识别所述任务需求的需求类别;若所述需求类别为第一类别,则创建所述开发非共享资源组;若所述需求类别为第二类别,则创建所述训练资源组;若所述需求类别为第三类别,则创建所述公共资源组;
[0014]当所述任务需求为所述GPU限定需求时,识别所述任务需求的GPU限定标准;若所述GPU限定标准为第一标准,则创建所述复用率资源组;若所述 GPU限定标准为第二标准,则创建所述显存隔离资源组;若所述GPU限定标准为第三标准,则创建所述实例资源组。
[0015]作为一种改进的方案,所述创建任务资源组的步骤进一步包括:
[0016]在所述底层资源组中选取所述初始节点、所述第一GPU节点或所述第二 GPU节点,创建所述开发非共享资源组、所述训练资源组或所述公共资源组,在所述开发非共享资源
组、所述训练资源组或所述公共资源组内配置第一标签信息;
[0017]在所述底层资源组中选取至少一个所述第一GPU节点或至少一个所述第二 GPU节点创建所述复用率资源组或所述显存隔离资源组,在所述第一GPU节点或所述第二GPU节点上配置复用率阈值或在所述第一GPU节点或所述第二 GPU节点上配置显存隔离阈值,在所述复用率资源组中配置第二标签信息,在所述显存隔离资源组中配置第三标签信息;
[0018]在所述底层资源组中选取所述第二GPU节点创建所述实例资源组,在所述实例资源组中配置MIG模式和第四标签信息,通过所述MIG模式在所述第二 GPU节点上配置实例方案,检测服务器是否重启,若是,则执行重复配置步骤。
[0019]作为一种改进的方案,所述资源组关系包括:所述实例资源组的第一切换范围、除所述实例资源组外的所述任务资源组的第二切换范围、节点收发关系和MIG模式配置关系;
[0020]所述第一切换范围为:所述公共资源组、所述训练资源组或所述开发共享资源组;
[0021]所述第二切换范围为:所述公共资源组、所述训练资源组、所述开发共享资源组、所述复用率资源组或所述显存隔离资源组;
[0022]所述节点收发关系为:若所述任务资源组对所述初始节点、所述第一GPU 节点或所述第二GPU节点执行移出动作,则被执行移出动作的所述节点返回至所述底层资源组;
[0023]所述MIG模式配置关系为:在配置所述MIG模式或对所述MIG模式执行解除动作或通过所述MIG模式在所述第二GPU节点上配置所述实例方案时,执行第一计时操作。
[0024]作为一种改进的方案,所述处理情况包括:第一情况、第二情况、第三情况、第四情况和第五情况;
[0025]所述切换步骤包括:第一切换步骤、第二切换步骤、第三切换步骤、第四切换步骤和第五切换步骤;
[0026]所述目的资源组为执行所述切换步骤后的所述任务资源组;
[0027]所述基于所述资源组关系、所述处理情况和所述任务资源组设定目的资源组,并执行切换步骤的步骤进一步包括:
[0028]若所述任务资源组为所述公共资源组、所述训练资源组或所述开发非共享资源组,且所述处理情况为所述第一情况,则设定所述目的资源组为所述复用率资源组,执行所述第一切换步骤;
[0029]若所述任务资源组为所述公共资源组、所述训练资源组或所述开发非共享资源组,且所述处理情况为所述第二情况,则设定所述目的资源组为所述显存隔离资源组,执行所述第二切换步骤;
[0030]若所述任务资源组为所述公共资源组、所述训练资源组或所述开发非共享资源组,且所述处理情况为所述第三情况,则设定所述目的任务资源组为所述实例资源组,执行所述第三切换步骤;
[0031]若所述任务资源组为所述复用率资源组或所述显存隔离资源组,且所述处理情况为所述第四情况,则设定所述目的任务资源组为所述公共资源组或所述训练资源组或所述开发非共享资源组,执行所述第四切换步骤;
[0032]若所述任务资源组为所述实例资源组,且所述处理情况为所述第五情况,则设定所述目的任务资源组为所述公共资源组、所述训练资源组或所述开发非共享资源组,执行所述第五切换步骤。
[0033]作为一种改进的方案,所述基于所述任务资源组对所述第一任务进行处理的步骤进一步包括:
[0034]当所述任务资源组为所述公共资源组、训练资源组或开发非共享资源组时,选择任一所述第一GPU节点或任一所述第二GPU节点运行任一所述第一任务,并提交;当所述第一任务提交时,根据所述任务资源组的所述初始节点、所述第一GPU节点或所述第二GPU节点修改所述第一标签信息;
[0035]当所述任务资源组为所述复用率资源组时,选择所述第一GPU节点或所述第二GPU节点运行数量小于所述复用率阈值的所述第一任务,并提交;当所述第一任务提交时,在所述第一GPU节点或所述第二GPU节点上创建第一命名空间,通过所述第一命名空间提交所述第一任务,并获取所述第一GPU节点或所述第二GPU节点的已使用第一数量和复用数量;
[0036]当所述任务资源组为所述显存隔离资源组时,获取所述第一GPU节点或所述第二GPU节点的现有显存;选择所述现有显存小于所述显存隔离阈值的所述第一GPU节点或所述第二GPU节点运行所述第一任务,并提交;当所述第一任务提交时,在所述第一GPU节点或所述第二GPU节点上创建第二命名空间,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种AI平台资源切换方法,其特征在于,包括以下步骤:初始化底层资源组和资源组关系;获取第一任务,检测所述第一任务的任务需求;基于所述任务需求和所述底层资源组创建任务资源组,基于所述任务资源组对所述第一任务进行处理;获取所述第一任务的处理情况,基于所述资源组关系、所述处理情况和所述任务资源组设定目的资源组,并执行切换步骤。2.根据权利要求1中所述的AI平台资源切换方法,其特征在于:所述底层资源组中配置有初始节点、第一GPU节点和第二GPU节点;所述任务需求包括初始需求和GPU限定需求;所述任务资源组包括:公共资源组、训练资源组、开发非共享资源组、复用率资源组、显存隔离资源组和实例资源组。3.根据权利要求2中所述的AI平台资源切换方法,其特征在于:所述基于所述任务需求和所述底层资源组创建任务资源组的步骤进一步包括:当所述任务需求为所述初始需求时,识别所述任务需求的需求类别;若所述需求类别为第一类别,则创建所述开发非共享资源组;若所述需求类别为第二类别,则创建所述训练资源组;若所述需求类别为第三类别,则创建所述公共资源组;当所述任务需求为所述GPU限定需求时,识别所述任务需求的GPU限定标准;若所述GPU限定标准为第一标准,则创建所述复用率资源组;若所述GPU限定标准为第二标准,则创建所述显存隔离资源组;若所述GPU限定标准为第三标准,则创建所述实例资源组。4.根据权利要求3中所述的AI平台资源切换方法,其特征在于:所述创建任务资源组的步骤进一步包括:在所述底层资源组中选取所述初始节点、所述第一GPU节点或所述第二GPU节点,创建所述开发非共享资源组、所述训练资源组或所述公共资源组,在所述开发非共享资源组、所述训练资源组或所述公共资源组内配置第一标签信息;在所述底层资源组中选取至少一个所述第一GPU节点或至少一个所述第二GPU节点,创建所述复用率资源组或所述显存隔离资源组,在所述第一GPU节点或所述第二GPU节点上配置复用率阈值或在所述第一GPU节点或所述第二GPU节点上配置显存隔离阈值,在所述复用率资源组中配置第二标签信息,在所述显存隔离资源组中配置第三标签信息;在所述底层资源组中选取所述第二GPU节点创建所述实例资源组,在所述实例资源组中配置MIG模式和第四标签信息,通过所述MIG模式在所述第二GPU节点上配置实例方案,检测服务器是否重启,若是,则执行重复配置步骤。5.根据权利要求4中所述的AI平台资源切换方法,其特征在于:所述资源组关系包括:所述实例资源组的第一切换范围、除所述实例资源组外的所述任务资源组的第二切换范围、节点收发关系和MIG模式配置关系;所述第一切换范围为:所述公共资源组、所述训练资源组或所述开发共享资源组;所述第二切换范围为:所述公共资源组、所述训练资源组、所述开发共享资源组、所述复用率资源组或所述显存隔离资源组;所述节点收发关系为:若所述任务资源组对所述初始节点、所述第一GPU节点或所述第
二GPU节点执行移出动作,则被执行移出动作的所述节点返回至所述底层资源组;所述MIG模式配置关系为:在配置所述MIG模式或对所述MIG模式执行解除动作或通过所述MIG模式在所述第二GPU节点上配置所述实例方案时,执行第一计时操作。6.根据权利要求4中所述的AI平台资源切换方法,其特征在于:所述处理情况包括:第一情况、第二情况、第三情况、第四情况和第五情况;所述切换步骤包括:第一切换步骤、第二切换步骤、第三切换步骤、第四切换步骤和第五切换步骤;所述目的资源组为执行所述切换步骤后的所述任务资源组;所述基于所述资源组关系、所述处理情况和所述任务资源组设定目的资源组,并执行切换步骤的步骤进一步包括:若所述任务资源组为所述公共资源组、所述训练资源组或所述开发非共享资源组,且所述处理情况为所述第一情况,则设定所述目的资源组为所述复用率资源组,执行所述第一切换步骤;若所述任务资源组为所述公共资源组、所述训练资源组或所述开发非共享资源组,且所述处理情况为所述第二情况,则设定所述目的资源组为所述显存隔离资源组,执行所述第二切换步骤;若所述任务资源组为所述公共资源组、所述训练资源组或所述开发非共享资源组,且所述处理情况为所述第三情况,则设定所述目的任务资源组为所述实例资源组,执行所述第三切换步骤;若所述任务资源组为所述复用率资源组或所述显存隔离资源组,且所述处理情况为所述第四情况,则设定所述目的任务资源组为所述公共资源组或所述训练资源组或所述开发非共享资源组,执行所述第四切换步骤;若所述任务资源组为所述实例资...

【专利技术属性】
技术研发人员:王继玉
申请(专利权)人:山东英信计算机技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1