【技术实现步骤摘要】
一种AI平台资源切换方法、系统及介质
[0001]本专利技术涉及人工智能
,特别是涉及一种AI平台资源切换方法、系统及介质。
技术介绍
[0002]服务器的工作处理过程中,必不可少的是GPU卡,而GPU卡在投入使用前,会在AI平台对GPU卡进行数据处理的模拟训练;现有的模拟训练方法只针对单独类型的GPU卡,既占用大量的资源,又会在不同的配置下产生不等的时间损耗,进而降低模拟训练的效率。
技术实现思路
[0003]本专利技术主要解决的是应用于GPU卡的现有模拟训练方法资源占用率高、训练效率低以及适应范围低的问题。
[0004]为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种AI平台资源切换方法,包括以下步骤:
[0005]初始化底层资源组和资源组关系;
[0006]获取第一任务,检测所述第一任务的任务需求;
[0007]基于所述任务需求和所述底层资源组创建任务资源组,基于所述任务资源组对所述第一任务进行处理;
[0008]获取所述第一任务的处理情况,基于所述资源组关系、所述处理情况和所述任务资源组设定目的资源组,并执行切换步骤。
[0009]作为一种改进的方案,所述底层资源组中配置有初始节点、第一GPU节点和第二GPU节点;
[0010]所述任务需求包括初始需求和GPU限定需求;
[0011]所述任务资源组包括:公共资源组、训练资源组、开发非共享资源组、复用率资源组、显存隔离资源组和实例资源组。
[0012]作为一 ...
【技术保护点】
【技术特征摘要】
1.一种AI平台资源切换方法,其特征在于,包括以下步骤:初始化底层资源组和资源组关系;获取第一任务,检测所述第一任务的任务需求;基于所述任务需求和所述底层资源组创建任务资源组,基于所述任务资源组对所述第一任务进行处理;获取所述第一任务的处理情况,基于所述资源组关系、所述处理情况和所述任务资源组设定目的资源组,并执行切换步骤。2.根据权利要求1中所述的AI平台资源切换方法,其特征在于:所述底层资源组中配置有初始节点、第一GPU节点和第二GPU节点;所述任务需求包括初始需求和GPU限定需求;所述任务资源组包括:公共资源组、训练资源组、开发非共享资源组、复用率资源组、显存隔离资源组和实例资源组。3.根据权利要求2中所述的AI平台资源切换方法,其特征在于:所述基于所述任务需求和所述底层资源组创建任务资源组的步骤进一步包括:当所述任务需求为所述初始需求时,识别所述任务需求的需求类别;若所述需求类别为第一类别,则创建所述开发非共享资源组;若所述需求类别为第二类别,则创建所述训练资源组;若所述需求类别为第三类别,则创建所述公共资源组;当所述任务需求为所述GPU限定需求时,识别所述任务需求的GPU限定标准;若所述GPU限定标准为第一标准,则创建所述复用率资源组;若所述GPU限定标准为第二标准,则创建所述显存隔离资源组;若所述GPU限定标准为第三标准,则创建所述实例资源组。4.根据权利要求3中所述的AI平台资源切换方法,其特征在于:所述创建任务资源组的步骤进一步包括:在所述底层资源组中选取所述初始节点、所述第一GPU节点或所述第二GPU节点,创建所述开发非共享资源组、所述训练资源组或所述公共资源组,在所述开发非共享资源组、所述训练资源组或所述公共资源组内配置第一标签信息;在所述底层资源组中选取至少一个所述第一GPU节点或至少一个所述第二GPU节点,创建所述复用率资源组或所述显存隔离资源组,在所述第一GPU节点或所述第二GPU节点上配置复用率阈值或在所述第一GPU节点或所述第二GPU节点上配置显存隔离阈值,在所述复用率资源组中配置第二标签信息,在所述显存隔离资源组中配置第三标签信息;在所述底层资源组中选取所述第二GPU节点创建所述实例资源组,在所述实例资源组中配置MIG模式和第四标签信息,通过所述MIG模式在所述第二GPU节点上配置实例方案,检测服务器是否重启,若是,则执行重复配置步骤。5.根据权利要求4中所述的AI平台资源切换方法,其特征在于:所述资源组关系包括:所述实例资源组的第一切换范围、除所述实例资源组外的所述任务资源组的第二切换范围、节点收发关系和MIG模式配置关系;所述第一切换范围为:所述公共资源组、所述训练资源组或所述开发共享资源组;所述第二切换范围为:所述公共资源组、所述训练资源组、所述开发共享资源组、所述复用率资源组或所述显存隔离资源组;所述节点收发关系为:若所述任务资源组对所述初始节点、所述第一GPU节点或所述第
二GPU节点执行移出动作,则被执行移出动作的所述节点返回至所述底层资源组;所述MIG模式配置关系为:在配置所述MIG模式或对所述MIG模式执行解除动作或通过所述MIG模式在所述第二GPU节点上配置所述实例方案时,执行第一计时操作。6.根据权利要求4中所述的AI平台资源切换方法,其特征在于:所述处理情况包括:第一情况、第二情况、第三情况、第四情况和第五情况;所述切换步骤包括:第一切换步骤、第二切换步骤、第三切换步骤、第四切换步骤和第五切换步骤;所述目的资源组为执行所述切换步骤后的所述任务资源组;所述基于所述资源组关系、所述处理情况和所述任务资源组设定目的资源组,并执行切换步骤的步骤进一步包括:若所述任务资源组为所述公共资源组、所述训练资源组或所述开发非共享资源组,且所述处理情况为所述第一情况,则设定所述目的资源组为所述复用率资源组,执行所述第一切换步骤;若所述任务资源组为所述公共资源组、所述训练资源组或所述开发非共享资源组,且所述处理情况为所述第二情况,则设定所述目的资源组为所述显存隔离资源组,执行所述第二切换步骤;若所述任务资源组为所述公共资源组、所述训练资源组或所述开发非共享资源组,且所述处理情况为所述第三情况,则设定所述目的任务资源组为所述实例资源组,执行所述第三切换步骤;若所述任务资源组为所述复用率资源组或所述显存隔离资源组,且所述处理情况为所述第四情况,则设定所述目的任务资源组为所述公共资源组或所述训练资源组或所述开发非共享资源组,执行所述第四切换步骤;若所述任务资源组为所述实例资...
【专利技术属性】
技术研发人员:王继玉,
申请(专利权)人:山东英信计算机技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。