管理资源的方法、装置及计算机存储介质制造方法及图纸

技术编号:26890425 阅读:13 留言:0更新日期:2020-12-29 16:06
本申请公开了一种管理资源的方法、装置及计算机存储介质,属于深度学习技术领域。所述方法包括:确定深度学习训练平台中部署的参考资源的可使用总量,根据可使用总量确定多个用户的使用量阈值。由于使用量阈值用于指示用户提交的任务能够使用的参考资源的量,因此,通过本申请实施例提供的管理资源的方法可以实现按照各个用户对参考资源进行分配,以提高参考资源的利用率。

【技术实现步骤摘要】
管理资源的方法、装置及计算机存储介质
本申请涉及深度学习
,特别涉及一种管理资源的方法、装置及计算机存储介质。
技术介绍
在深度学习领域中,计算机通常需要调用GPU(graphicsprocessingunit,图像处理单元)以及存储器等资源,以完成深度学习过程中的训练任务。为了避免这些资源的浪费,需要对计算机中的资源进行管理,以提高这些资源的利用率。
技术实现思路
本申请实施例提供了一种管理资源的方法、装置及计算机存储介质,可以提高资源的利用率。所述技术方案如下:一方面、提供了一种管理资源的方法,该方法包括:确定深度学习训练平台中部署的参考资源的可使用总量;根据所述可使用总量确定多个用户的使用量阈值,所述使用量阈值用于指示用户提交的任务能够使用的所述参考资源的量。可选地,所述多个用户被划分为多个用户群,所述多个用户群中每个用户群配置一个分配比例;所述根据所述可使用总量确定多个用户的使用量阈值。包括:根据所述可使用总量和所述多个用户群中每个用户群的分配比例,确定所述多个用户群中每个用户群的可使用量;对于所述多个用户群中的第一用户群,根据所述第一用户群的可使用量和所述第一用户群包括的用户,确定所述第一用户群中每个用户的可使用量,所述第一用户群为所述多个用户群中任一个;根据每个用户的可使用量确定每个用户的使用量阈值。可选地,所述根据所述可使用总量确定多个用户的使用量阈值,包括:显示资源分配提示消息,所述资源分配提示消息携带所述可使用总量和/或每个用户的任务资源需求,用于指示管理员根据所述可使用总量和/或每个用户的任务资源需求对所述参考资源进行分配,以得到所述多个用户的使用量阈值;检测所述管理员触发的第一上报指令,所述第一上报指令携带所述多个用户的使用量阈值。可选地,所述深度学习训练平台上部署的存储器包括公共存储资源和私有存储资源,所述参考资源为所述存储器中的私有存储资源,所述参考资源的可使用总量用于指示所述私有存储资源的可使用存储容量。可选地,所述确定深度学习训练平台中部署的参考资源的可使用总量,包括:在所述深度学习训练平台初始化时,确定所述存储器的最大存储容量;显示容量提示消息,所述容量提示消息携带所述最大存储容量,用于指示管理员根据所述最大存储容量将所述存储器划分为所述公共存储资源和私有存储资源,以得到所述公共存储资源的理论最大存储容量和所述私有存储资源的理论最大存储容量;检测所述管理员触发的第二上报指令,所述第二上报指令携带所述公共存储资源的理论最大存储容量和所述私有存储资源的理论最大存储容量,将所述私有存储资源的理论最大存储容量作为所述私有存储资源的可使用总量。可选地,所述参考资源为所述深度学习训练平台上部署的图像处理单元GPU,所述参考资源的可使用总量用于指示GPU的可使用时长。可选地,所述确定深度学习训练平台中部署的参考资源的可使用总量,包括:如果当前时间为更新时间点,则确定当前时间之前且距离当前时间最近的第一参考时间段内所述GPU的历史总使用时长,所述第一参考时间段为相邻的两个更新时间点之间的时长,将所述历史总使用时长作为所述GPU的可使用总量。可选地,所述确定深度学习训练平台中部署的参考资源的可使用总量,包括:如果当前时间为所述深度学习训练平台初始化时的时间,则获取所述GPU中每个GPU的类型和每个GPU的理论使用时长;根据每个GPU的类型确定每个GPU的权重;根据所述GPU中每个GPU的权重,以及每个GPU的理论使用时长,确定所述GPU的理论总使用时长,将所述理论总使用时长作为所述GPU的可使用总量。可选地,所述根据每个GPU的类型确定每个GPU的权重,包括:显示权重配置消息,所述权重配置消息携带所述GPU中每个GPU的类型,用于提示管理员基于每个GPU的类型配置每个GPU的权重;检测所述管理员触发的第三上报指令,所述第三上报指令携带所述GPU中每个GPU的权重。可选地,所述确定深度学习训练平台中部署的参考资源的可使用总量,包括:如果当前时间为所述深度学习训练平台初始化时的时间,则显示GPU分配提示消息,用于提示管理员获取所述GPU的理论总使用时长;检测所述管理员触发的第四上报指令,所述第四上报指令携带所述GPU的理论总使用时长,将所述理论总使用时长作为所述GPU的可使用总量。可选地,所述方法还包括:获取当前时间之前且距离当前时间最近的第二参考时间段内所述GPU的利用率随时间的变化情况;根据所述GPU的利用率随时间的变化情况,确定推荐时间段,所述推荐时间段内所述GPU的利用率低于所述第二参考时间段中其他时间段内的利用率;向所述多个用户发送推荐信息,所述推荐信息携带所述推荐时间段,用于指示所述多个用户在所述推荐时间段内提交需要调用GPU的任务。可选地,所述方法还包括:对于所述多个用户中的第一用户,当接收到所述第一用户提交的第一任务时,获取所述第一用户已经提交的任务在所述参考资源上的历史使用量,所述第一任务为需要调用所述参考资源的任务,所述第一用户为所述多个用户中任一用户;如果所述历史使用量大于或等于所述第一用户的使用量阈值,则生成并显示提示信息,所述提示信息用于指示当前无法执行所述第一任务。可选地,所述生成并显示提示信息之后,还包括:接收所述第一用户发送的使用量阈值上调请求;如果当前时间所述参考资源存在剩余使用量,则根据所述使用量阈值上调请求,调整针所述第一用户的使用量阈值,以使所述历史使用量小于调整后的使用量阈值;执行所述第一任务。可选地,所述生成并显示提示信息之后,还包括:检测管理员触发的使用量阈值上调指令,所述使用量阈值上调指令携带所述管理员针对所述第一用户重新分配的使用量阈值;执行所述第一任务。另一方面、提供了一种管理资源的装置,所述装置包括:第一确定模块,用于确定深度学习训练平台中部署的参考资源的可使用总量;第二确定模块,用于根据所述可使用总量确定多个用户的使用量阈值,所述使用量阈值用于指示用户提交的任务能够使用的所述参考资源的量。可选地,所述多个用户被划分为多个用户群,所述多个用户群中每个用户群配置一个分配比例;所述第二确定模块,具体用于:根据所述可使用总量和所述多个用户群中每个用户群的分配比例,确定所述多个用户群中每个用户群的可使用量;对于所述多个用户群中的第一用户群,根据所述第一用户群的可使用量和所述第一用户群包括的用户,确定所述第一用户群中每个用户的可使用量,所述第一用户群为所述多个用户群中任一个;根据每个用户的可使用量确定每个用户的使用量阈值。可选地,所述第二确定模块,具体用于:显示资源分配提示消息,所述资源分配提示消息携带所述可使用总量和/或每个用户的任务资源需求,用于指示管理员根本文档来自技高网...

【技术保护点】
1.一种管理资源的方法,其特征在于,所述方法包括:/n确定深度学习训练平台中部署的参考资源的可使用总量;/n根据所述可使用总量确定多个用户的使用量阈值,所述使用量阈值用于指示用户提交的任务能够使用的所述参考资源的量。/n

【技术特征摘要】
1.一种管理资源的方法,其特征在于,所述方法包括:
确定深度学习训练平台中部署的参考资源的可使用总量;
根据所述可使用总量确定多个用户的使用量阈值,所述使用量阈值用于指示用户提交的任务能够使用的所述参考资源的量。


2.如权利要求1所述的方法,其特征在于,所述多个用户被划分为多个用户群,所述多个用户群中每个用户群配置一个分配比例;
所述根据所述可使用总量确定多个用户的使用量阈值。包括:
根据所述可使用总量和所述多个用户群中每个用户群的分配比例,确定所述多个用户群中每个用户群的可使用量;
对于所述多个用户群中的第一用户群,根据所述第一用户群的可使用量和所述第一用户群包括的用户,确定所述第一用户群中每个用户的可使用量,所述第一用户群为所述多个用户群中任一个;
根据每个用户的可使用量确定每个用户的使用量阈值。


3.如权利要求1所述的方法,其特征在于,所述根据所述可使用总量确定多个用户的使用量阈值,包括:
显示资源分配提示消息,所述资源分配提示消息携带所述可使用总量和/或每个用户的任务资源需求,用于指示管理员根据所述可使用总量和/或每个用户的任务资源需求对所述参考资源进行分配,以得到所述多个用户的使用量阈值;
检测所述管理员触发的第一上报指令,所述第一上报指令携带所述多个用户的使用量阈值。


4.如权利要求1所述的方法,其特征在于,所述深度学习训练平台上部署的存储器包括公共存储资源和私有存储资源,所述参考资源为所述存储器中的私有存储资源,所述参考资源的可使用总量用于指示所述私有存储资源的可使用存储容量。


5.如权利要求4所述的方法,其特征在于,所述确定深度学习训练平台中部署的参考资源的可使用总量,包括:
在所述深度学习训练平台初始化时,确定所述存储器的最大存储容量;
显示容量提示消息,所述容量提示消息携带所述最大存储容量,用于指示管理员根据所述最大存储容量将所述存储器划分为所述公共存储资源和私有存储资源,以得到所述公共存储资源的理论最大存储容量和所述私有存储资源的理论最大存储容量;
检测所述管理员触发的第二上报指令,所述第二上报指令携带所述公共存储资源的理论最大存储容量和所述私有存储资源的理论最大存储容量,将所述私有存储资源的理论最大存储容量作为所述私有存储资源的可使用总量。


6.如权利要求1所述的方法,其特征在于,所述参考资源为所述深度学习训练平台上部署的图像处理单元GPU,所述参考资源的可使用总量用于指示GPU的可使用时长。


7.如权利要求6所述的方法,其特征在于,所述确定深度学习训练平台中部署的参考资源的可使用总量,包括:
如果当前时间为更新时间点,则确定当前时间之前且距离当前时间最近的第一参考时间段内所述GPU的历史总使用时长,所述第一参考时间段为相邻的两个更新时间点之间的时长,将所述历史总使用时长作为所述GPU的可使用总量。


8.如权利要求6所述的方法,其特征在于,所述确定深度学习训练平台中部署的参考资源的可使用总量,包括:
如果当前时间为所述深度学习训练平台初始化时的时间,则获取所述GPU中每个GPU的类型和每个GPU的理论使用时长;
根据每个GPU的类型...

【专利技术属性】
技术研发人员:林丹峰
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1