System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种计算资源调度方法及相关装置。
技术介绍
1、随着人工智能(artificial intelligence,ai)技术的不断发展,ai模型在很多业务中被广泛应用;并且随着业务对相关服务的要求的提高,参数量大、性能优良的ai大模型逐渐兴起。由于ai大模型的训练参数量大,并且训练过程中交换数据的规模量高,因此需要使用算力规模大的计算设备执行此类训练任务,且通常依赖异构的算力资源执行此类训练任务。
2、在实际应用中,随着训练任务的进行,计算设备中计算卡(如图形处理器(graphics processing unit,gpu))的利用率持续升高,计算卡的温度也会不断升高,而计算卡的温度对于模型训练任务具有很大的影响。例如,计算卡的温度超过温度临界线,将会导致其所属的计算设备重启,而该计算设备的重启将导致其承载的模型训练任务中止。
3、可见,如何避免温度对计算设备中计算卡的负面影响,保证计算设备的稳定运行,是目前亟待解决的问题。
技术实现思路
1、本申请实施例提供了一种计算资源调度方法及相关装置,能够在计算资源的温度超过温度阈值时,采用相应的调度策略对其工作状态进行调整,从而降低计算资源的温度,避免因温度过高而产生负面影响。
2、本申请第一方面提供了一种计算资源调度方法,所述方法包括:
3、获取计算系统中各个计算资源各自的温度;所述计算资源包括所述计算系统中的计算设备、以及所述计算设备中的计算卡;
4、当
5、根据所述目标计算任务的任务类型以及所述目标计算资源的资源类型,确定目标调度策略;所述任务类型为整机任务或非整机任务,所述资源类型为计算设备或计算卡;
6、采用所述目标调度策略,调整所述目标计算资源的工作状态。
7、本申请第二方面提供了一种计算资源调度装置,所述装置包括:
8、温度获取模块,用于获取计算系统中各个计算资源各自的温度;所述计算资源包括所述计算系统中的计算设备、以及所述计算设备中的计算卡;
9、任务确定模块,用于当检测到所述计算系统中存在温度超过预设温度阈值的目标计算资源时,确定所述目标计算资源承载的目标计算任务;
10、策略确定模块,用于根据所述目标计算任务的任务类型以及所述目标计算资源的资源类型,确定目标调度策略;所述任务类型为整机任务或非整机任务,所述资源类型为计算设备或计算卡;
11、调度模块,用于采用所述目标调度策略,调整所述目标计算资源的工作状态。
12、本申请第三方面提供了一种计算机设备,所述设备包括处理器和存储器:
13、所述存储器用于存储计算机程序;
14、所述处理器用于根据所述计算机程序,执行如上述第一方面所述的计算资源调度方法的步骤。
15、本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的计算资源调度方法的步骤。
16、本申请第五方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的计算资源调度方法的步骤。
17、从以上技术方案可以看出,本申请实施例具有以下优点:
18、本申请实施例提供了一种计算资源调度方法,在该方法中,先获取计算系统中各个计算资源各自的温度;其中,计算资源包括计算系统中的计算设备、以及计算设备中的计算卡;当检测到计算系统中存在温度超过预设温度阈值的目标计算资源时,确定目标计算资源承载的目标计算任务;然后根据目标计算任务的任务类型以及目标计算资源的资源类型,确定目标调度策略;其中,任务类型为整机任务或非整机任务,资源类型为计算设备或计算卡;最后采用目标调度策略,调整目标计算资源的工作状态。如此,在检测到计算系统中存在温度超过预设温度阈值的目标计算资源时,根据该目标计算资源承载的目标计算任务的任务类型、以及目标计算资源的资源类型,确定用于降低目标计算资源的温度的任务调度策略,即目标调度策略,进而采用该任务调度策略对目标计算资源的工作状态进行调整,从而降低该目标计算资源的温度,避免因目标计算资源的温度过高而产生严重负面影响。
本文档来自技高网...【技术保护点】
1.一种计算资源调度方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标计算任务的任务类型以及所述目标计算资源的资源类型,确定目标调度策略,包括:
3.根据权利要求2所述的方法,其特征在于,所述采用所述计算卡降频策略,降低所述目标计算资源的工作频率,直至所述目标计算资源的温度低于所述预设温度阈值,包括:
4.根据权利要求3所述的方法,其特征在于,所述单卡温度模型用于表征其对应的卡类型下的计算卡的利用率和温度之间的关系;所述根据所述多种卡类型各自对应的单卡温度模型,确定目标卡类型,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标计算任务的任务类型以及所述目标计算资源的资源类型,确定目标调度策略,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标计算任务的任务类型以及所述目标计算资源的资源类型,确定目标调度策略,包括:
7.根据权利要求6所述的方法,其特征在于,当所述目标调度策略为计算设备降频策略时,所述采用所述目标调度策略,调整所述目标计
8.根据权利要求7所述的方法,其特征在于,所述整机温度模型用于表征承载其对应的卡类型的计算设备的利用率和温度之间的关系;所述根据所述多台计算设备各自承载的卡类型各自对应的整机温度模型,确定目标计算设备,包括:
9.根据权利要求6所述的方法,其特征在于,当所述目标调度策略为任务降吞吐策略时,所述采用所述目标调度策略,调整所述目标计算资源的工作状态,包括:
10.根据权利要求1所述的方法,其特征在于,所述根据所述目标计算任务的任务类型以及所述目标计算资源的资源类型,确定目标调度策略,包括:
11.一种计算资源调度装置,其特征在于,所述装置包括:
12.一种计算机设备,其特征在于,所述计算机设备包括处理器及存储器;
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1至10中任一项所述的计算资源调度方法。
...【技术特征摘要】
1.一种计算资源调度方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标计算任务的任务类型以及所述目标计算资源的资源类型,确定目标调度策略,包括:
3.根据权利要求2所述的方法,其特征在于,所述采用所述计算卡降频策略,降低所述目标计算资源的工作频率,直至所述目标计算资源的温度低于所述预设温度阈值,包括:
4.根据权利要求3所述的方法,其特征在于,所述单卡温度模型用于表征其对应的卡类型下的计算卡的利用率和温度之间的关系;所述根据所述多种卡类型各自对应的单卡温度模型,确定目标卡类型,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标计算任务的任务类型以及所述目标计算资源的资源类型,确定目标调度策略,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标计算任务的任务类型以及所述目标计算资源的资源类型,确定目标调度策略,包括:
7.根据权利要求6所述的方法,其特征在于,当所述目标调度策略...
【专利技术属性】
技术研发人员:查冲,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。