一种基于温度感知的动态负载调度方法及系统技术方案

技术编号:33248355 阅读:27 留言:0更新日期:2022-04-27 18:05
本发明专利技术公开了一种基于温度感知的动态负载调度方法及系统。本发明专利技术用于实现高性能计算芯片多计算引擎间的动态温度平衡。对于多计算引擎分区进行温度监控,确定权重,计算引擎任务调度器根据权重大小,决定任务分发到那个计算引擎进行运算。依据温度低,权重大,分发任务频度高的原则,让温度较低的计算引擎相对运行较多的任务,温度较高的计算引擎运行相对较少的任务,实现温度平衡。减少由于任务分发导致的局部计算引擎温度过热,出现局部温度异常导致的芯片烧毁,加速老化,或者由于温度异常处理导致的性能下降等问题。理导致的性能下降等问题。理导致的性能下降等问题。

【技术实现步骤摘要】
一种基于温度感知的动态负载调度方法及系统


[0001]本专利技术涉及芯片温度控制
,特别涉及一种基于温度感知的动态负载调度方法及系统。

技术介绍

[0002]PCIe板卡正常的温度控制,频率和负载都在正常范围内,一旦由于超频或者负载超重导致芯片最大温度超越正常范围,进入异常状态,用于主动散热或者被动散热的风冷或者水冷无法处理这种情形,通常这种情况下的异常处理,可以交给上层软件,当收到温度异常中断时,然后全面停发任务,从而达到减轻负载的作用,但是会导致计算引擎整体性能的大幅下降。根据对于温度分布的观测,往往芯片在运行的时候,最大温度出现在某些固定的区域,多个计算引擎的任务调度,由于不考虑各个计算引擎的温度差异情况,由于任务量不完全相同和分配算法的某些规律,有时会出现某个计算引擎任务较重的情况,导致计算引擎局部温度升高,超越阈值。

技术实现思路

[0003]本专利技术针对现有技术中的不足,提供一种基于温度感知的动态负载调度方法及系统;实现了基于温度平衡的任务调度,在保证芯片温度安全的前提下,实现多计算引擎间的动态温度平衡,减少由于出现异常温度导致的芯片烧毁,加速老化,或者由于温度异常处理导致的性能下降等问题。
[0004]为实现上述目的,本专利技术采用以下技术方案:一种基于温度感知的动态负载调度方法,包括:S1:根据芯片计算引擎进行分区,每个区域对应一个计算引擎,在每个计算引擎上分散布局温度传感器,温度传感器定期采集芯片各个计算引擎的温度数据后传输给温度传感控制器;S2:温度传感控制器将收集的温度数据进行预定义转换得到各个计算引擎的温度信息,并统计得出各个计算引擎的温度最大值Tmax后传输给温度比较器;S3:温度比较器将各个计算引擎的温度最大值Tmax与预先设定的温度阀值Tprochot进行比较,并将比较的结果传输给计算引擎权重产生器;S4:计算引擎权重产生器根据比较的结果选定各个计算引擎的任务权重;S5:计算引擎任务调度器按照各个计算引擎的任务权重大小,进行计算任务分发;其中任务权重越大,分发给对应计算引擎的频度越高。
[0005]为优化上述技术方案,采取的具体措施还包括:进一步地,步骤S4中所述计算引擎权重产生器根据比较的结果选定各个计算引擎的任务权重的具体内容为:若该计算引擎的温度最大值Tmax大于预先设定的温度阀值Tprochot,则设定该计算引擎的任务权重为0;
若该计算引擎的温度最大值Tmax小于预先设定的温度阀值Tprochot,则根据两者的差值设定任务权重,差值越高,该计算引擎的任务权重越大;统计各个计算引擎的任务权重并进行由大到小的排序然后传输给计算引擎任务调度器。
[0006]进一步地,步骤S5中,若其中有计算引擎的任务权重为0时,任务调度器停止分发任务到当前的计算引擎中。
[0007]进一步地,一种基于温度感知的动态负载调度系统,包括多组温度传感器、温度传感控制器、温度比较器、计算引擎权重产生器、计算引擎任务调度器;多组温度传感器,用于分散布局在芯片的各个计算引擎中,并定期采集芯片各个计算引擎的温度数据后传输给温度传感控制器;温度传感控制器,用于将收集的温度数据进行预定义转换得到各个计算引擎的温度信息,并统计得出各个计算引擎的温度最大值Tmax后传输给温度比较器;温度比较器,用于将各个计算引擎的温度最大值Tmax与预先设定的温度阀值Tprochot进行比较,并将比较的结果传输给计算引擎权重产生器;计算引擎权重产生器,用于根据比较的结果选定各个计算引擎的任务权重,若该计算引擎的温度最大值Tmax大于预先设定的温度阀值Tprochot,则设定该计算引擎的任务权重为0;若该计算引擎的温度最大值Tmax小于预先设定的温度阀值Tprochot,则根据两者的差值设定任务权重,差值越高,该计算引擎的任务权重越大;统计各个计算引擎的任务权重并进行由大到小的排序然后传输给计算引擎任务调度器;计算引擎任务调度器,按照各个计算引擎的任务权重大小,进行计算任务分发;其中任务权重越大,分发给对应计算引擎的频度越高,并且若计算引擎的任务权重为0时,任务调度器停止分发任务到当前的计算引擎中。
[0008]本专利技术的有益效果是:1、任务分发考虑当前温度状态,在保证任务分发的同时,确保温度平衡,减少因为任务调度导致的某个或者某些计算引擎温度超标,老化损毁的可能性。
[0009]2、芯片最大温度超过阈值,不会全部停发任务来降温,做到精细控制,让温度正常的计算引擎正常接受任务,正常运行,按需停发,达到减少性能损失的目的。
附图说明
[0010]图1是本专利技术温度感知任务调度的硬件模块单元连接示意图。
[0011]图2是本专利技术实现温度感知任务调度的流程示意图。
具体实施方式
[0012]现在结合附图对本专利技术作进一步详细的说明。
[0013]本申请采用以下技术方案:一种基于温度感知的动态负载调度方法,包括以下步骤:步骤1:将多组温度传感器用于按照计算引擎分区,分散布局在多个热点区域,来定期实时的采样热点温度信息,并通过ADC转换得到数字表征,这些数字表征将送给温度传感控制器。
[0014]步骤2:温度传感控制器用于对定期收集的温度传感信息进行预定义转换,同时通过硬件统计得到最大值和最小值,最大值将输入给温度比较器。
[0015]步骤3:温度比较器用于比较来自温度传感控制器的Tmax和设定的Prochot阈值温度(Tprochot)进行比较和转换,比较转换出的温度状态将用于后序计算引擎权重产生器的权重产生。
[0016]步骤4:计算引擎权重产生器根据前序温度比较器的比较结果和记录的温度结果,进行温度排序,根据排序序列生成调度权重,调度权重值将用于后序计算引擎任务调度器决定任务分发方式。
[0017]计算引擎任务调度器分发任务时,考虑到温度分布因素,依据温度低,权重大,分发任务频度高的原则,让温度相对较低的计算引擎运行较多的任务,温度相对较高的计算引擎运行较少的任务,实现温度平衡。
[0018]最大温度超过Tprochot的计算引擎,停止分发任务,并非任意计算引擎的最大温度超过Tprochot,整芯片停止分发任务,做到精细控制,在保证温度安全的前提下,尽量减小对计算引擎的性能损伤。
[0019]实现温度平衡,减少由于任务调度导致的局部计算引擎温度过热,出现异常温度导致的芯片烧毁,加速老化的问题。
[0020]下面结合附图进行说明。
[0021]如图1所示,硬件模块主要由温度传感控制器(T

sensor controller),Prochot温度比较器(Temperature comparator),计算引擎权重产生器(CE weight generator)和计算引擎任务调度器(CE Job dispatcher)组成。
[0022]温度传感控制器用于对定期收集的温度传感信息进行预定义转换(预定义转换是把温度传感器ADC的数字表征输出转化成具体温度值的过程),同时通过硬件统计得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于温度感知的动态负载调度方法,其特征在于,包括:S1:根据芯片计算引擎进行分区,每个区域对应一个计算引擎,在每个计算引擎上分散布局温度传感器,温度传感器定期采集芯片各个计算引擎的温度数据后传输给温度传感控制器;S2:温度传感控制器将收集的温度数据进行预定义转换得到各个计算引擎的温度信息,并统计得出各个计算引擎的温度最大值Tmax后传输给温度比较器;S3:温度比较器将各个计算引擎的温度最大值Tmax与预先设定的温度阀值Tprochot进行比较,并将比较的结果传输给计算引擎权重产生器;S4:计算引擎权重产生器根据比较的结果选定各个计算引擎的任务权重;S5:计算引擎任务调度器按照各个计算引擎的任务权重大小,进行计算任务分发;其中任务权重越大,分发给对应计算引擎的频度越高。2.根据权利要求1所述的一种基于温度感知的动态负载调度方法,其特征在于,步骤S4中所述计算引擎权重产生器根据比较的结果选定各个计算引擎的任务权重的具体内容为:若该计算引擎的温度最大值Tmax大于预先设定的温度阀值Tprochot,则设定该计算引擎的任务权重为0;若该计算引擎的温度最大值Tmax小于预先设定的温度阀值Tprochot,则根据两者的差值设定任务权重,差值越高,该计算引擎的任务权重越大;统计各个计算引擎的任务权重并进行由大到小的排序然后传输给计算引擎任务调度器。3.根据权利要求1所述的一种基于温度感知的动态负载调度方法...

【专利技术属性】
技术研发人员:贺鹏王金辉肖义
申请(专利权)人:上海天数智芯半导体有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1