异构众核处理器温度报警的多级处理方法技术

技术编号:27561798 阅读:16 留言:0更新日期:2021-03-09 22:04
本发明专利技术公开一种异构众核处理器温度报警的多级处理方法,包括以下步骤:处理器的监测系统通过温度传感器实时检测处理器的温度信息,并将检测到的温度信息传输至监测系统;当监测系统接收到的温度信息的数值高于设定的温度阈值时,发出报警信息,并对出现预警的处理器节点的主核和从核进行降频降压操作,并在降频降压操作过程中跟踪记录相应处理器节点的温度信息;在设定的时间区间内,比较处理器节点的温度信息和设定的温度阈值,如果处理器节点的温度信息的数值低于设定的温度阈值,则将处理器恢复至正常运行状态,否则,执行下一步。本发明专利技术采用多级处理方法避免了过早采取开销较大的控制手段,兼顾了有效性和开销。兼顾了有效性和开销。兼顾了有效性和开销。

【技术实现步骤摘要】
异构众核处理器温度报警的多级处理方法


[0001]本专利技术涉及一种异构众核处理器温度报警的多级处理方法,属于计算机


技术介绍

[0002]异构众核处理器是一种将少量承担管理、通信和运算功能的通用主核核心和大量承担运算功能的精简从核核心集成在一颗完整芯片上的高性能异构中央处理器。通用主核核心运行通用的操作系统,主要承担整个芯片的管理和控制功能,也承担一定的运算功能和芯片与外部的通信功能。从核核心起到加速计算的功能。
[0003]处理器温度异常容易使处理器运行不稳定,造成处理器的故障。在大型计算机系统中,单道作业往往由数千甚至数万处理器进程同时运行,单个处理器的故障会导致整道作业的失败,因此在处理器出现温度异常时必须进行有效地管控,避免处理器出现故障。另外,处理器的温度通常与处理器的功耗相关联,因此功耗控制的方法也可以用来进行处理器温度控制。
[0004]目前常见的单个处理器的温度异常一般是通过降频降压来处理,在大规模系统中除了单个处理器的处理手段外,缺乏系统的温度控制办法,对于较大规模的作业,一般是通过保留恢复来应对可能出现的故障,对于出现温度异常从而可能出现故障的处理器节点没有特殊的方法手段保证作业的持续顺利运行。
[0005]因此,在处理器的温度传感器发出温度报警时,如何进行有效干预降低处理器温度同时兼顾相关操作的开销,成为一个需要重点解决的问题;另外,如何既能有效控制处理器温度,又不对作业运行造成非常大的影响,成为另一个需要解决的问题。

技术实现思路

[0006]本专利技术的目的是提供一种异构众核处理器温度报警的多级处理方法,该异构众核处理器温度报警的多级处理方法提供了一种针对大规模系统中异构众核处理器在作业运行时温度传感器的温度报警的整套处理方法,采用多级处理方法避免了过早采取开销较大的控制手段,兼顾了有效性和开销。
[0007]为达到上述目的,本专利技术采用的技术方案是:一种异构众核处理器温度报警的多级处理方法,基于异构众核处理器,包括以下步骤:S1、处理器的监测系统通过温度传感器实时检测处理器的温度信息,并将检测到的温度信息传输至监测系统;S2、当监测系统接收到的温度信息的数值高于设定的温度预警阈值时,对出现预警的处理器的主核和从核进行降频操作,并在降频操作过程中跟踪记录相应处理器的温度信息,所述降频操作进一步包括以下步骤:S21、根据该处理器的历史降频数据分析获取温度溢值与降频幅度的对应关系,由当前温度溢值确定本次的降频幅度F,所述温度溢值为当前温度与温度预警阈值的差值;
S22、判断F与可稳定动态调频的上限配置值FMAX的关系,根据公式F=n*FMAX+m,将F拆分为n+1个降频区间段,其中前面n个值为FMAX,最后一个值为m;S23、对由S22拆分好的n+1个降频区间段,按顺序依次进行降频;S24、获取第一个降频区间段值,以该值为输入执行系统降频命令;S25、获取下一个降频区间段值,如果超过n+1,则进入S3,否则以该值为输入执行系统降频命令,循环执行S25;S3、在设定的时间区间T,即2个监测周期内,比较每个监测周期的处理器的温度信息和设定的温度预警阈值,如果处理器的温度信息的数值低于设定的温度预警阈值,则将处理器恢复到正常频率的运行状态,结束本次处理;如果在降频操作开始的时间区间T1,即3个监测周期内,处理器的温度信息的数值仍然高于设定的温度预警阈值,则执行下一步;S4、暂停处理器的从核运行,并同时跟踪记录处理器的温度信息;S5、在设定的时间区间T,即2个监测周期内,比较处理器的温度信息和设定的温度预警阈值,如果处理器的温度信息的数值低于设定的温度预警阈值,则恢复从核运行,使得处理器恢复至正常运行状态,结束本次处理;如果在暂停处理器的从核运行开始的时间区间T1,即3个监测周期内,处理器的温度信息的数值仍然高于设定的温度预警阈值,则恢复从核运行并执行下一步;S6、对处理器实施保留处理器状态动态迁移操作,将处理器主核的进程保留运行状态,从备用资源中选择状态正常的处理器,将温度异常的处理器上的进程动态迁移到备用处理器上,并同时跟踪记录处理器的温度信息;S7、在设定的时间区间T,即2个监测周期内,比较处理器的温度信息和设定的温度预警阈值,如果处理器的温度信息的数值低于设定的温度预警阈值,则将处理器恢复至正常运行状态,结束本次处理;如果在迁移完成后的时间区间T1内,处理器的温度信息的数值仍然高于设定的温度预警阈值,则上报处理器温度报警。
[0008]由于上述技术方案的运用,本专利技术与现有技术相比具有下列优点:本专利技术异构众核处理器温度报警的多级处理方法,其提供了一种针对大规模系统中异构众核处理器在作业运行时温度传感器的温度报警的整套处理方法,通过对处理器进行降频降压、暂停从核运行、保留处理器状态动态迁移多种手段逐级控制处理器温度,解决大规模系统中作业运行时部分处理器温度过高时可能出现的故障导致整道作业失败的问题;采用了逐级增强的异构众核处理器温度控制方法,每一级的温度控制力度都较前一级有所增强,所需的开销也是逐级增加,多级的处理方法避免了过早采取开销较大的控制手段,兼顾了有效性和开销;另外,还解决了大跨度频率调整的系统稳定性问题,实现了温度溢值驱动的自适应调频功能。
附图说明
[0009]附图1为本专利技术异构众核处理器温度报警的多级处理方法流程示意图;附图2为本专利技术异构众核处理器温度报警的多级处理方法流程图。
具体实施方式
[0010]实施例:一种异构众核处理器温度报警的多级处理方法,基于异构众核处理器,包
括以下步骤:S1、处理器的监测系统通过温度传感器实时检测处理器的温度信息,并将检测到的温度信息传输至监测系统;S2、当监测系统接收到的温度信息的数值高于设定的温度预警阈值时,对出现预警的处理器的主核和从核进行降频操作,并在降频操作过程中跟踪记录相应处理器的温度信息,所述降频操作进一步包括以下步骤:S21、根据该处理器的历史降频数据分析获取温度溢值与降频幅度的对应关系,由当前温度溢值确定本次的降频幅度F,所述温度溢值为当前温度与温度预警阈值的差值;S22、判断F与可稳定动态调频的上限配置值FMAX的关系,根据公式F=n*FMAX+m,将F拆分为n+1个降频区间段,其中前面n个值为FMAX,最后一个值为m;S23、对由S22拆分好的n+1个降频区间段,按顺序依次进行降频;S24、获取第一个降频区间段值,以该值为输入执行系统降频命令;S25、获取下一个降频区间段值,如果超过n+1,则进入S3,否则以该值为输入执行系统降频命令,循环执行S25;S3、在设定的时间区间T,即2个监测周期内,比较每个监测周期的处理器的温度信息和设定的温度预警阈值,如果处理器的温度信息的数值低于设定的温度预警阈值,则将处理器恢复到正常频率的运行状态,结束本次处理;如果在降频操作开始的时间区间T1,即3个监测周期内,处理器的温度信息的数值仍然高于设定的温度预警阈值,则执行下一步;S4、暂停处理器的从核运行,并同时跟踪记录处理器的温度信息;S5、在设定的时间区间T,即2个监本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异构众核处理器温度报警的多级处理方法,其特征在于:基于异构众核处理器,包括以下步骤:S1、处理器的监测系统通过温度传感器实时检测处理器的温度信息,并将检测到的温度信息传输至监测系统;S2、当监测系统接收到的温度信息的数值高于设定的温度预警阈值时,对出现预警的处理器的主核和从核进行降频操作,并在降频操作过程中跟踪记录相应处理器的温度信息,所述降频操作进一步包括以下步骤:S21、根据该处理器的历史降频数据分析获取温度溢值与降频幅度的对应关系,由当前温度溢值确定本次的降频幅度F,所述温度溢值为当前温度与温度预警阈值的差值;S22、判断F与可稳定动态调频的上限配置值FMAX的关系,根据公式F=n*FMAX+m,将F拆分为n+1个降频区间段,其中前面n个值为FMAX,最后一个值为m;S23、对由S22拆分好的n+1个降频区间段,按顺序依次进行降频;S24、获取第一个降频区间段值,以该值为输入执行系统降频命令;S25、获取下一个降频区间段值,如果超过n+1,则进入S3,否则以该值为输入执行系统降频命令,循环执行S25;S3、在设定的时间区间T,即2个监测周期内,比较每个监测周期的处理器的温度信息和设定的温度预警阈值,如果处理器的温度信息的数值低于设定的温度预警阈值...

【专利技术属性】
技术研发人员:刘沙钱宇宋长明龚道永张宏宇李伟东刘睿涛
申请(专利权)人:无锡江南计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1