System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种高温异常处理方法、装置、电子设备及存储介质制造方法及图纸_技高网

一种高温异常处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:42578897 阅读:9 留言:0更新日期:2024-08-29 00:41
本公开提供了一种高温异常处理方法、装置、电子设备及存储介质,涉及服务器异常处理领域,所述方法包括:在获取到服务器的错误码的情况下,根据错误码,确定出服务器的各个硬件部件;检查各个硬件部件的实际温度值是否存在高温异常,以及,检查错误码的状态值;在检查到服务器的任一硬件部件的实际温度值连续多次存在高温异常,并且错误码的状态值表征错误未被处理的情况下,向所述服务器对应的目标电源管理单元发送断电指令。通过本公开的方法,实现了对服务器高温异常情况的自动监测和处理,无需依赖人工介入,能够在夜间等人力短缺的情况下,及时有效地应对硬件故障可能导致的高温异常。

【技术实现步骤摘要】

本公开涉及服务器异常处理领域,具体涉及一种高温异常处理方法、装置、电子设备及存储介质


技术介绍

1、随着当前国内算力需求的激增,服务器订单量也相应增加。由于订单量大幅增长,工厂不得不在夜间对服务器进行测试,以应对订单排队的情况。然而,由于人力短缺的问题,以及在压力测试过程中硬件故障可能导致的烧机风险,工厂在夜间遇到了一些挑战。

2、在测试过程中,机器传感器可能会读取到异常的温度,但由于人力不足,夜间无法及时有效地进行人工断电维修处理。这可能导致固件烧毁,甚至引发起火等严重风险。此外,由于大量机器同时进行测试,由于硬件来料问题,经常会发生批量高温异常现象。一旦出现问题,由于无法及时处理,机器将持续开机状态,造成电力资源的浪费。


技术实现思路

1、本公开实施例提供一种高温异常处理方法、装置、电子设备及存储介质,旨在解决上述
技术介绍
存在的问题。

2、为了解决上述技术问题,本公开是这样实现的:

3、第一方面,本公开实施例提供了一种高温异常处理方法,所述方法包括:

4、在获取到服务器的错误码的情况下,根据所述错误码,确定出所述服务器的各个硬件部件;

5、检查各个所述硬件部件的实际温度值是否存在高温异常,以及,检查所述错误码的状态值;所述状态值表征所述错误码对应的错误是否被处理;

6、在检查到所述服务器的任一硬件部件的实际温度值连续多次存在高温异常,并且所述错误码的状态值表征所述错误未被处理的情况下,向所述服务器对应的目标电源管理单元发送断电指令,所述断电指令用于指示所述目标电源管理单元对所述服务器进行断电。

7、可选地,在所述根据所述错误码,确定出所述服务器的各个硬件部件之前,所述方法还包括:

8、在接收到生产测试的指令后,从数据库中确定出所述服务器对应的状态记录;

9、循环扫描所述服务器对应的状态记录是否存在所述错误码。

10、可选地,所述状态记录包括:服务器序列号、服务器机型和错误码;

11、在所述从数据库中确定出所述服务器对应的状态记录之前,所述方法还包括:

12、循环遍历所述服务器的测试日志文件,在所述测试日志文件中查找错误码;

13、在所述测试日志文件中查找到所述错误码的情况下,获取所述服务器的服务器序列号和服务器机型;

14、将所述服务器序列号和所述服务器机型以及所述错误码写入到所述数据库中;

15、所述从数据库中确定出所述服务器对应的状态记录,包括:

16、获取所述服务器序列号;

17、基于所述服务器序列号,从所述数据库中读取所述服务器序列号对应的状态记录。

18、可选地,所述检查各个所述硬件部件的实际温度值是否存在高温异常,以及,检查所述错误码的状态值,包括:

19、从所述状态记录中确定出服务器机型;

20、基于所述服务器机型,从所述数据库中保存的预定义温度表中,获取与所述服务器机型对应的各个硬件部件各自的最大温度阈值;

21、多次获取所述服务器机型对应的各个硬件部件各自的实际温度值;

22、根据所述各个硬件部件各自的最大温度阈值,以及多次获取的所述服务器机型对应的各个硬件部件各自的实际温度值,检查所述服务器的各个硬件部件的实际温度值是否高温异常,并多次检查所述错误码的状态值。

23、可选地,所述根据所述各个硬件部件各自的最大温度阈值,以及多次获取的所述服务器机型对应的各个硬件部件各自的实际温度值,检查所述服务器的各个硬件部件的实际温度值是否高温异常,并多次检查所述错误码的状态值,包括:

24、检查所述错误码的第一状态值;

25、将所述服务器机型对应的各个硬件部件各自的实际温度值作为各个硬件部件各自的第一温度值,并将所述各个硬件部件各自的第一温度值与各个硬件部件各自对应的最大温度阈值进行比较;

26、在检查到所述服务器的任一硬件部件的第一温度值超过所述硬件部件对应的最大温度阈值的情况下,确定所述硬件部件存在高温异常;

27、在确定所述硬件部件的存在高温异常,并且在检查到所述错误码的第一状态值表征所述错误未被处理的情况下,基于预设休眠时长进行休眠;

28、在休眠所述预设休眠时长后,重新获取所述服务器的各个硬件部件各自的第二温度值,重新检查所述错误码的第二状态值,并将所述各个硬件部件各自的第二温度值作为所述各个硬件部件各自的第一温度值,以及将所述错误码的第二状态值作为所述错误码的第一状态值,执行步骤:将所述各个硬件部件各自的第一温度值与各个硬件部件各自对应的最大温度阈值进行比较;

29、在休眠次数达到预设最大值的情况下,退出检查。

30、可选地,在所述向所述服务器对应的目标电源管理单元发送断电指令之前,所述方法还包括:

31、获取所述目标电源管理单元的静态ip地址、厂商信息和端口编号,所述静态ip地址和端口编号是预先针对所述目标电源管理单元进行配置的;

32、根据所述目标电源管理单元的静态ip地址,在所述服务器的多个电源管理单元中确定出所述目标电源管理单元;

33、根据所述目标电源管理单元的厂商信息和端口编号,向所述目标电源管理单元发送相应的断电指令,所述断电指令用于指示对所述目标电源管理单元上相应的端口进行断电。

34、可选地,所述获取所述目标电源管理单元的静态ip地址、厂商信息和端口编号,包括:

35、获取所述服务器序列号;

36、根据所述服务器序列号,从数据库中获取所述服务器对应的目标电源管理单元的静态ip地址、端口编号和厂商信息。

37、第二方面,本公开实施例提供了一种高温异常处理装置,所述装置包括:

38、错误码确定模块,用于在获取到服务器的错误码的情况下,根据所述错误码,确定出所述服务器的各个硬件部件;

39、检查模块,用于检查各个所述硬件部件的实际温度值是否存在高温异常,以及,检查所述错误码的状态值;所述状态值表征所述错误码对应的错误是否被处理;

40、断电模块,用于在检查到所述服务器的任一硬件部件的实际温度值连续多次存在高温异常,并且所述错误码的状态值表征所述错误未被处理的情况下,向与所述服务器对应的目标电源管理单元发送断电指令,所述断电指令用于指示所述目标电源管理单元对所述服务器进行断电。

41、可选地,所述装置还包括:

42、状态记录确定模块,用于在接收到生产测试的指令后,从数据库中确定出所述服务器对应的状态记录;

43、错误码扫描模块,用于循环扫描所述服务器对应的状态记录是否存在所述错误码;

44、可选地,所述状态记录包括:服务器序列号、服务器机型和错误码;所述装置还包括:

45、错误码查找模块,用于循环遍历所述服务器的测试日志文件,在所述测试日志文件中本文档来自技高网...

【技术保护点】

1.一种高温异常处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述根据所述错误码,确定出所述服务器的各个硬件部件之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述状态记录包括:服务器序列号、服务器机型和错误码;

4.根据权利要求2所述的方法,其特征在于,所述检查各个所述硬件部件的实际温度值是否存在高温异常,以及,检查所述错误码的状态值,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述各个硬件部件各自的最大温度阈值,以及多次获取的所述服务器机型对应的各个硬件部件各自的实际温度值,检查所述服务器的各个硬件部件的实际温度值是否高温异常,并多次检查所述错误码的状态值,包括:

6.根据权利要求1所述的方法,其特征在于,在所述向所述服务器对应的目标电源管理单元发送断电指令之前,所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,所述获取所述目标电源管理单元的静态IP地址、厂商信息和端口编号,包括:

8.一种高温异常处理装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种高温异常处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述根据所述错误码,确定出所述服务器的各个硬件部件之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述状态记录包括:服务器序列号、服务器机型和错误码;

4.根据权利要求2所述的方法,其特征在于,所述检查各个所述硬件部件的实际温度值是否存在高温异常,以及,检查所述错误码的状态值,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述各个硬件部件各自的最大温度阈值,以及多次获取的所述服务器机型对应的各个硬件部件各自的实际温度值,检查所述服务器的各个硬件部件的实际温度值是否高温异常,并多次检查所述错误码的状态值,包括:...

【专利技术属性】
技术研发人员:陈锡文胥辂芳
申请(专利权)人:浪潮计算机科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1