一种服务器硬件故障的自诊断方法技术

技术编号:10296600 阅读:110 留言:0更新日期:2014-08-07 01:29
本发明专利技术提供一种服务器硬件故障的自诊断方法,该方法利用服务器系统内的时序控制模块,信号采集模块和系统管理模块,对系统的硬件故障进行自诊断,并通过系统管理接口输出硬件故障信息,方便工程师快速定位。相对于传统的通过示波器和万用表等测量仪器进行定位,可以大大减少工作量,提升工作效率。

【技术实现步骤摘要】
【专利摘要】本专利技术提供,该方法利用服务器系统内的时序控制模块,信号采集模块和系统管理模块,对系统的硬件故障进行自诊断,并通过系统管理接口输出硬件故障信息,方便工程师快速定位。相对于传统的通过示波器和万用表等测量仪器进行定位,可以大大减少工作量,提升工作效率。【专利说明】
本专利技术涉及硬件诊断领域,具体地说是。
技术介绍
服务器系统的设计越来越复杂,一块服务器主板上元器件往往有数千之多,当主板出现硬件故障时,工程师往往需要大量的数据测量并进行详细的分析才能定位到故障位置,这将是一个非常复杂的工作。对于服务器系统而言,板级硬件故障最常见的问题是时序异常,电压异常,芯片散热异常,芯片工作状态异常。因此,常规的故障排查方法为用示波器逐级测量上电时序,万用表逐点测量电平准位,借助热测量设备评估关键芯片的散热状况,并对关键芯片的工作状态进行测量分析,然后综合分析得出结论。服务器系统主板上电时序复杂,电平类型众多,元器件数量庞杂,工程师往往需要花费大量的时间进行信号量测才能定位到故障。服务器系统对可靠性要求极高,一般而言,服务器设计通常采用CPLD/FPGA控制时序,对各电平值和温度信息也都有侦测,为便于处理故障,关键芯片的工作状态也都有监控,因此合理利用这些侦测信息,可以大幅提升故障定位效率,减少工程师工作量。
技术实现思路
本专利技术提出,改进了传统的仪器测量,人工分析定位故障方式,提升工作效率。本专利技术提供的服务器硬件故障诊断方法主要包括以下技术点:①电参数侦测②故障分析③故障输出。利用服务器系统内的时序控制模块,信号采集模块和系统管理模块,对系统的硬件故障进行自诊断,并通过系统管理接口输出硬件故障信息,方便工程师快速定位。包括电压温度侦测模块、时序控制模块、信号采集模块、IC工作状态侦测、故障诊断中心和故障输出单元, ①电压温度侦测模块:侦测主板各电平准位以及热敏点的温度情况; ②时序控制模块:为控制系统上电时序; ③IC工作状态侦测:IC工作状态侦测通常侦测IC的Error或者Alert#,Alarm#等异常输出信号,一般情况下由BMC或者SMC完成; ④故障诊断中心:故障诊断中心负责收集电压温度信息,IC工作状态信息,同时根据时序控制信号情况对各IC工作状态作出综合诊断,并依据预先存储的数据库信息给出故障类型,故障点位置,故障排查优先级。⑤故障输出单元:故障输出单元是服务器硬件故障自诊断的人机交互接口,其形式可以是串口终端或者web界面,取决于故障诊断中心的接口形式; 实施步骤如下: ①故障诊断中心获取系统侦测点温度电压信息; ②故障诊断中心获取系统时序控制模块输入输出信息; ③故障诊断中心获取IC工作状态信息; ④故障诊断中心根据收集的信息和故障数据库信息作出故障自诊断; ⑤用户通过故障输出接口索取系统硬件故障诊断信息,完成故障定位和故障维修。本专利技术的有益效果是: 改进了传统的仪器测量,人工分析定位故障方式,可对系统的硬件故障进行自诊断,并通过系统管理接口输出硬件故障信息,方便工程师快速定位。相对于传统的通过示波器和万用表等测量仪器进行定位,可以大大减少工作量,提升工作效率。【专利附图】【附图说明】附图1是本专利技术的系统架构图。【具体实施方式】参照具体实施例对本专利技术作以下详细地说明。图中各模块的主要功能及实现方式如下: ①电压温度侦测模块:电压温度侦测模块一般由HardwareMonitor芯片(比如W83795)或者AD转换芯片完成,其主要功能是侦测主板各电平准位以及热敏点的温度情况; ②时序控制模块:时序控制模块一般由CPLD或者FPGA完成,其主要功能为控制系统上电时序; ③IC工作状态侦测:IC工作状态侦测通常侦测IC的Error或者Alert#,Alarm#等异常输出信号,一般情况下由BMC或者SMC完成; ④故障诊断中心:故障诊断中心负责收集电压温度信息,IC工作状态信息,同时根据时序控制信号情况对各IC工作状态作出综合诊断,并依据预先存储的数据库信息给出故障类型,故障点位置,故障排查优先级。故障诊断中心一般由BMC或者SMC承担。⑤故障输出单元:故障输出单元是服务器硬件故障自诊断的人机交互接口,其形式可以是串口终端或者web界面,取决于故障诊断中心的接口形式。该设计的具体实施步骤如下: ①故障诊断中心获取系统侦测点温度电压信息; ②故障诊断中心获取系统时序控制模块输入输出信息; ③故障诊断中心获取IC工作状态信息; ④故障诊断中心根据收集的信息和故障数据库信息作出故障自诊断; ⑤用户通过故障输出接口索取系统硬件故障诊断信息,完成故障定位和故障维修。【权利要求】1.,其特征在于包括电压温度侦测模块、时序控制模块、信号采集模块、IC工作状态侦测、故障诊断中心和故障输出单元, ①电压温度侦测模块:侦测主板各电平准位以及热敏点的温度情况; 时序控制模块:为控制系统上电时序; IC工作状态侦测:IC工作状态侦测通常侦测IC的Error或者Alert#,Alarm#等异常输出信号; 故障诊断中心:故障诊断中心负责收集电压温度信息、IC工作状态信息,同时根据时序控制信号情况对各IC工作状态作出综合诊断,并依据预先存储的数据库信息给出故障类型,故障点位置,故障排查优先级; 故障输出单元:故障输出单元是服务器硬件故障自诊断的人机交互接口,其形式可以是串口终端或者web界面,取决于故障诊断中心的接口形式; 实施步骤如下: ①故障诊断中心获取系统侦测点温度电压信息; ②故障诊断中心获取系统时序控制模块输入输出信息; ③故障诊断中心获取IC工作状态信息; ④故障诊断中心根据收集的信息和故障数据库信息作出故障自诊断; ⑤用户通过故障输出接口索取系统硬件故障诊断信息,完成故障定位和故障维修。2.根据权利要求1所述的方法,其特征在于电压温度侦测模块一般由HardwareMonitor芯片(比如W83795)或者AD转换芯片完成。3.根据权利要求1所述的方法,其特征在于时序控制模块一般由CPLD或者FPGA完成。4.根据权利要求1所述的方法,其特征在于IC工作状态侦测一般情况下由BMC或者SMC完成。5.根据权利要求1所述的方法,其特征在于故障诊断中心一般由BMC或者SMC承担。【文档编号】G06F11/26GK103970635SQ201410173467【公开日】2014年8月6日 申请日期:2014年4月28日 优先权日:2014年4月28日 【专利技术者】薛广营, 李博乐, 陈彦灵 申请人:浪潮电子信息产业股份有限公司本文档来自技高网...

【技术保护点】
一种服务器硬件故障的自诊断方法,其特征在于包括电压温度侦测模块、时序控制模块、信号采集模块、IC工作状态侦测、故障诊断中心和故障输出单元,①   电压温度侦测模块:侦测主板各电平准位以及热敏点的温度情况;时序控制模块:为控制系统上电时序;IC工作状态侦测:IC工作状态侦测通常侦测IC的Error或者Alert#,Alarm#等异常输出信号;故障诊断中心:故障诊断中心负责收集电压温度信息、IC工作状态信息,同时根据时序控制信号情况对各IC工作状态作出综合诊断,并依据预先存储的数据库信息给出故障类型,故障点位置,故障排查优先级;故障输出单元:故障输出单元是服务器硬件故障自诊断的人机交互接口,其形式可以是串口终端或者web界面,取决于故障诊断中心的接口形式;    实施步骤如下:    ①故障诊断中心获取系统侦测点温度电压信息;    ②故障诊断中心获取系统时序控制模块输入输出信息;    ③故障诊断中心获取IC工作状态信息;    ④故障诊断中心根据收集的信息和故障数据库信息作出故障自诊断;    ⑤用户通过故障输出接口索取系统硬件故障诊断信息,完成故障定位和故障维修。

【技术特征摘要】

【专利技术属性】
技术研发人员:薛广营李博乐陈彦灵
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1