The invention discloses a hardware fault analysis system and method, including hardware fault analysis system: user configuration module for address, fault log file configuration all for monitoring machine storage path, fault log file collection period and fault judgment conditions; the information acquisition module, used to obtain for monitoring machine. Storage path and acquisition cycle, according to the acquisition cycle, periodically obtaining fault log files and address corresponding to the monitoring machine, stored fault log files to store the path; the current fault prediction module for acquiring fault judgment and fault is stored in the log file path, judging the fault log fault conditions file processing according to the fault prediction, forecasting results. The invention can monitor fault prediction to the fault log file batch obtained, users can replace the centralized hardware fault prediction, save time, reduce the workload, to ensure the normal operation of long-term monitoring machine.
【技术实现步骤摘要】
本专利技术涉及计算机应用领域,尤其涉及一种硬件故障分析系统和方法。
技术介绍
目前,随着云计算的深入发展和日渐复杂,数据中心机房作为云计算的基础,压力与日俱增。为了保证机房内的机器的正常运行,给用户提供可靠良好的服务,现有技术中将机器的硬件产生的错误通过SMI(SystemManagementInterrupt,系统管理中断)上报给BIOS(BasicInputOutputSystem,基本输入输出系统),BIOS进行一系列处理后,再通过NMI(NonMaskableInterrupt,不可屏蔽中断)上报到操作系统内核处理;操作系统在MCE(machinecheckexception,机器检查异常)中断处理函数中进行进一步的处理,并读取CPU的异常信息寄存器等信息,保存到/dev/mcelog字符设备的环形缓冲区;用户态程序mcelog轮询/dev/mcelog字符设备,解析出寄存器的内容,并记录到MCELOG日志文件,用户态程序mcelog通过分析mcelog异常信息,可以实现PFA(PredictiveFailureAnalysis预测故障分析)功能。但是上述技术存在很多缺陷,上述技术中的用户态程序MCELOG只能在每一台单独的机器上运行,只能预测这台机器的故障,不能批量预测机房内所有机器的硬件故障,所以要知道机房内所有的机器的故障信息,只能在每台机器上都利用用户态程序MCELOG进行预测,然后在每台机器上查看故障信息,这无疑增加了工作时间和工作量;其次,上述用户态程序MCELOG解析得到的故障信息只是记录到后台的MCELOG日志文件,用户无法直接感 ...
【技术保护点】
一种硬件故障分析系统,其特征在于,包括:用户配置模块,用于配置所有待监控的机器的地址、故障日志文件的存放路径、故障日志文件的采集周期和故障判断条件;信息采集模块,用于获取所述待监控的机器的地址、所述存放路径和所述采集周期,根据所述采集周期,周期性地获取与所述地址对应的待监控的机器的故障日志文件,并将所述故障日志文件存放到所述存放路径中;当前故障预测模块,用于获取所述故障判断条件和所述存放路径中的故障日志文件,根据所述故障判断条件对所述故障日志文件进行故障预测处理,得到预测结果。
【技术特征摘要】
1.一种硬件故障分析系统,其特征在于,包括:用户配置模块,用于配置所有待监控的机器的地址、故障日志文件的存放路径、故障日志文件的采集周期和故障判断条件;信息采集模块,用于获取所述待监控的机器的地址、所述存放路径和所述采集周期,根据所述采集周期,周期性地获取与所述地址对应的待监控的机器的故障日志文件,并将所述故障日志文件存放到所述存放路径中;当前故障预测模块,用于获取所述故障判断条件和所述存放路径中的故障日志文件,根据所述故障判断条件对所述故障日志文件进行故障预测处理,得到预测结果。2.如权利要求1所述的硬件故障分析系统,其特征在于,所述用户配置模块配置的故障判断条件包括各故障的故障时间窗和各故障对应的故障门限值;所述当前故障预测模块具体用于获取所述各故障的故障时间窗、所述各故障对应的故障门限值和所述存放路径中的故障日志文件;并对在各故障的故障时间窗内的故障日志文件中的故障信息进行计数统计,当计数值大于该故障对应的故障门限值时,预测该故障对应的硬件即将失效。3.如权利要求1或2所述的硬件故障分析系统,其特征在于,还包括结果呈现模块,用于在界面至少呈现所述预测结果。4.如权利要求3所述的硬件故障分析系统,其特征在于,还包括清除模块,用于清除所述结果呈现模块呈现的至少一个所述预测结果,并将与清除的预测结果对应的故障日志文件中的故障信息转化为历史故障信息。5.如权利要求4所述的硬件故障分析系统,其特征在于,所述用户配置模块还用于配置历史故障信息处理参数;硬件故障分析系统还包括历史故障信息处理模块,用于根据所述历史故障信息处理参数对所述历史故障信息进行处理,得到各故障间的逻辑关系。6.如权利要求5所述的硬件故障分析系统,其特征在于,所述用户配置模块配置的历史故障信息处理参数包括频繁情节规则挖掘参数;所述历史故障信息处理模块具体用于读取所述频繁情节规则挖掘参数,根据所述频繁情节
\t规则挖掘参数对所述历史故障信息进行处理,挖掘各故障间的频繁情节规则。7.如权利要求6所述的硬件故障分析系统,其特征在于,所述用户配置模块配置的频繁情节规则挖掘参数具体包括:滑动时间窗、滑动步长、支持度门限值和置信度门限值;所述历史故障信息处理模块具体用于根据所述滑动时间窗和滑动步长对所述历史故障信息中的各故障间的支持度和置信度进行计数统计,确定出大于所述支持度门限值或者所述置信度门限值的各故障间的频繁情节规则。8.如权利要求5所述的硬件故障分析系统,其特征在于,所述用户配置模块配置的历史故障信息处理参数包括统计条件,所述统计条件包括统计维度和统计时间段;所述历史故障信息处理模块具体用于根据所述统计维度和统计时间段对所述历史故障信息进行分类、统计和排序,得到统计结果。9.一种硬件故障分析方法,其特征在于,包括:配置所有待监控的...
【专利技术属性】
技术研发人员:文洋,谈虎,王亮,蔡衢,蒋勇,蒋彪,
申请(专利权)人:中兴通讯股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。