一种硬件故障分析系统和方法技术方案

技术编号:15241267 阅读:203 留言:0更新日期:2017-05-01 01:30
本发明专利技术公开了一种硬件故障分析系统和方法,硬件故障分析系统包括:户配置模块,用于配置所有待监控的机器的地址、故障日志文件的存放路径、故障日志文件的采集周期和故障判断条件;信息采集模块,用于获取待监控的机器的地址、存放路径和采集周期,根据采集周期,周期性地获取与地址对应的待监控的机器的故障日志文件,将故障日志文件存放到存放路径中;当前故障预测模块,用于获取故障判断条件和存放路径中的故障日志文件,根据故障判断条件对故障日志文件进行故障预测处理,得到预测结果。本发明专利技术能对批量获得的待监控机器的故障日志文件进行故障预测,使用户能集中替换预测的故障硬件,节省时间、降低工作量,保证待监控的机器长期正常的运行。

Hardware fault analysis system and method

The invention discloses a hardware fault analysis system and method, including hardware fault analysis system: user configuration module for address, fault log file configuration all for monitoring machine storage path, fault log file collection period and fault judgment conditions; the information acquisition module, used to obtain for monitoring machine. Storage path and acquisition cycle, according to the acquisition cycle, periodically obtaining fault log files and address corresponding to the monitoring machine, stored fault log files to store the path; the current fault prediction module for acquiring fault judgment and fault is stored in the log file path, judging the fault log fault conditions file processing according to the fault prediction, forecasting results. The invention can monitor fault prediction to the fault log file batch obtained, users can replace the centralized hardware fault prediction, save time, reduce the workload, to ensure the normal operation of long-term monitoring machine.

【技术实现步骤摘要】

本专利技术涉及计算机应用领域,尤其涉及一种硬件故障分析系统和方法。
技术介绍
目前,随着云计算的深入发展和日渐复杂,数据中心机房作为云计算的基础,压力与日俱增。为了保证机房内的机器的正常运行,给用户提供可靠良好的服务,现有技术中将机器的硬件产生的错误通过SMI(SystemManagementInterrupt,系统管理中断)上报给BIOS(BasicInputOutputSystem,基本输入输出系统),BIOS进行一系列处理后,再通过NMI(NonMaskableInterrupt,不可屏蔽中断)上报到操作系统内核处理;操作系统在MCE(machinecheckexception,机器检查异常)中断处理函数中进行进一步的处理,并读取CPU的异常信息寄存器等信息,保存到/dev/mcelog字符设备的环形缓冲区;用户态程序mcelog轮询/dev/mcelog字符设备,解析出寄存器的内容,并记录到MCELOG日志文件,用户态程序mcelog通过分析mcelog异常信息,可以实现PFA(PredictiveFailureAnalysis预测故障分析)功能。但是上述技术存在很多缺陷,上述技术中的用户态程序MCELOG只能在每一台单独的机器上运行,只能预测这台机器的故障,不能批量预测机房内所有机器的硬件故障,所以要知道机房内所有的机器的故障信息,只能在每台机器上都利用用户态程序MCELOG进行预测,然后在每台机器上查看故障信息,这无疑增加了工作时间和工作量;其次,上述用户态程序MCELOG解析得到的故障信息只是记录到后台的MCELOG日志文件,用户无法直接感知,用户使用感较差;而且MCELOG日志文件记满了就丢弃掉了老的故障信息,没有充分利用起来,白白浪费了存储资源和MCELOG日志文件资源,也没有根据MCELOG日志文件为机器的正常运行提供帮助。
技术实现思路
本专利技术要解决的主要技术问题是,提供一种硬件故障分析系统和方法,解决现有技术中硬件故障分析过程中存在的不能长期地批量预测机房内所有机器的硬件故障,工作时间长,工作量大的问题。为解决上述技术问题,本专利技术提供一种硬件故障分析系统,包括:用户配置模块,用于配置所有待监控的机器的地址、故障日志文件的存放路径、故障日志文件的采集周期和故障判断条件;信息采集模块,用于获取待监控的机器的地址、存放路径和采集周期,根据采集周期,周期性地获取与地址对应的待监控的机器的故障日志文件,并将故障日志文件存放到存放路径中;当前故障预测模块,用于获取故障判断条件和存放路径中的故障日志文件,根据故障判断条件对故障日志文件进行故障预测处理,得到预测结果。进一步地,用户配置模块配置的故障判断条件包括各故障的故障时间窗和各故障对应的故障门限值;当前故障预测模块具体用于获取各故障的故障时间窗、各故障对应的故障门限值和存放路径中的故障日志文件;并对在各故障的故障时间窗内的故障日志文件中的故障信息进行计数统计,当计数值大于该故障对应的故障门限值时,预测该故障对应的硬件即将失效。进一步地,还包括结果呈现模块,用于在界面至少呈现预测结果。进一步地,还包括清除模块,用于清除结果呈现模块呈现的至少一个预测结果,并将与清除的预测结果对应的故障日志文件中的故障信息转化为历史故障信息。进一步地,用户配置模块还用于配置历史故障信息处理参数;硬件故障分析系统还包括历史故障信息处理模块,用于根据历史故障信息处理参数对历史故障信息进行处理,得到各故障间的逻辑关系。进一步地,用户配置模块配置的历史故障信息处理参数包括频繁情节规则挖掘参数;历史故障信息处理模块具体用于读取频繁情节规则挖掘参数,根据频繁情节规则挖掘参数对历史故障信息进行处理,挖掘各故障间的频繁情节规则。进一步地,用户配置模块配置的频繁情节规则挖掘参数具体包括:滑动时间窗、滑动步长、支持度门限值和置信度门限值;历史故障信息处理模块具体用于根据滑动时间窗和滑动步长对历史故障信息中的各故障间的支持度和置信度进行计数统计,确定出大于支持度门限值或者置信度门限值的各故障间的频繁情节规则。进一步地,用户配置模块配置的历史故障信息处理参数包括统计条件,统计条件包括统计维度和统计时间段;历史故障信息处理模块具体用于根据统计维度和统计时间段对历史故障信息进行分类、统计和排序,得到统计结果。本专利技术还提供一种硬件故障分析方法,包括:配置所有待监控的机器的地址、故障日志文件的存放路径、故障日志文件的采集周期和故障判断条件;获取待监控的机器的地址、存放路径和采集周期,根据采集周期,周期性地获取与地址对应的待监控的机器的故障日志文件,并将故障日志文件存放到存放路径中;获取故障判断条件和存放路径中的故障日志文件,根据故障判断条件对故障日志文件进行故障预测处理,得到预测结果。进一步地,配置故障判断条件包括:配置各故障的故障时间窗和各故障对应的故障门限值;获取故障判断条件和存放路径中的故障日志文件,根据故障判断条件对故障日志文件进行故障预测处理,得到预测结果包括:获取各故障的故障时间窗、各故障对应的故障门限值和存放路径中的故障日志文件;并对在各故障的故障时间窗内的故障日志文件中的故障信息进行计数统计,当计数值大于该故障对应的故障门限值时,预测该故障对应的硬件即将失效。进一步地,在得到测试结果之后,还包括在界面至少呈现预测结果。进一步地,在呈现预测结果之后,还包括清除呈现的至少一个预测结果,并将与清除的预测结果对应的故障日志文件中的故障信息转化为历史故障信息。进一步地,还包括配置历史故障信息处理参数,根据历史故障信息处理参数对历史故障信息进行处理,得到各故障间的逻辑关系。进一步地,配置历史故障信息处理参数包括配置频繁情节规则挖掘参数;根据历史故障信息处理参数对历史故障信息进行处理,得到各故障间的逻辑关系包括:读取频繁情节规则挖掘参数,根据频繁情节规则挖掘参数对历史故障信息进行处理,挖掘各故障间的频繁情节规则。进一步地,配置的频繁情节规则挖掘参数包括:滑动时间窗、滑动步长、支持度门限值和置信度门限值;根据频繁情节规则挖掘参数对历史故障信息进行处理,挖掘各故障间的频繁情节规则包括:根据滑动时间窗和滑动步长对历史故障信息中的各故障间的支持度和置信度进行计数统计,确定出大于支持度门限值或者置信度门限值的各故障间的频繁情节规则。进一步地,配置的历史故障信息处理参数包括统计条件,统计条件包括统计维度和统计时间段;根据历史故障信息处理参数对历史故障信息进行处理,得到各历史故障间的逻辑关系包括:根据统计维度和统计时间段对历史故障信息进行分类、统计和排序,得到统计结果。本专利技术提供了一种硬件故障分析系统和方法,采用本专利技术的硬件故障分析系统,用户配置模块配置所有待监控的机器的地址、故障日志文件的存放路径、故障日志文件的采集周期和故障判断条件;信息采集模块获取待监控的机器的地址、存放路径和采集周期,根据采集周期,周期性地获取与地址对应的待监控的机器的故障日志文件,并将故障日志文件存放到存放路径中;当前故障预测模块获取故障判断条件和存放路径中的故障日志文件,根据故障判断条件对故障日志文件进行故障预测处理,得到预测结果,上述硬件故障分析系统通过获取所有待监控的机器的地址找到所有待监本文档来自技高网
...

【技术保护点】
一种硬件故障分析系统,其特征在于,包括:用户配置模块,用于配置所有待监控的机器的地址、故障日志文件的存放路径、故障日志文件的采集周期和故障判断条件;信息采集模块,用于获取所述待监控的机器的地址、所述存放路径和所述采集周期,根据所述采集周期,周期性地获取与所述地址对应的待监控的机器的故障日志文件,并将所述故障日志文件存放到所述存放路径中;当前故障预测模块,用于获取所述故障判断条件和所述存放路径中的故障日志文件,根据所述故障判断条件对所述故障日志文件进行故障预测处理,得到预测结果。

【技术特征摘要】
1.一种硬件故障分析系统,其特征在于,包括:用户配置模块,用于配置所有待监控的机器的地址、故障日志文件的存放路径、故障日志文件的采集周期和故障判断条件;信息采集模块,用于获取所述待监控的机器的地址、所述存放路径和所述采集周期,根据所述采集周期,周期性地获取与所述地址对应的待监控的机器的故障日志文件,并将所述故障日志文件存放到所述存放路径中;当前故障预测模块,用于获取所述故障判断条件和所述存放路径中的故障日志文件,根据所述故障判断条件对所述故障日志文件进行故障预测处理,得到预测结果。2.如权利要求1所述的硬件故障分析系统,其特征在于,所述用户配置模块配置的故障判断条件包括各故障的故障时间窗和各故障对应的故障门限值;所述当前故障预测模块具体用于获取所述各故障的故障时间窗、所述各故障对应的故障门限值和所述存放路径中的故障日志文件;并对在各故障的故障时间窗内的故障日志文件中的故障信息进行计数统计,当计数值大于该故障对应的故障门限值时,预测该故障对应的硬件即将失效。3.如权利要求1或2所述的硬件故障分析系统,其特征在于,还包括结果呈现模块,用于在界面至少呈现所述预测结果。4.如权利要求3所述的硬件故障分析系统,其特征在于,还包括清除模块,用于清除所述结果呈现模块呈现的至少一个所述预测结果,并将与清除的预测结果对应的故障日志文件中的故障信息转化为历史故障信息。5.如权利要求4所述的硬件故障分析系统,其特征在于,所述用户配置模块还用于配置历史故障信息处理参数;硬件故障分析系统还包括历史故障信息处理模块,用于根据所述历史故障信息处理参数对所述历史故障信息进行处理,得到各故障间的逻辑关系。6.如权利要求5所述的硬件故障分析系统,其特征在于,所述用户配置模块配置的历史故障信息处理参数包括频繁情节规则挖掘参数;所述历史故障信息处理模块具体用于读取所述频繁情节规则挖掘参数,根据所述频繁情节
\t规则挖掘参数对所述历史故障信息进行处理,挖掘各故障间的频繁情节规则。7.如权利要求6所述的硬件故障分析系统,其特征在于,所述用户配置模块配置的频繁情节规则挖掘参数具体包括:滑动时间窗、滑动步长、支持度门限值和置信度门限值;所述历史故障信息处理模块具体用于根据所述滑动时间窗和滑动步长对所述历史故障信息中的各故障间的支持度和置信度进行计数统计,确定出大于所述支持度门限值或者所述置信度门限值的各故障间的频繁情节规则。8.如权利要求5所述的硬件故障分析系统,其特征在于,所述用户配置模块配置的历史故障信息处理参数包括统计条件,所述统计条件包括统计维度和统计时间段;所述历史故障信息处理模块具体用于根据所述统计维度和统计时间段对所述历史故障信息进行分类、统计和排序,得到统计结果。9.一种硬件故障分析方法,其特征在于,包括:配置所有待监控的...

【专利技术属性】
技术研发人员:文洋谈虎王亮蔡衢蒋勇蒋彪
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1