System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种服务器固件预测及处理内存故障的方法技术_技高网

一种服务器固件预测及处理内存故障的方法技术

技术编号:42499044 阅读:3 留言:0更新日期:2024-08-22 14:11
本发明专利技术公开了一种用于服务器内存故障预测与处理的方法,该方法结合了BIOS固件和BMC固件。当服务器发生内存故障时,BIOS会触发故障处理程序,并通过解析算法对故障进行分类,然后利用OEM CMD将故障信息发送给BMC。BMC将故障信息存入数据库,并基于智能预测算法进行分析。用户可远程通过BMC界面配置故障处理策略,BMC在接收到故障后会触发智能检测算法,并根据预测结果触发相应的处理策略,同时向用户反馈处理结果。该方法能够在内存故障爆发前进行预防和处理,提高了服务器的管理效率和可靠性。

【技术实现步骤摘要】

本专利技术属于计算机,具体涉及一种服务器固件预测及处理内存故障的方法


技术介绍

1、服务器系统中,内存故障分为ce和uce,ce是可修复的内存故障,修复后不影响系统的启动和运行,uce是不可修复的内存故障,发生后会导致系统重启后宕机等严重的后果。从内存故障发生的规律来看,在发生uce内存故障之前,一般都会先发生一系列的ce内存故障。但在目前服务器系统中,bios收到内存ce故障报警信息后,只对单次的ce故障进行简单处理后上报给bmc或os,bios端不保存ce内存故障,也没有进行深入的分析处理。bmc端在接收到bios上报的ce内存故障后,只是进行告警信息的显示,也没有对内存故障做定量存储和定性分析。目前服务器固件这种对内存故障的处理方式,导致无法预测严重内存故障的发生,也无法尽早对可能发生严重故障的内存进行处理,从而无法避免因内存故障不断积累造成的严重后果。


技术实现思路

1、针对现有技术中存在的问题,本专利技术公开了一种服务器固件预测及处理内存故障的方法,利用bios固件和bmc固件的功能特点,将bios和bmc的功能结合起来,利用智能算法对服务器中内存故障数据进行归类、存储和分析,能及时显示内存的健康状况,并对有可能会发生严重故障的内存尽早进行隔离或更换等处理。

2、本专利技术采用如下技术方案:

3、一种服务器固件预测及处理内存故障的方法,包括如下步骤:

4、(1)服务器系统运行过程中,所有内存故障都会触发bios固件中的内存故障处理程序

5、(2)在bios中增加对内存故障的解析算法,根据故障类型及故障位置将故障进行分类;

6、(3)定义一组bios和bmc之间的oem cmd,bios根据故障分类将内存故障信息分别发送给bmc;

7、(4)bmc会根据故障类型维护一组内存故障数据库,将每次接收到的内存故障信息存入到对应的数据库表;

8、(5)在bmc中实现一套内存故障智能预测算法,并由用户在bmc中设置相应的故障阈值数据及故障修复策略;

9、(6)在步骤(4)的基础上,bmc每次接收到故障后都会触发步骤(5)中的智能检测算法;

10、(7)根据步骤(5)中智能预测算法的结果,触发用户设置的内存故障处理策略,并将内存故障处理结果显示给用户。

11、优先地,步骤(2)中内存故障数据解析算法会对内存故障进行归类处理,归类涉及的内存故障信息包括:故障类型,故障位置,故障时间,故障程度,是否存在cpu或其他设备关联错误等。

12、进一步地,步骤(4)将步骤(2)中归类的内存故障信息保存到bmc数据库中,每次保存时,都会根据同类信息的历史数据,进行权重分析和智能预测,分析和预测结果也存入到数据库中。

13、再进一步地,步骤(4)中的分析和预测结果,超出了步骤(5)中设置的内存故障阈值,就会按照步骤(7)触发内存故障处理策略,进行故障内存自动隔离或提示用户更换故障内存等操作。

14、作为另一种优选,步骤(7)中,用户可以筛选和查看历史内存故障数据,并对内存健康状况进行直观显示。

15、作为另一种优选,步骤(7)所述的bmc界面也可以显示相应的帮助信息和提示信息。

16、有益效果:与现有技术相比,本专利技术公开的方法具有以下优点:1、本专利技术公开的内存故障预测及处理方法,不改变服务器系统上bios和bmc原有的功能框架和运行流程;2、本专利技术增加的解析、存储和预测等算法模块,都是软件逻辑,不需要对cpu及内存硬件做任何特别设置,可以实施在任何类型的服务器平台上;3、本专利技术方法可以将故障内存预测和处理的结果在bmc界面实时显示给用户,让用户可以直观查看内存的健康状况,对用户非常友好;4、本专利技术在预测到内存会发生严重故障的时候,如果用户没有做及时处理,也会自动触发内存隔离等默认保护措施,可以有效避免因内存故障积累而产生数据丢失等严重后果。

本文档来自技高网...

【技术保护点】

1.一种服务器固件预测及修复内存故障的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的服务器固件智能预测及自愈修复内存故障的方法,其特征在于,包括:

3.根据权利要求1所述的服务器固件智能预测及自愈修复内存故障的方法,其特征在于,在步骤(3)中定义的一组在BIOS和BMC之间传递内存故障信息的OEM CMD。

4.根据权利要求1所述的服务器固件智能预测及自愈修复内存故障的方法,其特征在于,步骤(5)中设置故障阈值数据及故障修复策略,用户通过BMC Web界面设置内存故障需要处理的阈值,和达到阈值后,对故障的处理措施。

5.根据权利要求1所述的服务器固件智能预测及自愈修复内存故障的方法,其特征在于,步骤(5)中内存故障智能预测算法,实时检测和显示系统中当前内存的健康状况。

6.根据权利要求1所述的服务器固件智能预测及自愈修复内存故障的方法,其特征在于,步骤(7)BMC中的内存故障策略的配置界面,用户查看的帮助信息。

7.根据权利要求1所述的服务器固件智能预测及自愈修复内存故障的方法,其特征在于,步骤(7)BMC中的内存故障状态显示界面,用户用不同方式筛选和查看内存故障数据及内存状态。

8.根据权利要求1所述的服务器固件智能预测及自愈修复内存故障的方法,其特征在于,步骤(7)触发内存故障处理策略后,系统自动对故障内存进行隔离或提示用户更换故障内存等处理方法。

...

【技术特征摘要】

1.一种服务器固件预测及修复内存故障的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的服务器固件智能预测及自愈修复内存故障的方法,其特征在于,包括:

3.根据权利要求1所述的服务器固件智能预测及自愈修复内存故障的方法,其特征在于,在步骤(3)中定义的一组在bios和bmc之间传递内存故障信息的oem cmd。

4.根据权利要求1所述的服务器固件智能预测及自愈修复内存故障的方法,其特征在于,步骤(5)中设置故障阈值数据及故障修复策略,用户通过bmc web界面设置内存故障需要处理的阈值,和达到阈值后,对故障的处理措施。

5.根据权利要求1所述的服务器固件智能预测及自愈修复...

【专利技术属性】
技术研发人员:徐家武吴平谢乾
申请(专利权)人:南京百敖软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1