内存故障处理方法、装置和存储介质制造方法及图纸

技术编号:35816433 阅读:17 留言:0更新日期:2022-12-03 13:40
本申请公开了一种内存故障处理方法、装置和存储介质,涉及内存技术领域,用于提升修复内存故障的效率。方法包括:带外控制器获取内存的故障信息,故障信息指示了至少一个缓存块发生故障;带外控制器基于故障信息确定目标缓存块的故障严重程度,目标缓存块为至少一个缓存块的其中一个缓存块;带外控制器基于目标缓存块的故障严重程度,确定目标替换缓存块;目标替换缓存块用于替换目标缓存块,目标替换缓存块为当前替换了历史故障缓存块的缓存块,目标缓存块的故障严重程度大于或等于历史故障缓存块的故障严重程度;带外控制器向中央处理器CPU发送修复请求;修复请求用于请求CPU对目标缓存块进行故障修复,修复请求携带有目标替换缓存块的标记信息。换缓存块的标记信息。换缓存块的标记信息。

【技术实现步骤摘要】
内存故障处理方法、装置和存储介质


[0001]本申请涉及内存
,尤其涉及一种内存故障处理方法、装置和存储介质。

技术介绍

[0002]内存作为计算机设备中重要的存储模块,用于计算机设备获取或存放相关数据。此时,内存若发生故障则对整个计算机设备的运行产生较大影响。对此,当前为了针对内存中出现故障的缓存块进行修复,提供了一种采用替换缓存块代替发生故障的缓存块的方式,以修复内存故障,该技术称为分块缓存线冗余替换(partial cache line sparing,PCLS)技术。然而,考虑到内存成本的问题,替换缓存块的数量是有限的,因此,如何高效利用有限的替换缓存块修复内存中的故障是目前亟待解决的问题。

技术实现思路

[0003]本申请实施例提供了一种内存故障处理方法、装置和存储介质,用于提升修复内存故障的效率。
[0004]为达到上述目的,本申请的实施例采用如下技术方案:
[0005]第一方面,提供了一种内存故障处理方法,该方法包括:带外控制器获取内存的故障信息,故障信息指示了至少一个缓存块发生故障;带外控制器基于故障信息确定目标缓存块的故障严重程度,目标缓存块为至少一个缓存块的其中一个缓存块;带外控制器基于目标缓存块的故障严重程度,确定目标替换缓存块;目标替换缓存块用于替换目标缓存块,目标替换缓存块为当前替换了历史故障缓存块的缓存块,目标缓存块的故障严重程度大于或等于历史故障缓存块的故障严重程度;带外控制器向中央处理器CPU发送修复请求;修复请求用于请求CPU对目标缓存块进行故障修复,修复请求携带有目标替换缓存块的标记信息。
[0006]当前内存故障采用PCLS技术进行修复时,替换缓存块的数量是有限的,对此,本申请提出根据目标缓存块的故障严重程度确定修复策略,当有限的替换缓存块均被历史故障缓存块所占用时,将历史故障缓存块中故障严重程度低于目标缓存块的修复资源用于修复目标缓存块,从而有助于将有限的修复资源用于修复对系统产生影响的可能性较大的故障,进而提升修复内存故障的效率。
[0007]在一种可能的实现方式中,带外控制器基于故障信息确定目标缓存块的故障严重程度,包括:统计预设时间段内目标缓存块的故障发生次数;其中,故障发生次数用于表征目标缓存块的故障严重程度,预设时间段是指内存所在的服务器从启动至今的时间段。
[0008]该种可能的实现方式中,提供了一种获取目标缓存块的故障严重程度的具体实现方式,通过统计预设时间段内目标缓存块的故障发生次数,根据该故障发生次数来表征目标缓存块的故障严重程度,从而有助于对每个发生故障的缓存块进行评估,确定出对系统产生影响可能性较高的缓存块。
[0009]在一种可能的实现方式中,带外控制器基于故障信息确定目标缓存块的故障严重
程度,包括:将所述目标缓存块的故障信息输入到故障模型,输出所述目标缓存块的故障严重程度;其中,所述故障信息包括位置信息、故障发生时间和故障发生次数中的至少一个。
[0010]该种可能的实现方式中,提供了一种获取目标缓存块的故障严重程度的具体实现方式,通过故障模型根据故障信息输出发生故障的缓存块的故障严重程度,有助于避免用户参与计算和数据处理,避免用户操作所造成的人工错误,进而提高故障预测结果的准确性。
[0011]在一种可能的实现方式中,故障信息包括至少一个缓存块发生故障的位置信息,在带外控制器基于故障信息确定目标缓存块的故障严重程度之前,该方法还包括:根据至少一个缓存块发生故障的位置信息,确定至少一个缓存块的故障类型;确定故障类型为单点故障的缓存块为目标缓存块,其中,目标缓存块的行地址与其他发生故障的缓存块的行地址不同,目标缓存块的列地址与其他发生故障的缓存块的列地址不同。
[0012]该种可能的实现方式中,提供了确定目标缓存块的具体实现方式,通过判断缓存块的故障类型是否为单点故障确定是否为目标缓存块,即针对故障类型为单点故障的缓存块可以采用替换缓存块进行故障修复。
[0013]在一种可能的实现方式中,目标替换缓存块为当前替换了故障严重程度最小的历史故障缓存块的缓存块。
[0014]该种可能的实现方式中,通过确定故障严重程度最小的历史故障缓存块对应的替换缓存块作为目标替换缓存块,有助于将替换缓存块用于修复故障严重程度较高的故障,从而降低故障严重程度较高的故障对系统产生影响的风险。
[0015]在一种可能的实现方式中,该方法还包括:接收CPU发送的目标缓存块的故障修复结果;当故障修复结果指示修复成功时,带外控制器保存目标缓存块和替换目标缓存块的替换缓存块之间的对应关系;当故障修复结果携带有目标替换缓存块的标记信息,并指示修复成功时,带外控制器将目标替换缓存块与历史故障缓存块之间的对应关系,更新为目标替换缓存块与目标缓存块之间的对应关系。
[0016]该种可能的实现方式中,通过接收CPU反馈的故障修复结果,对发生故障的缓存块和修复资源之间的对应关系进行更新。有助于根据该故障修复结果确定目标缓存块是否占用有限的替换缓存块,进而在下一次发生故障时,判断下一次发生故障的缓存块与目标缓存块的故障严重程度,从而为下一次发生故障的缓存块确定目标替换缓存块。
[0017]第二方面,提供了一种内存故障处理装置,包括:用于执行第一方面提供的任意一种方法的功能单元,各个功能单元所执行的动作通过硬件实现或通过硬件执行相应的软件实现。例如,该装置可以包括:获取单元、处理单元和发送单元;获取单元,用于获取内存的故障信息,故障信息指示了至少一个缓存块发生故障。处理单元,用于基于故障信息确定目标缓存块的故障严重程度,目标缓存块为至少一个缓存块的其中一个缓存块。处理单元,还用于基于目标缓存块的故障严重程度,确定目标替换缓存块;目标替换缓存块用于替换目标缓存块,目标替换缓存块为当前替换了历史故障缓存块的缓存块,目标缓存块的故障严重程度大于或等于历史故障缓存块的故障严重程度。发送单元,用于向CPU发送修复请求;修复请求用于请求CPU对目标缓存块进行故障修复,修复请求携带有目标替换缓存块的标记信息。
[0018]第三方面,提供了一种计算机设备,包括:处理器和存储器。处理器与存储器连接,
存储器用于存储计算机执行指令,处理器执行存储器存储的计算机执行指令,从而实现第一方面提供的任意一种方法。
[0019]第四方面,提供了一种芯片,该芯片包括:处理器和接口电路;接口电路,用于接收代码指令并传输至处理器;处理器,用于运行代码指令以执行第一方面提供的任意一种方法。
[0020]第五方面,提供了一种计算机可读存储介质,包括计算机执行指令,当计算机执行指令在计算机上运行时,使得计算机执行第一方面提供的任意一种方法。
[0021]第六方面,提供了一种计算机程序产品,包括计算机执行指令,当计算机执行指令在计算机上运行时,使得计算机执行第一方面提供的任意一种方法。
[0022]第二方面至第六方面中的任一种实现方式所带来的技术效果可参见第一方面中对应实现方式所带来的技术效本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种内存故障处理方法,其特征在于,所述方法包括:带外控制器获取内存的故障信息,所述故障信息指示了至少一个缓存块发生故障;所述带外控制器基于所述故障信息确定目标缓存块的故障严重程度,所述目标缓存块为所述至少一个缓存块的其中一个缓存块;所述带外控制器基于所述目标缓存块的故障严重程度,确定目标替换缓存块;所述目标替换缓存块用于替换所述目标缓存块,所述目标替换缓存块为当前替换了历史故障缓存块的缓存块,所述目标缓存块的故障严重程度大于或等于所述历史故障缓存块的故障严重程度;所述带外控制器向中央处理器CPU发送修复请求;所述修复请求用于请求所述CPU对所述目标缓存块进行故障修复,所述修复请求携带有所述目标替换缓存块的标记信息。2.根据权利要求1所述的方法,其特征在于,所述带外控制器基于所述故障信息确定目标缓存块的故障严重程度,包括:统计预设时间段内所述目标缓存块的故障发生次数;其中,所述故障发生次数用于表征所述目标缓存块的故障严重程度,所述预设时间段是指所述内存所在的服务器从启动至今的时间段。3.根据权利要求1或2所述的方法,其特征在于,所述带外控制器基于所述故障信息确定目标缓存块的故障严重程度,包括:将所述目标缓存块的故障信息输入到故障模型,输出所述目标缓存块的故障严重程度;其中,所述故障信息包括位置信息、故障发生时间和故障发生次数中的至少一个。4.根据权利要求1或2所述的方法,其特征在于,所述故障信息包括至少一个缓存块发生故障的位置信息,在所述带外控制器基于所述故障信息确定目标缓存块的故障严重程度之前,所述方法还包括:根据所述至少一个缓存块发生故障的位置信息,确定所述至少一个缓存块的故障类型;确定所述故障类型为单点故障的缓存块为所述目标缓存块,其中,所述目标缓存块的行地址与其他发生故障的缓存块的行地址不同,所述目标缓存块的列地址与所述其他发生故障的缓存块的列地址不同。5.根据权利要求1至4任一项所述的方法,其特征在于,所述目标替换缓存块为当前替换了故障严重程度最小的历史故障缓...

【专利技术属性】
技术研发人员:李胜鲍全洋张光彪
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1