一种处理内存故障的方法以及相关设备技术

技术编号:36685807 阅读:11 留言:0更新日期:2023-02-27 19:48
本申请公开了一种处理内存故障的方法以及相关设备,用于避免资源被不必要的浪费。本申请实施例方法包括:BMC获取目标内存通道的可纠正故障数量以及可提供的部分缓存线路保留PCLS的次数,可纠正故障数量为目标内存通道在预设时长内产生的可纠正故障的总数。若可纠正故障数量大于目标内存通道可提供的PCLS的次数,则BMC向CPU发送第一指示信息,第一指示信息用于指示CPU将可纠正故障所在的bank进行隔离。隔离。隔离。

【技术实现步骤摘要】
一种处理内存故障的方法以及相关设备


[0001]本申请实施例涉及计算机领域,尤其涉及一种处理内存故障的方法以及相关设备。

技术介绍

[0002]动态随机存取器(dynamic random access memory,DRAM)是一种在存储以及IT领域有着广泛应用的内存。但是随着DRAM集成度越来越高、制程越来越小,DRAM的故障率也越来越高,甚至会因此造成服务器的宕机。当DRAM发生可纠正故障时,由于部分缓存线路保留(partial cache line sparing,PCLS)是隔离粒度以及代价最小的方案,因此通常考虑使用PCLS消除可纠正故障。
[0003]每个CPU的每个内存通道所能提供的PCLS的次数是有限的,在现有技术中会等到次数耗尽之后再通过隔离粒度以及代价更大的方案消除可纠正故障,然而如果一个内存通道短时间内产生的可纠正故障的数量大于该内存通道所能提供的PCLS的次数,现有技术的手段会导致资源的浪费。

技术实现思路

[0004]本申请实施例提供了一种处理内存故障的方法以及相关设备,用于避免资源被不必要的浪费。
[0005]本申请第一方面提供了一种处理内存故障的方法:
[0006]在服务器中,每个CPU均包括多个内存通道,基板管理控制器(baseboard management controller,BMC)获取目标内存通道的可纠正故障数量以及可提供的部分缓存线路保留PCLS的次数,可纠正故障数量为目标内存通道在预设时长内产生的可纠正故障的总数。若可纠正故障数量大于目标内存通道可提供的PCLS的次数,则BMC向CPU发送第一指示信息,第一指示信息用于指示BIOS将可纠正故障所在的bank进行隔离。
[0007]本申请中,当可纠正故障数量大于目标内存通道可提供的PCLS的次数时,说明仅根据PCLS无法消除所有的可纠正故障,因此直接将可纠正故障所在的bank进行隔离,从而直接消除所有的可纠正故障,节省了目标内存通道可提供的PCLS的次数。
[0008]在一种可能的实现方式中,若可纠正故障数量小于或等于目标内存通道可提供的PCLS的次数,则BMC向CPU发送第二指示信息,第二指示信息用于指示CPU将可纠正故障所在的cell进行隔离。
[0009]本申请中,当可纠正故障数量小于或等于目标内存通道可提供的PCLS的次数时,说明仅根据PCLS已经能够消除所有的可纠正故障,因此仅将可纠正故障所在的cell进行隔离,避免了正常的cell也被隔离。
[0010]在一种可能的实现方式中,BMC根据在预设时长内来自BIOS的可纠正故障信息的数量获取可纠正故障数量,可纠正故障信息用于指示目标内存通道产生了一个可纠正故障。
[0011]在一种可能的实现方式中,预设时长为500毫秒。
[0012]在一种可能的实现方式中,BMC以及CPU设置于相同的计算设备中,目标内存通道为计算设备中的任一个内存通道。
[0013]本申请第二方面提供了一种处理内存故障的方法:
[0014]若目标内存通道的可纠正故障数量大于目标内存通道可提供的PCLS的次数,CPU接收来自BMC的第一指示信息,可纠正故障数量为目标内存通道在预设时长内产生的可纠正故障的总数。CPU根据第一指示信息将可纠正故障所在的bank进行隔离。
[0015]在一种可能的实现方式中,若可纠正故障数量小于或等于目标内存通道可提供的PCLS的次数,CPU接收来自BMC的第二指示信息。CPU根据第二指示信息将可纠正故障所在的cell进行隔离。
[0016]在一种可能的实现方式中,预设时长为500毫秒。
[0017]在一种可能的实现方式中,BMC以及CPU设置于相同的计算设备中,目标内存通道为计算设备中的任一个内存通道。
[0018]本申请第三方面提供了一种BMC:
[0019]包括获取单元,用于获取目标内存通道的可纠正故障数量以及可提供的PCLS的次数,可纠正故障数量为目标内存通道在预设时长内产生的可纠正故障的总数。
[0020]发送单元,用于若可纠正故障数量大于所述目标内存通道可提供的PCLS的次数,则向中央处理器CPU发送第一指示信息,第一指示信息用于指示CPU将可纠正故障所在的bank进行隔离。
[0021]在一种可能的实现方式中,发送单元还用于若可纠正故障数量小于或等于目标内存通道可提供的PCLS的次数,则向CPU发送第二指示信息,第二指示信息用于指示CPU将可纠正故障所在的cell进行隔离。
[0022]在一种可能的实现方式中,获取单元具体用于根据在预设时长内来自CPU的可纠正故障信息的数量获取可纠正故障数量,可纠正故障信息用于指示目标内存通道产生了一个可纠正故障。
[0023]在一种可能的实现方式中,预设时长为500毫秒。
[0024]在一种可能的实现方式中,BMC以及CPU设置于相同的计算设备中,目标内存通道为计算设备中的任一个内存通道。
[0025]本申请第四方面提供了一种CPU:
[0026]包括接收单元,用于若目标内存通道的可纠正故障数量大于目标内存通道可提供的PCLS的次数,接收来自BMC的第一指示信息,可纠正故障数量为目标内存通道在预设时长内产生的可纠正故障的总数。
[0027]处理单元,用于根据第一指示信息将可纠正故障所在的bank进行隔离。
[0028]在一种可能的实现方式中,接收单元还用于若可纠正故障数量小于或等于目标内存通道可提供的PCLS的次数,接收来自BMC的第二指示信息;
[0029]处理单元,还用于CPU根据第二指示信息将可纠正故障所在的cell进行隔离。
[0030]在一种可能的实现方式中,预设时长为500毫秒。
[0031]在一种可能的实现方式中,BMC以及CPU设置于相同的计算设备中,目标内存通道为计算设备中的任一个内存通道。
[0032]本申请第五方面提供了一种计算设备,包括内存、CPU、存储芯片以及BMC,CPU与内存、存储芯片以及BMC连接,存储芯片中存储有BIOS,CPU用于运行BIOS,BMC用于根据目标内存通道的可纠正故障数量大于可提供的PCLS的次数,向CPU发送第一指示信息,CPU用于根据第一指示信息将可纠正故障所在的bank进行隔离,可纠正故障数量为目标内存通道在预设时长内产生的可纠正故障的总数。
[0033]在一种可能的实现方式中,BMC还用于根据可纠正故障数量小于或等于目标内存通道可提供的PCLS的次数,向CPU发送第二指示信息,第二指示信息用于指示CPU将可纠正故障所在的cell进行隔离。
[0034]在一种可能的实现方式中,目标内存通道为计算设备中的任一个内存通道。
[0035]本申请第六方面提供了一种BMC,包括处理器,处理器与存储器耦合,存储器用于存储指令,当指令被所述处理器执行时,使得BMC执行如第一方面中的方法。
[0036]本申请第七方面提供了一种CPU,包括处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理内存故障的方法,其特征在于,包括:基板管理控制器BMC获取目标内存通道的可纠正故障数量以及可提供的部分缓存线路保留PCLS的次数,所述可纠正故障数量为所述目标内存通道在预设时长内产生的可纠正故障的总数;若所述可纠正故障数量大于所述目标内存通道可提供的PCLS的次数,则所述BMC向中央处理器CPU发送第一指示信息,所述第一指示信息用于指示所述CPU将所述可纠正故障所在的bank进行隔离。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述可纠正故障数量小于或等于所述目标内存通道可提供的PCLS的次数,则所述BMC向所述CPU发送第二指示信息,所述第二指示信息用于指示所述CPU将所述可纠正故障所在的cell进行隔离。3.根据权利要求1或2所述的方法,其特征在于,所述BMC获取目标内存通道的可纠正故障数量包括:所述BMC根据在所述预设时长内来自所述CPU的可纠正故障信息的数量获取所述可纠正故障数量,所述可纠正故障信息用于指示所述目标内存通道产生了一个所述可纠正故障。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述预设时长为500毫秒。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述BMC以及所述CPU设置于相同的计算设备中,所述目标内存通道为所述计算设备中的任一个内存通道。6.一种处理内存故障的方法,其特征在于,包括:若目标内存通道的可纠正故障数量大于所述目标内存通道可提供的PCLS的次数,...

【专利技术属性】
技术研发人员:韦炜玮鲍全洋张光彪李胜林祯
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1