基于固件的固态驱动器块故障预测和避免方案制造技术

技术编号:28218125 阅读:35 留言:0更新日期:2021-04-28 09:35
公开了一种固态驱动器(SSD)。SSD可以包括用于数据的闪存,所述闪存被组织成多个块。控制器可以管理从闪存读取数据和向闪存写入数据。元数据存储器可以存储基于设备的日志数据以防止SSD中的错误。识别固件可以响应于基于设备的日志数据来识别块。在本发明专利技术构思的一些实施例中,验证固件可以响应于精确的基于块的数据和基于设备的日志数据两者来确定可疑块是否被预测发生故障。是否被预测发生故障。是否被预测发生故障。

【技术实现步骤摘要】
基于固件的固态驱动器块故障预测和避免方案
[0001]相关申请的交叉引用
[0002]本申请要求2019年10月25日提交的美国临时专利申请序列号62/926,420的权益,出于所有目的通过引用将其合并于此。


[0003]本专利技术构思总体上涉及存储设备,并且更具体地涉及提供细粒度的块故障预测。

技术介绍

[0004]现场的NAND闪存固态驱动器(SSD)故障可能导致服务器关闭,从而损害数据中心级应用的性能和可用性。为了防止此类意外故障,采用SSD的系统通常使用基于阈值的简单模型,通过在故障发生之前更换驱动器来避免此类故障。这种保护机制可能导致高的错误警报度,或者无法预测/避免所有SSD故障。此外,在发生物理错误的情况下,SSD无法从错误中恢复,因此避免了设备故障。
[0005]仍然需要提供细粒度的块故障预测。

技术实现思路
附图说明
[0006]图1示出了根据本专利技术构思的实施例的包括可以执行细粒度块故障预测的固态驱动器(SSD)的系统。
[0007]图2示出了图1的机器的细节。
[0008]图3示出了图1的SSD的细节。
[0009]图4示出了可由图1的SSD使用的示例的基于块的数据。
[0010]图5示出了可由图1的SSD使用的基于设备的日志数据。
[0011]图6示出了图3的识别固件和验证固件进行操作以确定特定块是否被预期故障。
[0012]图7A

7B示出了根据本专利技术构思的实施例的确定块是否被预期失败的示例过程的流程图。
具体实施方式
[0013]现在将详细参考本专利技术构思的实施例,其示例在附图中示出。在下面的详细描述中,阐述了许多具体细节以使得能够全面理解本专利技术构思。然而,应当理解,本领域普通技术人员可以在没有这些具体细节的情况下实践专利技术构思。在其他情况下,未详细描述公知的方法、过程、组件、电路和网络,以免不必要地使实施例的各方面不清楚。
[0014]将理解的是,尽管在本文中可以使用术语第一、第二等来描述各种元件,但是这些元件不应受到这些术语的限制。这些术语仅用于区分一个元件和另一个元件。例如,在不脱离本专利技术构思的范围的情况下,第一模块可以被称为第二模块,并且类似地,第二模块可以
被称为第一模块。
[0015]在本文的专利技术概念的描述中使用的术语仅出于描述特定实施例的目的,并且不旨在限制本专利技术概念。如在专利技术构思和所附权利要求书的描述中所使用的,单数形式“一个”、“一种”和“该”也旨在包括复数形式,除非上下文另外明确指出。还应理解,本文所用的术语“和/或”是指并涵盖一个或多个相关联所列项目的任何和所有可能的组合。还将理解的是,当在本说明书中使用术语“包括”和/或“包括”时,其指定了所述特征、整数、步骤、操作、元件和/或组件的存在,但并不排除存在或一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组的添加。附图的组件和特征不一定按比例绘制。
[0016]提出了一种基于固件的固态驱动器(SSD)故障保护机制,用于早期检测和错误隔离。该故障机制可以避免驱动器发生故障,或者至少防止过早更换驱动器。
[0017]SSD包含多个闪存芯片,每个闪存芯片包含许多块。一个块可以包含任意数量的页面。页面的大小通常为几千字节,并且通常是用于向SSD读取和写入数据的最小单位。SSD控制器(固件)可包括服务读取和写入请求、运行耗损均衡算法以及运行错误恢复过程所需的所有逻辑。
[0018]每个SSD页面可以包括错误校正码(ECC)元数据,SSD控制器可使用该错误校正码元数据来恢复和修复有限数量的位错误(通常为1

2位错误)。但是,如果由于硬件故障而导致的位错误数超过一定数目,则SSD控制器可能无法纠正错误,因此会将损坏的数据提供给主机。如果多次发生此类故障,则可能需要选择整个设备进行更换,这会给设备制造商带来高昂的成本,并由于服务器随后关闭而损害应用的性能和可用性。
[0019]另一方面,当将数据写入闪存页面(编程操作)时,如果发生错误,则该页面将标记为“故障”,并且不再使用。一旦某个块中的某些页面故障,整个块将被淘汰。SSD通常会保留一些备用块来替换此类已撤回的块。如果SSD的可用备用块数量不足(例如,使用的备用块超过90%),则可能需要更换设备。
[0020]在某些情况下,驱动器中的大多数块都可以正常运行(正常块),而其中只有一小部分是故障(坏块)。如果读取操作针对的是坏块并且经常失败(读取损坏的数据或由于硬件故障而导致读取失败),则可能需要更换整个驱动器,以防止将来发生故障并避免数据丢失。但是,如果可以尽早预测出细粒度的块错误/故障并随后避免/恢复,则可以淘汰/撤回坏块,这将防止SSD在这些块上存储数据,从而避免进一步的故障和数据损坏/丢失。
[0021]预测SSD(具有数千个块)中的细粒度(块级)错误/故障并不简单,并且需要(i)存储与每个块相对应的大量历史(时间序列)数据,以及(ii)处理/分析非常大的数据集来预测和避免故障。关于所需的历史数据量,无论此类元数据信息是存储在SSD上的DRAM空间中还是闪存本身中,要存储的数据量都随着故障历史信息的增长而增长。存储此信息可能会导致很高的存储成本,甚至可能会牺牲驱动器的大部分容量。由于存储设备只包含有限数量的DRAM,并且对其每GB的价格高度敏感,因此数据存储需求并非微不足道,牺牲设备的大量存储容量来存储此类故障时间系列数据也不是简单货有效的方法。
[0022]关于进行预测所需的处理,SSD通常具有有限的处理能力,这主要用于其内部操作(例如闪存转换层、损耗均衡和调度)。在SSD内部处理大量数据以预测块级故障/错误并非简单可行。
[0023]为了解决关于块级故障预测的上述挑战,本专利技术构思的实施例利用了每个块和/
或每个块内的页面中的物理错误的时间和空间局部性(locality)。时间局部性是指在同一物理页面和/或块中频繁发生错误;空间局部性是指在相邻物理部分(例如页面或块)中发生错误。通过利用发生错误的局部性,只需要与过去的几个错误关联的非常有限的数据(而不是设备的错误历史记录),就可以将其用于预测块故障。这种想法的直觉是,已生成错误数据的页面/块将来很有可能会生成错误。同样,当一个块中的页面发生故障时,同一块中的相邻页面很可能会产生错误,因为它们都在同一物理组件中。
[0024]预测块级故障
[0025]如上所述,由于其容量和处理要求,预测块级故障并不容易。一种简单的方法是使用与数千个块相对应的细粒度历史日志数据来进行准确的预测,但是此数据集的大小会随时间增长,并且可能会使用户数据的存储变小。相反,本专利技术构思的实施例使用两步识别和验证机制来定位可疑块,然后使用基于学习的模型来验证块的未来故障。
[0026]首先,利用物理错误中的局部性来识别可疑驱动器,仅需要存储最近的错误信息。例如,在驱动器的整个操作过程中,仅保留错误历史的最后k个条目(即k个最近的事件),本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种固态驱动器(SSD),包括:用于数据的闪存,所述闪存被组织成多个块;控制器,用于管理从闪存读取数据和向闪存写入数据;元数据存储器,用于存储基于设备的日志数据以防止SSD中的错误;和识别固件,在处理器上执行,该识别固件可操作地用于响应于基于设备的日志数据来识别多个块中的可疑块。2.根据权利要求1所述的SSD,其中,所述元数据存储器仅针对所述SSD中的最新一组错误存储基于设备的日志数据。3.根据权利要求2所述的SSD,其中:元数据存储器进一步可操作地用于存储关于SSD中的错误的精确的基于块的数据;和SSD还包括在处理器上执行的验证固件,该验证固件可操作地用于响应于基于精确块的数据和基于设备的日志数据来确定可疑块是否被预测发生故障。4.根据权利要求3所述的SSD,其中,仅对所述可疑块执行所述验证固件。5.根据权利要求3所述的SSD,其中,所述验证固件可操作地响应于所述精确的基于块的数据和所述基于设备的日志数据而退回所述可疑块。6.根据权利要求3所述的SSD,其中,所述验证固件对所述精确的基于块的数据和所述基于设备的日志数据实施随机森林、逻辑回归、离群值检测分析和异常检测分析之一。7.根据权利要求2所述的SSD,其中,所述识别固件可操作地从所述基于设备的日志数据中得出近似基于块的数据。8.根据权利要求2所述的SSD,其中,所述SSD可操作地周期性地执行所述识别固件。9.一种方法,包括:跟踪固态驱动器(SSD)中的错误,该SSD包括多个块;将关于错误的基于设备的日志数据存储在SSD中;和响应于基于设备的日志数据,识别多个块中的可疑块。10.根据权利要求9所述的方法,其中将关于错误的基于设备的日志数据存储在SSD中包括仅将针对最近一组错误的基于设备的日志数据存储在所述SSD中。11.根据权利要求10所述的方法,还包括:将有关错误的精确的基于块的数据存储在SSD中;和一旦识别了可疑块,就响应于精确的基于块的数据和基于设备的日志数据两者,确定可疑块是否被预测发生故障。12.根据权利要求11所述的方法,其中...

【专利技术属性】
技术研发人员:N埃亚西崔昌皓
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1