System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于数据存储领域,尤其是涉及面向低质量数据集的硬盘故障预测及数据迁移方法。
技术介绍
1、当今,硬盘是计算机中最主要的存储设备,许多数据中心依靠大量硬盘来存储重要信息。在一些应用大规模存储系统的场景中,例如高性能计算和互联网服务,硬盘故障的发生十分频繁。相关文献的调查显示,78%的硬件更换是由硬盘故障引起的。硬盘故障造成的灾难性后果是永久性的,并且难以恢复,从而数据中心的可靠性降低。因此,尽早预测磁盘故障不仅可以降低数据丢失的风险,还可以降低数据恢复的成本。
2、smart(self-monitoring analysis and reporting technology)在20世纪90年代被提出,这项技术可检测硬盘内部的各种工作信息,如硬盘读写次数、磁头加载卸载次数、寻道错误率等。传统的基于阈值的硬盘故障技术将硬盘当前的smart属性与设定的阈值进行比较,如果硬盘的smart属性超过相应的阈值,硬盘就会发出警报信息给操作系统。但是,这种方法在fpr(false positive rate)为0.1%的情况下,只有3%至10%的 tpr(truepositive rate)。过去几十年,不少学者采用机器学习和深度学习技术提出多种方法来提高故障预测的准确率,包括使用long short-term memory(lstm),generativeadversarial network(gan),regularized greedy forest(rgf),temporalconvolutional network
3、在实际的工业应用时,硬盘smart数据的采集、传输、存储等过程中都有可能因客观或主观的原因丢失部分数据。例如,在数据采集过程中可能发生各种错误,例如传感器错误、数据传输错误、设备故障等,这些错误会导致数据集中出现不准确或不完整的数据。又例如,某大规模数据中心在节假日期间必须关闭smart采集功能。另外,运维工程师为了阻止自己被智能运维软件替代,通过破坏样本数据以降低硬盘故障预测技术的准确性。如何在低质量数据集条件下仍能取得良好的预测效果,成为硬盘故障预测技术在实际工程应用中需要解决的重要问题。
4、在面对低质量数据集时,现有技术往往采用填充众数的方法,虽然实现简单,但是硬盘故障预测的准确率不足,与此同时,现有技术没有考虑硬盘数据的时序性问题,硬盘发生故障不是在某个瞬间突然发生故障,而是一个逐渐变化的过程。
技术实现思路
1、有鉴于此,本专利技术旨在提出面向低质量数据集的硬盘故障预测及数据迁移方法,以期解决上述部分技术问题中的至少之一。
2、为达到上述目的,本专利技术的技术方案是这样实现的:
3、面向低质量数据集的硬盘故障预测及数据迁移方法,包括如下步骤:
4、获取硬盘的smart信息得到信息集,对所述信息集进行正负样本标记,并将丢失数据的信息集作为原始数据集;
5、对所述原始数据集进行无用数据清理操作并进行欠采样处理;
6、对所述原始数据集进行缺失值填充将缺失值填充后的原始数据集转化为时间序列数据,并引入asfd特征;
7、构建并训练预测模型,将时间序列数据及对应的asfd特征输入预测模型中得到硬盘故障的预测结果;
8、根据预测结果识别濒临故障的硬盘,并基于二部图最大匹配策略和修复调度策略完成对故障硬盘的迁移修复。
9、进一步的,对所述信息集进行正负样本标记的过程包括:
10、获取硬盘故障情况,将硬盘故障前一时间段内的信息集标记为正样本,将其余时间下的信息集标记为负样本。
11、进一步的,所述对原始数据集进行无用数据清理操作并进行欠采样处理的过程包括:
12、获取硬盘中固定不变的数据,并将其视为无用数据从原始数据集中清除;根据原始数据集中标记为正样本的信息集的数量,选取对应数量的负样本信息集,并将其余负样本信息集清除。
13、进一步的,所述对原始数据集进行缺失值填充的过程包括:
14、获取当前硬盘的硬盘型号,采集具有相同硬盘型号的所有硬盘的smart信息,作为填充集;
15、获取当前硬盘中丢失数据对应的smart项,作为缺失集;
16、提取所述填充集与所述缺失集的交集中,各个smart项的众数,将所述众数作为丢失数据进行填充。
17、进一步的,所述引入asfd特征的过程包括:
18、遍历所述时间序列中的每一个元素,计算当前元素与前一个元素之间的差值,其中,所述元素为转换为时间序列的硬盘smart信息;
19、对所述差值取绝对值,并将每一个元素对应的绝对值相加得到asfd值,并将所述asfd值添加至原始数据集中,其中,每个asfd值分别对应一个smart项。
20、进一步的,所述构建并训练预测模型的过程包括:
21、使用lgb算法对所述预测模型进行训练,并使用optuna框架获取预测模型的最优超参数。
22、进一步的,所述基于二部图最大匹配策略和修复调度策略完成对故障硬盘的迁移修复的过程包括:
23、根据所述二部图最大匹配策略,将硬盘中各个数据块分配至多个重建集中,且重建集具备并行重建的能力,并根据所述修复调度策略,最大化每次迁移重建中数据块的数量。
24、相对于现有技术,本专利技术所述的面向低质量数据集的硬盘故障预测及数据迁移方法具有以下有益效果:
25、在低质量硬盘smart的情况下,达到较高的硬盘故障预测准确率,并且能够提前对濒临故障硬盘的数据进行主动迁移和修复。
本文档来自技高网...【技术保护点】
1.面向低质量数据集的硬盘故障预测及数据迁移方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的面向低质量数据集的硬盘故障预测及数据迁移方法,其特征在于,对所述信息集进行正负样本重建的过程包括:
3.根据权利要求1所述的面向低质量数据集的硬盘故障预测及数据迁移方法,其特征在于,所述对原始数据集进行无用数据清理操作并进行欠采样处理的过程包括:
4.根据权利要求1所述的面向低质量数据集的硬盘故障预测及数据迁移方法,其特征在于,所述对原始数据集进行缺失值填充的过程包括:
5.根据权利要求1所述的面向低质量数据集的硬盘故障预测及数据迁移方法,其特征在于,所述引入ASFD特征的过程包括:
6.根据权利要求1所述的面向低质量数据集的硬盘故障预测及数据迁移方法,其特征在于,所述构建并训练预测模型的过程包括:
7.根据权利要求1所述的面向低质量数据集的硬盘故障预测及数据修复方法,其特征在于,所述基于二部图最大匹配策略和修复调度策略完成对故障硬盘的迁移修复的过程包括:
【技术特征摘要】
1.面向低质量数据集的硬盘故障预测及数据迁移方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的面向低质量数据集的硬盘故障预测及数据迁移方法,其特征在于,对所述信息集进行正负样本重建的过程包括:
3.根据权利要求1所述的面向低质量数据集的硬盘故障预测及数据迁移方法,其特征在于,所述对原始数据集进行无用数据清理操作并进行欠采样处理的过程包括:
4.根据权利要求1所述的面向低质量数据集的硬盘故障预测及数据迁移方法,其特征在于,所...
【专利技术属性】
技术研发人员:杨洪章,屠趁锋,高军,王平,马萌,卢晓雨,
申请(专利权)人:天津理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。