一种处理极端不平衡数据的磁盘故障预测方法及装置制造方法及图纸

技术编号:37177833 阅读:7 留言:0更新日期:2023-04-20 22:45
本申请公开了一种处理极端不平衡数据的磁盘故障预测方法及装置,方法包括获取磁盘的日志数据,并对磁盘的日志数据进行预处理;基于预设时间间隔对经过预处理后的磁盘的日志数据进行划分处理,并从经过划分处理后的磁盘的日志数据中提取出第一特征集合;基于密度聚类算法对第一特征集合进行聚类处理,并对经过聚类处理后的第一特征集合进行欠采样处理,得到第二特征集合;根据第二特征集合预测出磁盘在下一时刻的特征集合,并基于磁盘在下一时刻的特征集合确定出磁盘的故障信息。通过在极端不平衡数据下学习磁盘发生故障的规律,并在真实生产环境中较为精确地对磁盘故障进行预测,从而提高运维工作的计划性。从而提高运维工作的计划性。从而提高运维工作的计划性。

【技术实现步骤摘要】
一种处理极端不平衡数据的磁盘故障预测方法及装置


[0001]本申请属于软件开发
,特别的涉及一种处理极端不平衡数据的磁盘故障预测方法及装置。

技术介绍

[0002]随着大数据时代的到来,数字数据的价值愈发提升,世界上大部分数据都存储在磁盘上,这种海量的数据存储方式使得磁盘的稳定性面临着巨大的挑战。一旦磁盘出现故障,存储的数据就可能永远丢失,基于此如何准确的预测磁盘故障,对提高数据中心的可靠性具有重要意义。
[0003]按照1%的年故障率,在一年的数据集下故障磁盘与正常磁盘的比例约为1:100,并且故障磁盘只在故障发生当天的记录为异常,在故障之前的记录均为正常记录,这大大加剧了数据的不平衡程度。在Backblaze公开数据集中,故障记录数与正常记录数的比例约为1:30000,存在极端不平衡问题。
[0004]现阶段的磁盘故障预测方法在处理这种数据极端不平衡问题时,通常采用欠采样与过采样的方法,然而,简单过采样只是单纯的重复了正例,有放大噪声的风险,并且会增加过拟合的程度。对于SMOTE等过采样方法容易产生分布边缘化问题,从而模糊了正负样本间的边界,加大了分类的难度。对于简单欠采样算法抛弃了大部分反例(多例),导致模型偏差较大。对于一些改进的欠采样算法,把多例分成不重叠的N份,分别与少例组合、训练N个模型并组合,该算法虽然不会造成信息损失,但训练多个模型开销大,同时也存在过拟合的风险。

技术实现思路

[0005]本申请为解决上述提到的现阶段的磁盘故障预测方法中,欠采样与过采样的方法有放大噪声的风险,并且会增加过拟合的程度、模糊了正负样本间的边界,加大了分类的难度以及存在过拟合的风险等技术缺陷,提出一种处理极端不平衡数据的磁盘故障预测方法及装置,其技术方案如下:第一方面,本申请实施例提供了一种处理极端不平衡数据的磁盘故障预测方法,包括:获取磁盘的日志数据,并对磁盘的日志数据进行预处理;基于预设时间间隔对经过预处理后的磁盘的日志数据进行划分处理,并从经过划分处理后的磁盘的日志数据中提取出第一特征集合;基于密度聚类算法对第一特征集合进行聚类处理,并对经过聚类处理后的第一特征集合进行欠采样处理,得到第二特征集合;根据第二特征集合预测出磁盘在下一时刻的特征集合,并基于磁盘在下一时刻的特征集合确定出磁盘的故障信息。
[0006]在第一方面的一种可选方案中,对磁盘的日志数据进行预处理,包括:
判断磁盘的日志数据是否存在缺失的数据;当确定磁盘的日志数据中存在缺失的数据时,对缺失的数据进行均值插补处理,;对经过均值插补处理后的磁盘的日志数据进行归一化处理。
[0007]在第一方面的又一种可选方案中,从经过划分处理后的磁盘的日志数据中提取出第一特征集合,包括:从与每个时间间隔对应的磁盘的日志数据中确定出属于相同属性的特征值,并按照预设权重以及每个属于相同属性的特征值,计算出每个属性的权重特征值;从任意两个连续时间间隔所对应的磁盘的日志数据中分别确定出属于相同属性的特征值,并对两个属于相同属性的特征值进行差值计算,计算出每个属性的差值特征值;将每个属性的权重特征值以及每个属性的差值特征值作为第一特征集合。
[0008]在第一方面的又一种可选方案中,在将每个属性的权重特征值以及每个属性的差值特征值作为第一特征集合之前,还包括:从每个属于相同属性的特征值中确定出每个属性的最大特征值以及每个属性的最小特征值;对每个属于相同属性的特征值进行均值计算,得到每个属性的均值特征值;对每个属于相同属性的特征值进行方差计算,得到每个属性的方差特征值;将每个属性的权重特征值以及每个属性的差值特征值作为第一特征集合,包括:将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值以及每个属性的方差特征值作为第一特征集合。
[0009]在第一方面的又一种可选方案中,在将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值以及每个属性的方差特征值作为第一特征集合之前,还包括:从任意两个连续时间间隔所对应的磁盘的日志数据中分别确定出属于相同属性的特征值,并根据两个属于相同属性的特征值所对应的坐标进行斜率计算,得到每个属性的斜率特征值;在每个属于相同属性的特征值中确定出数值处于连续增长的特征值个数,并将特征值个数作为每个属性的连续增长特征值;将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值以及每个属性的方差特征值作为第一特征集合,包括:将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值、每个属性的方差特征值、每个属性的斜率特征值以及每个属性的连续增长特征值作为第一特征集合。
[0010]在第一方面的又一种可选方案中,在将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值、每个属性的方差特征值、每个属性的斜率特征值以及每个属性的连续增长特征值作为第一特征集合之前,还包括:在与每个时间间隔对应的磁盘的日志数据中确定出第一属性的特征值以及第二
属性的特征值;按照预设组合方式对第一属性的特征值以及第二属性的特征值进行组合计算,得到组合特征值;将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值、每个属性的方差特征值、每个属性的斜率特征值以及每个属性的连续增长特征值作为第一特征集合,包括:将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值、每个属性的方差特征值、每个属性的斜率特征值、每个属性的连续增长特征值以及组合特征值作为第一特征集合。
[0011]在第一方面的又一种可选方案中,基于密度聚类算法对第一特征集合进行聚类处理,并对经过聚类处理后的第一特征集合进行欠采样处理,得到第二特征集合,包括:基于密度聚类算法对第一特征集合进行聚类处理,得到至少两个类簇;其中,每个类簇包括至少两个特征值;对第一特征集合中至少两个类簇所包括的所有特征值进行剔除处理,得到第三特征集合;按照预设比例对至少两个类簇以及第三特征集合进行合并处理,得到第二特征集合。
[0012]在第一方面的又一种可选方案中,根据第二特征集合预测出磁盘在下一时刻的特征集合,包括:将第二特征集合输入至训练后的第一神经网络中,预测出故障磁盘所对应的特征集合;确定出与故障磁盘所对应的特征集合的数量一致的样本特征集合,并按照预设时刻间隔对故障磁盘所对应的特征集合以及样本特征集合进行划分处理;将经过划分处理后的故障磁盘所对应的特征集合以及样本特征集合进行编码处理,并将经过编码处理后的故障磁盘所对应的特征集合以及样本特征集合输入至训练后的第二神经网络中,预测出磁盘在下一时刻的特征集合。
[0013]第二方面,本申请实施例提供了一种处理极端不平衡数据的磁盘故本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理极端不平衡数据的磁盘故障预测方法,其特征在于,包括:获取磁盘的日志数据,并对所述磁盘的日志数据进行预处理;基于预设时间间隔对经过预处理后的所述磁盘的日志数据进行划分处理,并从经过划分处理后的所述磁盘的日志数据中提取出第一特征集合;基于密度聚类算法对所述第一特征集合进行聚类处理,并对经过聚类处理后的所述第一特征集合进行欠采样处理,得到第二特征集合;根据所述第二特征集合预测出磁盘在下一时刻的特征集合,并基于所述磁盘在下一时刻的特征集合确定出磁盘的故障信息。2.根据权利要求1所述的方法,其特征在于,所述对所述磁盘的日志数据进行预处理,包括:判断所述磁盘的日志数据是否存在缺失的数据;当确定所述磁盘的日志数据中存在缺失的数据时,对所述缺失的数据进行均值插补处理;对经过均值插补处理后的所述磁盘的日志数据进行归一化处理。3.根据权利要求1所述的方法,其特征在于,所述从经过划分处理后的所述磁盘的日志数据中提取出第一特征集合,包括:从与每个时间间隔对应的所述磁盘的日志数据中确定出属于相同属性的特征值,并按照预设权重以及每个所述属于相同属性的特征值,计算出每个属性的权重特征值;从任意两个连续时间间隔所对应的所述磁盘的日志数据中分别确定出属于相同属性的特征值,并对两个所述属于相同属性的特征值进行差值计算,计算出每个属性的差值特征值;将所述每个属性的权重特征值以及所述每个属性的差值特征值作为第一特征集合。4.根据权利要求3所述的方法,其特征在于,在所述将所述每个属性的权重特征值以及所述每个属性的差值特征值作为第一特征集合之前,还包括:从每个所述属于相同属性的特征值中确定出每个属性的最大特征值以及每个属性的最小特征值;对每个所述属于相同属性的特征值进行均值计算,得到每个属性的均值特征值;对每个所述属于相同属性的特征值进行方差计算,得到每个属性的方差特征值;所述将所述每个属性的权重特征值以及所述每个属性的差值特征值作为第一特征集合,包括:将所述每个属性的权重特征值、所述每个属性的差值特征值、所述每个属性的最大特征值、所述每个属性的最小特征值、所述每个属性的均值特征值以及所述每个属性的方差特征值作为第一特征集合。5.根据权利要求4所述的方法,其特征在于,在所述将所述每个属性的权重特征值、所述每个属性的差值特征值、所述每个属性的最大特征值、所述每个属性的最小特征值、所述每个属性的均值特征值以及所述每个属性的方差特征值作为第一特征集合之前,还包括:从任意两个连续时间间隔所对应的所述磁盘的日志数据中分别确定出属于相同属性的特征值,并根据两个所述属于相同属性的特征值所对应的坐标进行斜率计算,得到每个属性的斜率特征值;
在每个所述属于相同属性的特征值中确定出数值处于连续增长的特征值个数,并将所述特征值个数作为每个属性的连续增长特征值;所述将所述每个属性的权重特征值、所述每个属性的差值特征值、所述每个属性的最大特征值、所述每个属性的最小特征值、所述每个属性的均值特征值以及所述每个属性的方差特征值作为第一特征集合,包括:将所述每个属性的权重特征值、所述每个属性的差值特征值、所述每个属性的最大特征值、所述每个属性的最小特征值、所述每个属性的均值特征值、所述每个属性的方差特征值、所述每个属性的斜率特征值以及所述每个属性的连续增长特征值作为第一特征集合。6.根据权利要求5所述的方法,其特征在于,在所述将所述每个属性的权重特征值、所述每个属性的差值特征值、所述每个属性的最大特征值、所述每...

【专利技术属性】
技术研发人员:张涛程咏阳江峰
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1