一种基于大数据的硬盘故障预测系统及方法技术方案

技术编号:36600248 阅读:24 留言:0更新日期:2023-02-04 18:13
本发明专利技术公开了一种基于大数据的硬盘故障预测系统及方法,包括:硬盘数据采集模块、数据库、训练数据管理模块、硬盘筛选模块和硬盘故障预测模块,通过硬盘数据采集模块采集历史训练数据和硬盘的扇区计数变化数据,通过数据库存储采集到的所有数据,通过训练数据管理模块选择最佳间隔时间对训练数据进行采集,筛除部分训练数据,通过硬盘筛选模块建立硬盘故障概率预测模型,对硬盘故障概率进行预测,筛选出需要预测故障时间的硬盘,通过硬盘故障预测模块预测筛选出的硬盘的故障时间,对硬盘的维护时间进行规划,减少无效数据的输入加快了故障预测速度并减少了资源占用,帮助相关人员及时对即将发生故障的硬盘进行设备维护,减少了数据损失。据损失。据损失。

【技术实现步骤摘要】
一种基于大数据的硬盘故障预测系统及方法


[0001]本专利技术涉及硬盘故障预测
,具体为一种基于大数据的硬盘故障预测系统及方法。

技术介绍

[0002]随着互联网、云计算计数的不断发展,数据的存储需求与日俱增,大规模海量数据存储中心是必不可少的基础性设施,虽然新的存储介质例如SSD,已经在很多方面拥有了比硬盘更好的性能,但就目前来讲,其高昂的花费仍然使大部分数据中心难以负担,因此,大型数据中心依然会采用传统的机械硬盘作为存储介质,在服务器硬件故障中,硬盘故障占比达到48%以上,是影响服务器运行可靠性的重要因素,早在上个世纪九十年代,人们就意识到数据的宝贵性远胜于硬盘自身价值,渴望有种技术能对硬盘故障进行预测并实现相对安全的数据保护;
[0003]然而,针对硬盘故障问题,目前比较普遍的做法是收到故障告警后,由专业的运维人员对发生故障的硬盘进行干预、恢复,这种方式增加了人力运维的成本,并且依赖于运维人员的经验和技术,效率低且可靠性不足;另外,在对硬盘进行故障预测时还会出现以下问题:首先,通过采集大量硬盘SMART信息对硬盘故障进行预测,硬盘SMART信息含有很多特征,但并非所有特征都能反映故障预测结果,现有技术无法预先筛除部分无效特征以加快预测速度;其次,采集信息间隔时间不同,采集到的有效信息量不同,现有技术无法预先选择合适的间隔时间采集信息,无法有效提高训练数据采集的效率以进一步加快预测速度;最后,采用机器学习建模的方式对硬盘进行故障预测只能预测得到硬盘的故障概率,并不能预测硬盘剩余的可使用时间,无法帮助相关人员及时对硬盘进行维护以减少数据损失。
[0004]所以,人们需要一种基于大数据的硬盘故障预测系统及方法来解决上述问题。

技术实现思路

[0005]本专利技术的目的在于提供一种基于大数据的硬盘故障预测系统及方法,以解决上述
技术介绍
中提出的问题。
[0006]为了解决上述技术问题,本专利技术提供如下技术方案:一种基于大数据的硬盘故障预测系统,所述系统包括:硬盘数据采集模块、数据库、训练数据管理模块、硬盘筛选模块和硬盘故障预测模块;
[0007]所述硬盘数据采集模块的输出端连接所述数据库的输入端,所述数据库的输出端连接所述训练数据管理模块的输入端,所述训练数据管理模块的输出端连接所述硬盘筛选模块的输入端,所述硬盘筛选模块的输出端连接所述硬盘故障预测模块的输入端;
[0008]所述硬盘数据采集模块用于采集历史训练数据和硬盘的扇区计数变化数据;
[0009]所述数据库用于存储采集到的所有数据;
[0010]所述训练数据管理模块用于选择最佳间隔时间对训练数据进行采集,并筛除部分训练数据;
[0011]所述硬盘筛选模块用于建立硬盘故障概率预测模型,将按最佳间隔时间采集到的训练数据输入到预测模型中,得到硬盘概率预测结果,筛选出需要预测故障时间的硬盘;
[0012]所述硬盘故障预测模块用于预测筛选出的硬盘的故障时间,对硬盘的维护时间进行规划。
[0013]进一步的,所述硬盘数据采集模块包括扇区信息采集单元和训练数据采集单元;
[0014]所述扇区信息采集单元和训练数据采集单元的输出端连接所述数据库的输入端;
[0015]所述扇区信息采集单元用于采集硬盘重分配的扇区计数的实时变化数据;
[0016]所述训练数据采集单元用于采集硬盘的SMART属性特征数据以及以往设置的采集对应数据的间隔时间,将采集到的全部数据传输到所述数据库中。
[0017]进一步的,所述训练数据管理模块包括采集时间规划单元和数据筛除管理单元;
[0018]所述采集时间规划单元的输入端连接所述数据库的输出端,所述采集时间规划单元的输出端连接所述数据筛除管理单元的输入端;
[0019]所述采集时间规划单元用于分析并比较以往设置不同的训练数据采集间隔时间时,对硬盘故障概率预测结果影响度低的SMART属性特征数量,根据比较结果选择最佳间隔时间对训练数据进行采集;
[0020]所述数据筛除管理单元用于筛除对预测结果影响度低的SMART属性特征数据。
[0021]进一步的,所述硬盘筛选模块包括预测模型建立单元和扇区变化分析单元;
[0022]所述预测模型建立单元的输入端连接所述数据筛除管理单元的输出端,所述预测模型建立单元的输出端连接所述扇区变化分析单元的输入端;
[0023]所述预测模型建立单元用于建立硬盘故障概率预测模型,将筛除后并按最佳间隔时间采集到的训练数据输入到预测模型中,得到故障概率预测结果,设置故障概率阈值,筛选出需要预测故障时间的硬盘:故障概率超出阈值的硬盘,利用随机森林算法建立硬盘故障概率预测模型,提高了硬盘故障预测结果的准确度;
[0024]所述扇区变化分析单元用于分析筛选出的硬盘重分配的扇区计数,建立硬盘故障时间预测模型。
[0025]进一步的,所述硬盘故障预测模块包括故障时间预测单元和硬盘维护规划单元;
[0026]所述故障时间预测单元的输入端连接所述扇区变化分析单元的输出端,所述扇区变化分析单元的输出端连接所述硬盘维护规划单元的输入端;
[0027]所述故障时间预测单元用于依据硬盘故障时间预测模型对硬盘的故障时间进行预测;
[0028]所述硬盘维护规划单元用于根据预测结果规划对不同硬盘进行维护的时间。
[0029]一种基于大数据的硬盘故障预测方法,包括以下步骤:
[0030]Z1:采集历史训练数据和硬盘的扇区计数变化数据;
[0031]Z2:分析历史训练数据,判断以往设置的训练数据采集间隔时间的适应度,选择最佳间隔时间对训练数据进行采集,并筛除部分训练数据;
[0032]Z3:建立硬盘故障概率预测模型,将按最佳间隔时间采集到的训练数据输入到预测模型中,得到故障概率预测结果,筛选出需要预测故障时间的硬盘;
[0033]Z4:分析当前已采集到的硬盘重分配的扇区计数的实时变化数据,建立硬盘故障时间预测模型,对硬盘的故障时间进行预测;
[0034]Z5:对硬盘的维护时间进行规划。
[0035]进一步的,在步骤Z1中:在以往对随机一个型号的硬盘进行故障预测时:采集到输入到硬盘故障预测模型中的SMART属性特征数量为n,获取到共设置了k个不同的间隔时间对对应硬盘的SMART属性特征数据进行采集,间隔时间集合为t={t1,t2,

,ti,

,tk},采集到设置间隔时间为ti时:共采集了m次对应硬盘的SMART属性特征数据,获取到m次采集的随机一维SMART属性特征值集合为A={A1,A2,

,Am},在步骤Z2中:根据公式,Am},在步骤Z2中:根据公式计算m次采集到的对应SMART属性特征值的标准差si,其中,Aj表示随机一次采集的随机一维SMART属性特征值,根据相同计算方式得到n维SMART属性特征值的标准差集合为s={s1,s2,

,sn},设置标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的硬盘故障预测系统,其特征在于:所述系统包括:硬盘数据采集模块、数据库、训练数据管理模块、硬盘筛选模块和硬盘故障预测模块;所述硬盘数据采集模块的输出端连接所述数据库的输入端,所述数据库的输出端连接所述训练数据管理模块的输入端,所述训练数据管理模块的输出端连接所述硬盘筛选模块的输入端,所述硬盘筛选模块的输出端连接所述硬盘故障预测模块的输入端;所述硬盘数据采集模块用于采集历史训练数据和硬盘的扇区计数变化数据;所述数据库用于存储采集到的所有数据;所述训练数据管理模块用于选择最佳间隔时间对训练数据进行采集,并筛除部分训练数据;所述硬盘筛选模块用于建立硬盘故障概率预测模型,将按最佳间隔时间采集到的训练数据输入到预测模型中,得到硬盘概率预测结果,筛选出需要预测故障时间的硬盘;所述硬盘故障预测模块用于预测筛选出的硬盘的故障时间,对硬盘的维护时间进行规划。2.根据权利要求1所述的一种基于大数据的硬盘故障预测系统,其特征在于:所述硬盘数据采集模块包括扇区信息采集单元和训练数据采集单元;所述扇区信息采集单元和训练数据采集单元的输出端连接所述数据库的输入端;所述扇区信息采集单元用于采集硬盘重分配的扇区计数的实时变化数据;所述训练数据采集单元用于采集硬盘的SMART属性特征数据以及以往设置的采集对应数据的间隔时间,将采集到的全部数据传输到所述数据库中。3.根据权利要求1所述的一种基于大数据的硬盘故障预测系统,其特征在于:所述训练数据管理模块包括采集时间规划单元和数据筛除管理单元;所述采集时间规划单元的输入端连接所述数据库的输出端,所述采集时间规划单元的输出端连接所述数据筛除管理单元的输入端;所述采集时间规划单元用于分析并比较以往设置不同的训练数据采集间隔时间时,对硬盘故障概率预测结果影响度低的SMART属性特征数量,根据比较结果选择最佳间隔时间对训练数据进行采集;所述数据筛除管理单元用于筛除对预测结果影响度低的SMART属性特征数据。4.根据权利要求3所述的一种基于大数据的硬盘故障预测系统,其特征在于:所述硬盘筛选模块包括预测模型建立单元和扇区变化分析单元;所述预测模型建立单元的输入端连接所述数据筛除管理单元的输出端,所述预测模型建立单元的输出端连接所述扇区变化分析单元的输入端;所述预测模型建立单元用于建立硬盘故障概率预测模型,将筛除后并按最佳间隔时间采集到的训练数据输入到预测模型中,得到故障概率预测结果,设置故障概率阈值,筛选出需要预测故障时间的硬盘:故障概率超出阈值的硬盘;所述扇区变化分析单元用于分析筛选出的硬盘重分配的扇区计数,建立硬盘故障时间预测模型。5.根据权利要求4所述的一种基于大数据的硬盘故障预测系统,其特征在于:所述硬盘故障预测模块包括故障时间预测单元和硬盘维护规划单元;所述故障时间预测单元的输入端连接所述扇区变化分析单元的输出端,所述扇区变化
分析单元的输出端连接所述硬盘维护规划单元的输入端;所述故障时间预测单元用于依据硬盘故障时间预测模型对硬盘的故障时间进行预测;所述硬盘维护规划单元用于根据预测结果规划对不同硬盘进行维护的时间。6.一种基于大数据的硬盘故障预测方法,其特征在于:包括以下步骤:Z1:采集历史训练数据和硬盘的扇区计数变化数据;Z2:分析历史训练数据,判断以往设置的训练数据采集间隔时间的适应度,选择最佳间隔时间对训练数据进行采集,并筛除部分训练数据;Z3:建立硬盘故障概率预测模型,将按最佳间隔时间采集到的训练数据输入到预测模型中,得到故障概率预测结果,筛选出需要预测故障时间的硬盘;Z4:分析当前已采集到的硬盘重分配的扇区计数的实时变化数据,建立硬盘故障时间预测模型,对硬盘的故障时间进行预测;Z5:对硬盘的维护时间进行规划。7.根据权利要求6所述的一种基于大数据的硬盘故障预测方法,其特征在于:在步骤Z1中:在以往对随机一个型号的硬盘进行故障预测时:采集到输入到硬盘故障预测模型中的SMART属性特征数量为n,获取到共设置了k个不同的间隔时间对对应硬盘的SMART属性特征数据进行采集,间隔时间集合为t={t1,t2,

,ti,

,tk},采集到设置间隔时间为ti时:共采集了m次对应硬盘的SMART属性特征数据,获取到m次采集的随机一维SMART属性特征值集合为A={A1,A2,
...

【专利技术属性】
技术研发人员:李卓兵李庆博汪恒
申请(专利权)人:江苏臻云技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1