面向超大规模存储系统性能异常降级问题的自动鉴别方法技术方案

技术编号:27803935 阅读:13 留言:0更新日期:2021-03-30 09:07
本发明专利技术公开一种面向超大规模存储系统性能异常降级问题的自动鉴别方法,基于以下配置:故障总控模块,用于提供存储系统状态的整体视图,并通过查询故障数据库获取文件系统的故障信息,并发送到存储系统的总信息库;故障探测模块,用于判断当前存储系统是否有故障,如果没有故障,则返回状态正常,如果有故障,将当前存储设备的故障信息上报给驻留模块;设置于存储设备上的驻留模块,用于定时调用故障探测模块,对存储系统进行探测,并将接收自故障探测模块的故障信息规划后录入故障数据库,还用于将故障信息发送至故障总控模块。本发明专利技术实现了面向超大规模存储系统中性能降级设备的及时发现的报警,从而使大规模IO应用课题的存储性能得到保证。储性能得到保证。储性能得到保证。

【技术实现步骤摘要】
面向超大规模存储系统性能异常降级问题的自动鉴别方法


[0001]本专利技术涉及一种面向超大规模存储系统性能异常降级问题的自动鉴别方法,属于计算机


技术介绍

[0002]随着超大规模存储系统的快速发展,人们对系统的容量、性能要求不断提高的同时,大规模IO应用课题对存储系统性能有了更高的要求。而大规模数据应用课题往往采用读写需同步的方式进行,一个存储设备的性能异常,会导致整个系统性能的降级,从而系统的故障自动鉴别越来越受到关注。
[0003]传统的故障鉴别方式通常通过设备底层管理接口来监测硬件状态,当发现影响性能的硬件问题存在时,往往设备故障已经严重影响系统的整体性能;且发现问题后多采用被动的手工方式来进行处理,不但浪费人力和时间,也增加了人为错误发生的概率。因此,如何实现超大规模存储系统的自动故障鉴别,成为本领域技术人员努力的方向。

技术实现思路

[0004]本专利技术的目的是提供一种面向超大规模存储系统性能异常降级问题的自动鉴别方法,该面向超大规模存储系统性能异常降级问题的自动鉴别方法将系统中可能的故障及时统一采集上报,进行实时故障信息的获取和集中处理,实现了面向超大规模存储系统中性能降级设备的及时发现的报警,从而使大规模IO应用课题的存储性能得到保证。
[0005]为达到上述目的,本专利技术采用的技术方案是:一种面向超大规模存储系统性能异常降级问题的自动鉴别方法,基于以下配置:性能异常检测总控模块,用于提供存储系统性能的总体视图,其通过查询故障信息数据库,获取存储系统的故障信息,通过性能信息数据库获取存储系统当前的性能数据,最后通过自动对比规则确定当前存储系统中是否存在性能异常降级问题,形成存储系统性能的总体视图;配置于存储设备上的若干个插件式的检测模块,包括故障检查插件、性能采集插件;所述故障检查插件用于检查当前存储系统是否有故障,并将当前存储系统的故障信息上报给驻留模块;所述性能采集插件用于测试和采集当前存储系统设备的性能,并将性能数据上报给驻留模块;配置于存储系统所有存储设备上的若干个驻留模块,用于定时依次调用故障检查插件,对存储系统进行检测,并将接收自故障检查插件的故障信息按照“故障位置、故障时间、故障类型、故障级别”的格式录入故障信息数据库,还用于监控存储设备的忙闲状态,在存储设备空闲时调用性能采集插件,并将接收自性能采集插件的性能测试结果信息按照“采集位置、采集时间、测试类型、测试结果、结果类型”的格式录入性能信息数据库,还用于将故障信息发送至性能异常检测总控模块;
故障信息数据库,用于存储存储系统的故障信息;性能信息数据库,用于存储存储系统中存储设备的性能数据;包括以下步骤:S1、在存储设备上运行驻留模块,周期性调用故障检查插件,并实时监控存储设备的空闲状态,在存储设备空闲时,执行性能采集插件;S21、故障检查插件运行,检查其所对应的存储系统是否有故障,并将故障信息反馈给驻留模块;S22、驻留模块按照“故障位置、故障时间、故障类型、故障级别”的格式将故障信息写入故障信息数据库;S31、性能采集插件运行,执行特定测试,并将测试结果反馈给驻留模块;S32、驻留模块按照“采集位置、采集时间、测试类型、测试结果、结果类型”的格式将性能采集插件的测试结果写入性能信息数据库;S4、性能异常检测总控模块根据故障信息数据库与性能信息数据库中的数据,判断是否有存储设备出现了性能异常降级,做出判断的具体步骤如下:S41、根据故障信息数据库中的故障信息对性能信息数据库中的性能数据进行筛选,故障级别较高而会影响性能测试结果的设备对应的故障时间范围内的性能数据将不被采信而被删除;S42、对筛选后的性能数据,进行如下操作:S43、计算每个存储设备,每个测试项所获得性能的最低值;S44、计算每个存储设备,每个测试项所获得性能的最高值;S45、计算每个存储设备,每个测试项所获得性能的平均值;S46、对所有存储设备,确定每个测试项的最低值、最高值和平均值的平均值,并计算该测试项的最低值所对应的存储设备;S47、计算每个存储设备的性能间隔,即S44中获得的性能的最高值与S45中获得的性能的平均值,S43中获得的性能的最低值与S45中获得的性能的平均值之间的差值比例,如果差值比例小于设定的阈值,则认为所有存储设备正常,否则将若干个测试项各自最低值所对应的存储设备列入性能降级怀疑目标;S48、存储设备被列入性能降级怀疑目标后,在之后的测试中,如果连续三次差值比例均不小于所述设定的阈值,则将该存储设备列为性能降级设备;S49、所述设定的阈值随着设备使用时间的增加而逐步增加,初始阈值设置为10%,如果出现性能降级的设备占到总设备数量的1/3,则将阈值增加5%,阈值变化后,重新按照上述步骤进行数据测试、计算差值比例、确定性能降级设备,直至性能降级设备占总设备数量的比低于1/3。
[0006]上述技术方案中进一步改进的方案如下:1. 上述方案中,所述存储系统包括系统中的硬件存储设备和存储系统软件。
[0007]2. 上述方案中,在S1中,驻留模块周期性调用故障检查插件,获取故障与性能信息,对每个插件判断是否到达该插件的执行周期,如果达到执行周期,则执行该故障检查插件。
[0008]3. 上述方案中,在S41中,对影响性能数据的故障,如磁盘损坏数据校验恢复、端
口损坏,认为是故障级别较高,其它可容错故障,如单一电源故障,则认为是故障级别较低,不影响性能数据的可信性。
[0009]4. 上述方案中,在S47中,差值比例的计算公式为:1-(性能的平均值-性能的最低值)/(性能的最高值-性能的平均值)。
[0010]由于上述技术方案的运用,本专利技术与现有技术相比具有下列优点:本专利技术面向超大规模存储系统性能异常降级问题的自动鉴别方法,其通过综合采集各种存储调用的响应时间等参数和对比分析方法,集中收集不同设备性能数据,并将系统中可能的故障及时统一采集上报,进行实时故障信息的获取和集中处理,实现了面向超大规模存储系统中性能降级设备的及时发现的报警,从而使大规模IO应用课题的存储性能得到保证。
附图说明
[0011]附图1为本专利技术自动鉴别方法原理示意图;附图2为本专利技术自动鉴别方法流程图。
具体实施方式
[0012]实施例:一种面向超大规模存储系统性能异常降级问题的自动鉴别方法,基于以下配置:性能异常检测总控模块,用于提供存储系统性能的总体视图,其通过查询故障信息数据库,获取存储系统的故障信息,通过性能信息数据库获取存储系统当前的性能数据,最后通过自动对比规则确定当前存储系统中是否存在性能异常降级问题,形成存储系统性能的总体视图;配置于存储设备上的若干个插件式的检测模块,包括故障检查插件、性能采集插件;所述故障检查插件用于检查当前存储系统是否有故障,并将当前存储系统的故障信息上报给驻留模块;所述性能采集插件用于测试和采集当前存储系统设备的性能,并将性能数据上报给驻留模块;配置于存储系统所有存储设备上的若干个驻留模块,用于定时依次调用故障检查插件,对存储系统进行检测,并将接收自故障检查本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向超大规模存储系统性能异常降级问题的自动鉴别方法,其特征在于:基于以下配置:性能异常检测总控模块,用于提供存储系统性能的总体视图,其通过查询故障信息数据库,获取存储系统的故障信息,通过性能信息数据库获取存储系统当前的性能数据,最后通过自动对比规则确定当前存储系统中是否存在性能异常降级问题,形成存储系统性能的总体视图;配置于存储设备上的若干个插件式的检测模块,包括故障检查插件、性能采集插件;所述故障检查插件用于检查当前存储系统是否有故障,并将当前存储系统的故障信息上报给驻留模块;所述性能采集插件用于测试和采集当前存储系统设备的性能,并将性能数据上报给驻留模块;配置于存储系统所有存储设备上的若干个驻留模块,用于定时依次调用故障检查插件,对存储系统进行检测,并将接收自故障检查插件的故障信息按照“故障位置、故障时间、故障类型、故障级别”的格式录入故障信息数据库,还用于监控存储设备的忙闲状态,在存储设备空闲时调用性能采集插件,并将接收自性能采集插件的性能测试结果信息按照“采集位置、采集时间、测试类型、测试结果、结果类型”的格式录入性能信息数据库,还用于将故障信息发送至性能异常检测总控模块;故障信息数据库,用于存储存储系统的故障信息;性能信息数据库,用于存储存储系统中存储设备的性能数据;包括以下步骤:S1、在存储设备上运行驻留模块,周期性调用故障检查插件,并实时监控存储设备的空闲状态,在存储设备空闲时,执行性能采集插件;S21、故障检查插件运行,检查其所对应的存储系统是否有故障,并将故障信息反馈给驻留模块;S22、驻留模块按照“故障位置、故障时间、故障类型、故障级别”的格式将故障信息写入故障信息数据库;S31、性能采集插件运行,执行特定测试,并将测试结果反馈给驻留模块;S32、驻留模块按照“采集位置、采集时间、测试类型、测试结果、结果类型”的格式将性能采集插件的测试结果写入性能信息数据库;S4、性能异常检测总控模块根据故障信息数据库与性能信息数据库中的数据,判断是否有存储设备出现了性能异常降级,做出判断的具体步骤如下:S41、根据故障信息数据库中的故障信息对性能信息数据库中的性能数据进行筛选,故障级别较高而会影响性能测试结果的设备对应的故障时间...

【专利技术属性】
技术研发人员:何晓斌魏巍余婷陈起王红艳王涛肖伟
申请(专利权)人:无锡江南计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1