【技术实现步骤摘要】
本专利技术涉及服务器监控、资源故障告警领域,具体涉及。
技术介绍
随着数据中心的飞速发展,大规模的服务器应用越来越成为数据中心的主要特点。在大规模服务器的监控管理中使用自动化的监控系统就成为必然,但是由于规模太大,若要实现每台服务器每项监测数据可以灵活自主的设置合理的、实际环境需要的告警阀值,会给管理员带来非常大的挑战。可想而知,一个拥有上千台服务器的集群化应用,如果对每台服务器上的每项监测参数设置合理、可控的告警阀值,需要投入大量的时间和资源去完成。例如,一个2000台服务器规模的集群进行监控,每台服务器具有50个监测项(如系统CPU利用率、系统物理内存利用率、电源I的功耗、风扇I的转速等均为一个监测项),那么就会产生100000个监测项,要想对这100000个监测项进行合理的、用户可控制的告警阀值设置,用传统的方式首先很难保证设置的正确性,再有也需要很多的资源和时间去完成,一旦需要改动调整,则还要投入大量的时间和资源进行优化,既浪费了大量的人力物力也无法保证调整过程中集群中服务器监控的有效性。以上挑战为大规模服务器监控时告警阀值的设置和设置过程中服务器监控的有效性带了极大的局限性,严重影响大规模服务器监控时告警的合理性和准确性,因此设计大规模服务器监控时的告警阀值设置方法可以有效解决该难题。
技术实现思路
本专利技术的设计主要考虑资源告警阀值的自循环优化机制和基于模板库的告警阀值批量分发应用的特点,采用典型资源优先入资源库进行自循环优化,以及典型资源的告警阀值经过优化后生成模板的设计方法,实现大规模同型号同配置服务器批 ...
【技术保护点】
一种大规模服务器监控时的告警阀值设置方法,其特征在于,其结构包括:(1)资源配置库模块、(2)资源告警阀值自循环优化模块、(3)资源模板库生成模块、(4)资源模板库管理模块;服务器首先被纳入到资源配置库中,然后在不同型号不同配置的服务器中分别设置一个典型资源,每个典型资源调用自循环优化模板,将自己的各个监测项告警阀值与告警阀值经验库中的数据进行对比分析,根据高低进行循环调整,直到达到一种合理、准确的告警阀值,循环结束;将各型号各配置对应的典型资源生成不同的资源模板,开始进入模板库进行统一管理,经过模板库生成模块对各资源模板的优化处理后,最终由资源模板库管理模块调用来将模板分别与各型号各配置的服务器资源进行关联,经过批量应用生效后完成告警阀值的设置过程;与此同时,当有新的告警阀值需要调整时,只需要将模板中的各监测项告警阀值修改后,重新再应用生效即可。
【技术特征摘要】
1.一种大规模服务器监控时的告警阀值设置方法,其特征在于,其结构包括:(1)资源配置库模块、(2)资源告警阀值自循环优化模块、(3)资源模板库生成模块、(4)资源模板库管理模块; 服务器首先被纳入到资源配置库中,然后在不同型号不同配置的服务器中分别设置一个典型资源,每个典型资源调用自循环优化模板,将自己的各个监测项告警阀值与告警阀值经验库中的数据进行对比分析,根据高低进行循环调整,直到达到一种合理、准确的告警阀值,循环结束;将各型号各配置对应的典型资源生成不同的资源模板,开始进入模板库进行统一管理,经过模板库生成模块对各资源模板的优化处理后,最终由资源模板库管理模块调用来将模板分别与各型号各配置的服务器资源进行关联,经过批量应用生效后完成告警阀值的设置过程;与此同时,当有新的告警阀值需要调整时,只需要将模板中的各监测项告警阀值修改后,重新再应用生效即可。2.根据权利要求1所述的方法,其特征在于所述的资源告警阀值自循环优化模块,基于告警阀值经验库,设计自循环优化流程,可使典型资源的每个监测项的告警阀值根据阀值经验库中的数据进行调整,当阀值与经验库中数据相比过高时,便减小阀值;当阀值与经验库中数据相比过低时,便增加阀值,直到达到一种合理、准确的阀值水平,循环结束;其中,判断阀值是否准确、是否合理的依...
【专利技术属性】
技术研发人员:陆峰,刘成平,李锋,
申请(专利权)人:浪潮电子信息产业股份有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。