一种基于温度监测的机房异常的处理方法和装置制造方法及图纸

技术编号:23484181 阅读:23 留言:0更新日期:2020-03-10 12:16
本发明专利技术提供了一种基于温度监测的机房异常的处理方法和装置。该方法包括:获取机房内各服务器的与温度相关的CPU指标和所述机房内的环境温度;判断所获取的机房环境温度是否在第一预设温度范围内,若是,则确定所述机房运行正常;若否,则根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器;若存在运行异常的服务器,则对所述运行异常的服务器进行异常处理;若不存在运行异常的服务器,则确定所述机房运行异常,并对所述机房进行异常处理。本发明专利技术通过直接根据机房和服务器的温度信息对机房和服务器的异常情况进行排查和处理,减少了响应时间,从而降低损失,同时减少了人工干预,从而降低人力成本。

A method and device to deal with the abnormal of computer room based on temperature monitoring

【技术实现步骤摘要】
一种基于温度监测的机房异常的处理方法和装置
本专利技术涉及计算机网络
,特别是一种基于温度监测的机房异常的处理方法、基于温度监测的机房异常的处理装置、计算机存储介质以及计算设备。
技术介绍
随着计算机信息系统的发展,作为网络设备、主机服务器等核心设备存放地的计算机机房日益显现出重要性。机房通常指的是电信、网通、移动、双线、电力以及政府或者企业等用来存放服务器、为用户以及员工提供IT服务的地方。大型机房,如IDC(InternetDataCenter,互联网数据中心)机房中通常放置有上千个机柜,甚至更多,机柜里放置各种服务器和小型机等。为了保障机房设备正常运行,需要对机房进行维护运营,以确保机房在突发事故导致硬件设备故障,影响机房正常运作情况下,可及时得到设备供应商或机房服务维护人员的产品维修和技术支持,并快速解决故障。在现有技术中,运营商通常只在机房内的不同区域设置温度计进行机房温度的监测,当监测到某区域的温度不正常时,通知该区域的所有者,该区域的服务器可能出现宕机问题。然后,该区域的所有者再通知运维工程师,由运维工程师至现场进行人工检查,排查故障,再对应进行故障处理。进一步地,在排查故障时,例如对服务器进行故障排查时,常规方式是先登录服务器,如果无法登录,则检查网络是否正常,如果网络正常但仍然无法登录,则继续查看CPU指标、操作日志等。现有的故障应对方式导致响应时间过长,无法快速应对突发情况。另外,人工故障排查步骤繁琐,增加了人力成本。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于温度监测的机房异常的处理方法、基于温度监测的机房异常的处理装置、计算机存储介质以及计算设备。根据本专利技术实施例的一方面,提供了一种基于温度监测的机房异常的处理方法,包括:获取机房内各服务器的与温度相关的CPU指标和所述机房内的环境温度;判断所获取的机房环境温度是否在第一预设温度范围内,若是,则确定所述机房运行正常;若否,则根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器;若存在运行异常的服务器,则对所述运行异常的服务器进行异常处理;若不存在运行异常的服务器,则确定所述机房运行异常,并对所述机房进行异常处理。可选地,所述各服务器的与温度相关的CPU指标包括各服务器的CPU温度;根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器,包括:判断所获取的各服务器的CPU温度是否在第二预设温度范围内;若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常;若所获取的各服务器的CPU温度均在所述第二预设温度范围内,则确定不存在运行异常的服务器。可选地,所述各服务器的与温度相关的CPU指标还包括各服务器的CPU空闲时间百分比;若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常,包括:若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则判断其CPU温度不在所述第二预设温度范围内的服务器的CPU空闲时间百分比是否高于预设阈值;若是,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常。可选地,所述第一预设温度范围是人为设定的温度范围、或根据机房环境温度的历史数据进行计算得到的温度范围;所述第二预设温度范围是人为设定的温度范围、或根据服务器的CPU温度的历史数据进行计算得到的温度范围。可选地,所述方法还包括:保存所获取的机房内的环境温度作为机房环境温度的历史数据;根据所保存的机房环境温度的历史数据绘制机房环境温度历史变化曲线,并记录与所述机房环境温度历史变化曲线中的异常变化段对应的异常事件和所述异常事件的特征属性;此时,对所述机房进行异常处理,包括:对比当前所获取的机房环境温度的变化趋势是否与所述机房环境温度历史变化曲线中的异常变化段的变化趋势相同;若是,则根据与所述异常变化段对应的异常事件和所述异常事件的特征属性,对所述机房进行异常处理。可选地,所述方法还包括:保存所获取的各服务器的CPU温度作为各服务器的CPU温度的历史数据;根据所保存的各服务器的CPU温度的历史数据绘制各服务器的CPU温度历史变化曲线,并记录与所述CPU温度历史变化曲线中的异常变化段对应的异常事件和所述异常事件的特征属性;此时,对所述运行异常的服务器进行异常处理,包括:对比当前所获取的所述运行异常的服务器的CPU温度的变化趋势是否与该服务器的CPU温度历史变化曲线中的异常变化段的变化趋势相同;若是,则根据与所述异常变化段对应的异常事件和所述异常事件的特征属性,对所述运行异常的服务器进行异常处理。可选地,所述异常事件的特征属性包括异常事件的处理优先级。可选地,所述方法还包括:确定运行异常的服务器在所述机房内的分布;若相邻的两台或更多台服务器运行异常,则优先对所述相邻的两台或更多台服务器进行异常处理。可选地,对所述运行异常的服务器进行异常处理包括下列至少之一:将运行异常的服务器切换至备用服务器;报警;调节所述机房内的空调温度;关闭运行异常的服务器进行降温。可选地,对所述机房进行异常处理包括下列至少之一:将所述机房切换至备用机房;报警;自动进行物理灭火;排除空调设备故障。根据本专利技术实施例的另一方面,还提供了一种基于温度监测的机房异常的处理装置,包括:温度获取模块,适于获取机房内各服务器的与温度相关的CPU指标和所述机房内的环境温度;机房判断模块,适于判断所获取的机房环境温度是否在第一预设温度范围内,若是,则确定所述机房运行正常;服务器判断模块,适于若所获取的机房环境温度不在所述第一预设温度范围内,则根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器;服务器处理模块,适于若存在运行异常的服务器,则对所述运行异常的服务器进行异常处理;以及机房处理模块,适于若不存在运行异常的服务器,则确定所述机房运行异常,并对所述机房进行异常处理。可选地,所述各服务器的与温度相关的CPU指标包括各服务器的CPU温度;所述服务器判断模块还适于:判断所获取的各服务器的CPU温度是否在第二预设温度范围内;若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常;若所获取的各服务器的CPU温度均在所述第二预设温度范围内,则确定不存在运行异常的服务器。可选地,所述各服务器的与温度相关的CPU指标还包括各服务器的CPU空闲时间百分比;...

【技术保护点】
1.一种基于温度监测的机房异常的处理方法,包括:/n获取机房内各服务器的与温度相关的CPU指标和所述机房内的环境温度;/n判断所获取的机房环境温度是否在第一预设温度范围内,若是,则确定所述机房运行正常;/n若否,则根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器;/n若存在运行异常的服务器,则对所述运行异常的服务器进行异常处理;/n若不存在运行异常的服务器,则确定所述机房运行异常,并对所述机房进行异常处理。/n

【技术特征摘要】
1.一种基于温度监测的机房异常的处理方法,包括:
获取机房内各服务器的与温度相关的CPU指标和所述机房内的环境温度;
判断所获取的机房环境温度是否在第一预设温度范围内,若是,则确定所述机房运行正常;
若否,则根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器;
若存在运行异常的服务器,则对所述运行异常的服务器进行异常处理;
若不存在运行异常的服务器,则确定所述机房运行异常,并对所述机房进行异常处理。


2.根据权利要求1所述的方法,其中,所述各服务器的与温度相关的CPU指标包括各服务器的CPU温度;
根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器,包括:
判断所获取的各服务器的CPU温度是否在第二预设温度范围内;
若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常;
若所获取的各服务器的CPU温度均在所述第二预设温度范围内,则确定不存在运行异常的服务器。


3.根据权利要求2所述的方法,其中,所述各服务器的与温度相关的CPU指标还包括各服务器的CPU空闲时间百分比;
若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常,包括:
若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则判断其CPU温度不在所述第二预设温度范围内的服务器的CPU空闲时间百分比是否高于预设阈值;
若是,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常。


4.根据权利要求2或3所述的方法,其中,所述第一预设温度范围是人为设定的温度范围、或根据机房环境温度的历史数据进行计算得到的温度范围;
所述第二预设温度范围是人为设定的温度范围、或根据服务器的CPU温度的历史数据进行计算得到的温度范围。


5.根据权利要求2-4中任一项所述的方法,其中,还包括:
保存所获取的机房内的环境温度作为机房环境温度的历史数据;
根据所保存的机房环境温度的历史数据绘制机房环境温度历史变化曲线,并记录与所述机房环境温度历史变化曲线中的异常变化段对应的异常事件和所述异常事件的特征属性;
此时,
对...

【专利技术属性】
技术研发人员:刘刚
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1