本发明专利技术涉及一种数据告警产生及恢复处理方法,涉及信息监控的技术领域,其包括获取监控数据、数据异常判断、激活判断、数据累加判断、第一数据留观、告警判断、告警、第二数据留观、告警解除判断、告警解除等步骤。本发明专利技术能够提高告警的准确率,而且还具有应对抖动数据的告警能力;而且本方法可以根据不同的情景,对留观时间以及第一阈值进行调整,使得本方法能兼容不同设备、不同指标数据监控频率不一、数据质量不一的问题,提高了兼容性;而且本方法在计算过程中,所调用的参数较少,使得计算难度降低,提高了告警响应的及时性。提高了告警响应的及时性。提高了告警响应的及时性。
【技术实现步骤摘要】
一种数据告警产生及恢复处理方法
[0001]本专利技术涉及信息监控的
,尤其是涉及一种数据告警产生及恢复处理方法。
技术介绍
[0002]随着信息化建设的不断推进,人们的工作和生活方式有了巨大的改变。在此过程中许多单位都积累了一大批信息资产,包括但不限于服务器、交换机、路由器、防火墙、存储设备、终端主机、数据库、中间件、业务系统等软硬件。这就需要对资产进行不间断的监控,获取其健康状态,保证服务的可靠性、安全性、稳定性。
[0003]早期由于缺乏必要的自动化监控手段,因此大多使用人工的方式去查看各设备、系统的运行参数,不仅费时费力,而且难以全面及时的掌握各硬件以及业务系统的运行状态,信息化工作比较被动。当前对信息资产的运维监控手段逐渐过渡到了基于公有协议或私有接口的主动监控、自动运维甚至是智慧运维。在这个升级迭代过程中,完善的数据采集监控手段以及及时告警当是重中之重。
[0004]以目前的数据采集监控手段来看,告警的产生及恢复大概贯彻以下逻辑:1、设定告警时的阈值;2、获取监测的数据;3、判段监测的数据是否超过了设定的阈值。若监测的数据超过了设定的阈值,则发出告警,若检测的数据未超过设定的阈值,则解除告警。
[0005]但是由于数据的产生频次是不一致的、数据的抖动是客观存在的。例如CPU的使用率,当在某APP启动时,CPU瞬时占用率将会被快速拉升,当APP平稳运行时,CPU占用率相比于启动时将会大幅下降。如果仅仅设定告警阈值,则非常容易出现在启动某APP时会发出告警,在其平稳运行时会解除告警的情况。
[0006]由于这种告警策略会夹杂大量的“误报”信息,因此会极大的增加监测人员的劳动负担。
技术实现思路
[0007]为了能够提高告警的准确性,降低监测人员的劳动负担,本专利技术提供一种数据告警产生及恢复处理方法。
[0008]本专利技术提供的一种数据告警产生及恢复处理方法,采用如下的技术方案:一种数据告警产生及恢复处理方法,包括以下步骤:获取监控数据:通过监控手段持续获取被监控的数据信息;数据异常判断:判断获取的瞬时数据是否异常;若数据异常,则执行激活判断步骤;若数据正常,则执行数据累加判断步骤;激活判断:若第一数据留观步骤以及第二数据留观步骤均未处于激活状态,则激活第一数据留观步骤;若第一数据留观步骤处于激活状态,则向第一数据留观步骤中发出数据异常的信息;若第二数据留观步骤处于激活状态,则向第二数据留观步骤中发出数据异常的信息;
数据累加判断:若第一数据留观步骤以及第二数据留观步骤均未处于激活状态,则不做反应;若第一数据留观步骤处于激活状态,则向第一数据留观步骤中发出数据正常的信息;若第二数据留观步骤处于激活状态,则向第二数据留观步骤中发出数据正常的信息;第一数据留观:设定有第一留观时长,在第一留观时长内,第一数据留观处于激活状态;在第一数据留观步骤被激活的时间内,对数据异常的次数进行计算;告警判断:若在第一数据留观步骤中,数据异常的次数大于等于第一阈值,则执行告警步骤,并将第一数据留观步骤中的数据信息清空;否则执行数据异常判断步骤,并将第一数据留观步骤中的数据信息清空;告警:发出告警,提示监测数据出现异常;并执行第二数据留观步骤;第二数据留观:设定有第二留观时长,在第二留观时长内,第二数据留观处于激活状态;在第二数据留观步骤被激活的时间内,对连续的数据正常的次数进行计算;告警解除判断:若在第二数据留观步骤中,数据连续正常的次数小于第二阈值,且第二数据留观步骤中的最新数据为异常数据,则继续执行告警步骤;若在第二数据留观步骤中,数据连续正常的次数等于第二阈值,则执行告警解除步骤;否则不反应;告警解除:停止告警,提示检测人员数据恢复正常;同时执行数据异常判断步骤,并将第二数据留观步骤中的缓存删除。
[0009]通过采用上述技术方案,当监测数据出现异常时并不会立刻发出告警,而是在第一留观时间内数据异常次数大于第一阈值时才开始告警,以剔除单个数据异常带来的“误报”,提高了告警的准确率;而且当数据一直处于抖动状态时,部分时间节点的数据是处于异常状态的,而数据一直抖动也是一种异常行为,使得本方法还具有应对抖动数据的告警能力。本方法可以根据不同的情景,对留观时间以及阈值进行调整,使得本方法能兼容不同设备、不同指标数据监控频率不一、数据质量不一的问题,提高了兼容性;而且本方法在计算过程中,所调用的参数较少,使得计算难度降低,提高了告警响应的及时性。
[0010]可选地,所述数据异常判断步骤中包括多个异常判断条件,多个异常判断条件中任一满足或全部满足,则认定为数据异常;或,所述数据异常判断步骤中对多个数据设置权重比例,若所有异常数据的权重之和大于等于第三阈值,则认定为数据异常。
[0011]通过采用上述技术方案,在某些情形下,某一种数据的异常即可代表系统的不稳定性,本方法可对多种数据进行同时判断,若其中有一种数据异常便可直接认定为数据异常;在某些情形下,多种数据同时异常才能代表系统的不稳定性,本方法也可对多种数据进行同时判断,若多种数据同时异常便可接认定为数据异常;在某些情形下,多种数据中某些数据异常便能代表系统的不稳定性,本方法还可对多种数据进行同时判断,若异常数据的权重之和过大便可接认定为数据异常。如此便可满足对不同情形下对数据异常的要求,提高了方法的兼容性。
[0012]可选地,所述告警步骤包括告警计数步骤、告警计数判断步骤、初次告警步骤以及连续告警步骤,告警计数:每执行一次告警步骤,则对告警次数进行一次累计,完成计数后执行告警计数判断步骤;
告警计数判断:若告警次数等于1次,则执行初次告警步骤;否则执行连续告警步骤;初次告警:初次发出告警,提示监测数据初次出现异常;连续告警:连续发出告警,提示监测数据持续出现异常;所述告警解除步骤中,还对告警计数进行清零。
[0013]通过采用上述技术方案,监测人员可根据报警类型判断数据信息异常的持续情况,进而便于监测人员判断数据异常的严重程度;若告警仅为初次告警,则证明数据异常不严重;若告警为连续告警,则证明数据异常严重,需及时对异常原因进行分析。如此进一步对告警情况进行了筛选,降低了监测人员的劳动强度。
[0014]可选的,所述告警步骤中,还包括历史记录步骤;历史记录:记录告警的时间信息以及告警类型信息,进而形成告警表单;所述初次告警步骤以及所述连续告警步骤执行时,均执行所述历史记录步骤。
[0015]通过采用上述技术方案,在告警解除后,监测人员仍可通过调取告警表单了解告警情况,进而判断是否对历史告警进行处理。
[0016]可选地,所述数据异常判断步骤中,还对是否能够获取到数据进行判断,若无法获取到数据,则判定为数据异常。
[0017]通过采用上述技术方案,在某些情况下,无法获取到数据属于异常现象,因此当无法获取到数据时,判断结果偏向于告警,提高告警的准确率。
[0018]可选地,所述数据异常判断步骤中,还对是否能够获取到数据进行判断,若无法获取到数据,则判定为数据正常。
...
【技术保护点】
【技术特征摘要】
1.一种数据告警产生及恢复处理方法,其特征在于:包括以下步骤:获取监控数据:通过监控手段持续获取被监控的数据信息;数据异常判断:判断获取的瞬时数据是否异常;若数据异常,则执行激活判断步骤;若数据正常,则执行数据累加判断步骤;激活判断:若第一数据留观步骤以及第二数据留观步骤均未处于激活状态,则激活第一数据留观步骤;若第一数据留观步骤处于激活状态,则向第一数据留观步骤中发出数据异常的信息;若第二数据留观步骤处于激活状态,则向第二数据留观步骤中发出数据异常的信息;数据累加判断:若第一数据留观步骤以及第二数据留观步骤均未处于激活状态,则不做反应;若第一数据留观步骤处于激活状态,则向第一数据留观步骤中发出数据正常的信息;若第二数据留观步骤处于激活状态,则向第二数据留观步骤中发出数据正常的信息;第一数据留观:设定有第一留观时长,在第一留观时长内,第一数据留观处于激活状态;在第一数据留观步骤被激活的时间内,对数据异常的次数进行计算;告警判断:若在第一数据留观步骤中,数据异常的次数大于等于第一阈值,则执行告警步骤,并将第一数据留观步骤中的数据信息清空;否则执行数据异常判断步骤,并将第一数据留观步骤中的数据信息清空;告警:发出告警,提示监测数据出现异常;并执行第二数据留观步骤;第二数据留观:设定有第二留观时长,在第二留观时长内,第二数据留观处于激活状态;在第二数据留观步骤被激活的时间内,对连续的数据正常的次数进行计算;告警解除判断:若在第二数据留观步骤中,数据连续正常的次数小于第二阈值,且第二数据留观步骤中的最新数据为异常数据,则继续执行告警步骤;若在第二数据留观步骤中,数据连续正常的次数等于第二阈值,则执行告警解除步骤;否则不反应;告警解除:停止告警,提示检测人员数据恢复正常;同时执行数据异常判断步骤,并将第二数据留观步骤中的缓存删除。2.根据权利要求1所述的一种数据告警产生及恢复处理方法,其特征在于:所述数据异常判断步骤中包括多个异常判断条件,多个异常判断条件中任一满足或全部满足,则认定为数据异常;或,所述数据异常判断步骤中对多个数据设置权重比例,若所有异常数据的权重之和大于等于第三阈值,则认定为数据异常。3.根据权利要求1或2所述的一种数据告警产生及恢复处理方法,其特征在于:所述告警步骤包括告警计数步骤、告警计数判断步骤、初次告警步骤以及连续...
【专利技术属性】
技术研发人员:赵建云,李善宝,王文民,洛佳明,
申请(专利权)人:山东远桥信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。