本发明专利技术涉及一种网络设备告警消息风暴的处理方法和装置,所述方法包括如下步骤:(1)设定被监控网元,建立网元模型;(2)创建网元告警规则引擎,基于源告警信息实时生成适配规则的网元告警数据;(3)取当前滑动时间窗口中的网元告警数据实时统计网元告警数量,使用概率统计方法动态生成置信区间和阈值,所述的滑动时间窗口包括多个顺序的时间单位;(4)根据告警数量和所述阈值判断当前滑动时间窗口后一条告警消息的类型,如果告警数量高于上限阈值则所述告警消息为风暴消息并进行风暴预警,如果告警数量低于下限阈值则所述告警消息为解除风暴消息并解除风暴预警,否则为正常告警消息;(5)基于当前滑动时间窗口向后滑动一个时间单位,进入下一个滑动时间窗口,转到上述步骤(3)。
【技术实现步骤摘要】
一种网络设备告警消息风暴的处理方法和装置
本专利技术属于网络通信
,具体涉及一种基于概率统计的网络设备告警消息风暴的处理方法和装置。
技术介绍
随着移动通信网络的迅猛商用,2G、3G、LTE网络逐步实现融合,网络结构日益复杂,网络所承载的业务量逐年递增。当某个关键设备出现故障时,会产生大量消息上报到网络设备故障管理系统,此时可能会导致故障监控不及时、甚至无法监控,继而导致故障处理不及时,如果消息数量超过系统的处理容量,则会给系统造成巨大的压力,甚至瘫痪。及时有效地监控网络故障,并在第一时间进行处理,成为当代运营商面临的首要问题,对故障监控系统所提供数据的及时性、准确性、有效性、高可靠性提出了更高的要求。目前的故障管理系统虽然日臻完善,但是,当网络出现重大告警,告警数据量激增,即出现消息风暴时,消息量达到故障管理系统瓶颈时,故障管理系统提供给监控人员数据还是会出现数据处理缓慢、告警上报延迟、监控不及时、处理不及时,甚至故障管理系统瘫痪等问题。例如:当某个运营支持系统(OSS,Operationandsupportsystem)在短时间内出现某个网元的大量告警时,会产生如下三方面影响:(1)大量无实际意义的告警消息出现在监控台,影响了监控人员发现并处理正常的网元告警,包括网元重大告警。(2)对大量的风暴告警的解析,消耗了大量的CPU时间,可能会在解析时发生内存溢出,导致告警监控延迟。(3)由于采集缺少对告警风暴进行一定的预测与消息归并的机制,遇到消息风暴时,整个故障管理系统系统处于被动的高负荷状态。目前,针对告警消息风暴目前的处理方案主要有三种:(1)消息风暴同正常消息相同处理。然而,该方案无法预知网络故障,当发生消息风暴时,采用无风暴时的处理方案,将消息风暴等同于正常消息来处理。此方案导致进程消耗大量的硬件资源,包括大量CPU、内存、存储、以及时间,并且可能会导致解析消息时内存溢出、处理滞后。同时,监控台出现大量故障的重复信息,导致处理不及时,最终延误了重大故障的监控和处理,给运营商带来一定的经济损失。(2)人为设置告警过滤规则,将满足此规则的告警消息过滤掉,即直接将满足此规则的告警数据丢弃。然而,此方案同样增加了消息处理的负荷,并且造成了告警数据丢失,影响了告警数据的完整性。此方案只能根据经验来设置告警过滤规则,当规则预设置不当时,同样会造成故障管理系统的压力,浪费系统资源。(3)人为设置阈值作为告警消息的风暴数量阈值,如果消息风暴超过此阈值,那么直接丢弃后续消息不处理。然而,此方案需要根据经验预先设定阈值,但是消息风暴的阈值一般很难预定。如果阈值过小,那么正常消息会被丢弃,正常告警无法监控;如果阈值过大,那么当实际产生告警风暴时,无法将告警消息风暴过滤掉。然而,以上方案依然不能完美地解决告警风暴出现时面临的问题和带来的影响。
技术实现思路
为解决以上现有技术中存在的问题,本专利技术提出了一种基于概率统计的网络设备告警消息风暴的处理方法和装置。根据本专利技术的一个方面,本专利技术提供了一种网络设备告警消息风暴的处理方法,所述方法包括如下步骤:(1)设定被监控网元,建立网元模型;(2)创建网元告警规则引擎,基于源告警信息实时生成适配规则的网元告警数据;(3)取当前滑动时间窗口中的网元告警数据实时统计网元告警数量,使用概率统计方法动态生成置信区间和阈值,所述的滑动时间窗口包括多个顺序的时间单位;(4)根据所述告警数量和阈值判断当前滑动时间窗口后一条告警消息的类型,如果告警数量高于上限阈值则所述告警消息为风暴消息并进行风暴预警,如果告警数量低于下限阈值则所述告警消息为解除风暴消息并解除风暴预警,否则为正常告警消息;(5)基于当前滑动时间窗口向后滑动一个时间单位,进入下一个滑动时间窗口,转到上述步骤(3)。优选的,所述步骤(3)中的方法为:(31)根据步骤(2)获取的网元告警数据,计算当前滑动时间窗口中的每个时间单位的网元告警数量,并作为统计参数;(32)将统计参数进行均值计算、标准差计算、置信区间计算,求得置信区间的上下限,得到统计阈值;(33)确定当前置信区间的上限为告警风暴的阈值,确定当前置信区间的下限为解除告警风暴的阈值。优选的,所述步骤(4)中判断告警消息类型后进一步的方法为:如果告警消息类型为风暴消息则生成风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为解除风暴消息则生成解除风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为正常消息,则输出到普通窗口中显示。优选的,所述步骤(4)中的通知直通监控窗口直接呈现的具体方法为:将风暴预警消息和/或解除风暴预警消息通知监控客户端,触发监控客户端弹出直通监控窗口,将风暴预警消息和/或解除风暴预警消息及发生风暴的网元模型信息在直通监控窗口直接呈现。优选的,所述步骤(2)具体为:(21)根据网元模型数据生成网元告警规则;(22)获取源告警信息并执行所述网元告警规则,得到适配的网元告警消息;(23)将适配的网元告警消息保存到网元告警数据缓冲区。优选的,所述的网元告警数据缓冲区是一个网元告警数据检索链表。优选的,滑动时间窗口设为1或2小时,时间单位设为半分钟或1分钟。根据本专利技术的另一个方面,本专利技术还提供了一种网络设备告警消息风暴的处理装置,所述装置包括如下模块:网元模型建立模块,用于设定被监控网元,建立网元模型。告警规则引擎模块,用于创建网元告警规则引擎,基于源告警信息实时生成适配规则的网元告警数据;统计和阈值生成模块,取当前滑动时间窗口中的网元告警数据实时统计网元告警数量,使用概率统计方法动态生成置信区间和阈值,所述的滑动时间窗口包括多个顺序的时间单位;判断和预警模块,根据告警数量和统计和阈值生成模块生成的阈值判断当前滑动时间窗口后一条告警消息的类型,如果告警数量高于上限阈值则所述告警消息为风暴消息并进行风暴预警,如果告警数量低于下限阈值则所述告警消息为解除风暴消息并解除风暴预警,否则为正常告警消息;调整滑动时间窗口模块,基于当前滑动时间窗口向后滑动一个时间单位,形成下一个滑动时间窗口,转到统计和阈值生成模块。优选的,所述告警规则引擎模块,包括规则生成模块、规则执行模块、写缓冲区模块;其中,规则生成模块,根据网元模型数据生成网元告警规则;规则执行模块,获取源告警信息并执行所述网元告警规则,得到适配的网元告警消息;写缓冲区模块将所述适配的网元告警消息保存到网元告警数据缓冲区。优选的,统计和阈值生成模块包括:统计参数获取模块,根据告警规则引擎模块获得的网元告警数据,计算当前滑动时间窗口中的每个时间单位的网元告警数量,并作为统计参数;统计阈值计算模块,将统计参数进行均值计算、标准差计算、置信区间计算,求得置信区间的上下限,得到统计阈值;阈值确定模块,确定当前置信区间的上限为告警风暴的阈值,确定当前置信区间的下限为解除告警风暴的阈值。优选的,所述的判断和预警模块还具有如下功能:如果告警消息类型为风暴消息则生成风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为解除风暴消息则生成解除风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为正常消息,则输出到普通窗口中显示。优选的,所述的网元告警数据缓冲区是一个网元告警数据检索链表。本专利技术具有如下特点本文档来自技高网...
【技术保护点】
一种网络设备告警消息风暴的处理方法,其特征在于所述方法包括如下步骤:(1)设定被监控网元,建立网元模型;(2)创建网元告警规则引擎,基于源告警信息实时生成适配规则的网元告警数据;(3)取当前滑动时间窗口中的网元告警数据实时统计网元告警数量,使用概率统计方法动态生成置信区间和阈值,所述的滑动时间窗口包括多个顺序的时间单位;(4)根据所述告警数量和阈值判断当前滑动时间窗口后一条告警消息的类型,如果告警数量高于上限阈值则所述告警消息为风暴消息并进行风暴预警,如果告警数量低于下限阈值则所述告警消息为解除风暴消息并解除风暴预警,否则为正常告警消息;(5)基于当前滑动时间窗口向后滑动一个时间单位,进入下一个滑动时间窗口,转到上述步骤(3)。
【技术特征摘要】
1.一种网络设备告警消息风暴的处理方法,其特征在于所述方法包括如下步骤:(1)设定被监控网元,建立网元模型;(2)创建网元告警规则引擎,基于源告警信息实时生成适配规则的网元告警数据;(3)取当前滑动时间窗口中的网元告警数据实时统计网元告警数量,使用概率统计方法动态生成置信区间和阈值,所述的滑动时间窗口包括多个顺序的时间单位;(4)根据所述告警数量和阈值判断当前滑动时间窗口后一条告警消息的类型,如果告警数量高于上限阈值则所述告警消息为风暴消息并进行风暴预警,如果告警数量低于下限阈值则所述告警消息为解除风暴消息并解除风暴预警,否则为正常告警消息;(5)基于当前滑动时间窗口向后滑动一个时间单位,进入下一个滑动时间窗口,转到上述步骤(3)。2.如权利要求1所述的网络设备告警消息风暴的处理方法,其特征在于:所述步骤(3)中的概率统计方法如下:(31)根据步骤(2)获取的网元告警数据,计算当前滑动时间窗口中的每个时间单位的网元告警数量,并作为统计参数;(32)将统计参数进行均值计算、标准差计算、置信区间计算,求得置信区间的上下限,得到统计阈值;(33)确定当前置信区间的上限为告警风暴的阈值,确定当前置信区间的下限为解除告警风暴的阈值。3.如权利要求1所述的网络设备告警消息风暴的处理方法,其特征在于:所述步骤(4)中判断告警消息类型后进一步的方法为:如果告警消息类型为风暴消息则生成风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为解除风暴消息则生成解除风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为正常消息,则输出到普通窗口中显示。4.如权利要求3所述的网络设备告警消息风暴的处理方法,其特征在于:所述通知直通监控窗口直接呈现的具体方法为:将风暴预警消息和/或解除风暴预警消息通知监控客户端,触发监控客户端弹出直通监控窗口,将风暴预警消息和/或解除风暴预警消息及发生风暴的网元模型信息在直通监控窗口直接呈现。5.如权利要求1所述的网络设备告警消息风暴的处理方法,其特征在于:所述步骤(2)的具体过程如下:(21)根据网元模型数据生成网元告警规则;(22)获取源告警信息并执行所述网元告警规则,得到适配的网元告警消息;(23)将适配的网元告警消息保存到网元告警数据缓冲区。6.如权利要求5所述的网络设备告警消息风暴的处理方法,其特征在于:所述的网元告警数据缓冲区是一个网元告警数据检索链表。7.如权利...
【专利技术属性】
技术研发人员:许振文,袁杰,
申请(专利权)人:北京亿阳信通科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。