基于集成异常检测器与根因分析结合的异常数据定位方法技术

技术编号:32639667 阅读:21 留言:0更新日期:2022-03-12 18:15
本发明专利技术提出了一种基于集成异常检测器与根因分析结合的异常数据检测方法,在利用集成异常检测器发现设备的异常后,立即触发根因分析算法,采用根因分析算法识别出引起该异常的具体维度,实现异常根因分析。本发明专利技术提出的异常数据定位方法集成监督、半监督以及无监督学习算法实现已知异常类型和未知异常类型的综合检测,很大程度上能够避免因单个异常检测模型结果的不准确导致异常误报或者漏报情况的出现。异常检测能够自动发现问题,而根因定位能够在发现问题的基础上进一步深入定位问题发生的具体维度,方便运维人员快速定位故障方向,提高故障排查效率。提高故障排查效率。提高故障排查效率。

【技术实现步骤摘要】
基于集成异常检测器与根因分析结合的异常数据定位方法


[0001]本专利技术属于异常分析领域,尤其涉及一种基于集成异常检测器与根因分析结合的异常数据定位方法。

技术介绍

[0002]异常检测技术在信用卡欺诈、网络入侵检测、复杂工业设备、医学、航天飞机系统的状态监测、图像视频等实际领域中都有着广泛应用。通过利用异常检测技术,可以发现信用卡盗刷、计算机中的恶意活动入侵、工业设备的运行状态异常等,进而采取合适的措施来保护用户或者设备的安全,提高其可靠性。如今处于大数据时代,计算机的计算能力也大为提高,基于数据驱动的异常检测技术也越来越受到欢迎,被应用到各种任务中,性能表现优异,具有非常大的实际应用价值。
[0003]目前实现异常检测主要有监督异常检测技术、半监督异常检测技术以及无监督异常检测技术。各机器学习算法的性能表现是由其样本数据决定的,与样本的维度、样本大小、样本质量、样本标签等有着重要关系。不同的异常检测算法在不同的样本空间性能表现不同。目前多数的异常检测工作是通过采用单个异常检测技术实现的,单个异常检测器的输出结果直接决定了异常检测工作的质量,具有片面性。

技术实现思路

[0004]专利技术目的:本专利技术所要解决的技术问题是针对如何基于各类设备资源的监控数据,对设备的运行状态进行分析,实时获取设备的健康状况,在检测到设备异常时,立即对异常根因进行定位,帮助运维人员对设备进行预防维护,避免因某一设备资源发生故障而造成不可逆转的后果;以及如何通过在传统运维中结合智能算法,辅助进行异常检测与根因分析工作,快速提升运维效率,提供一种基于集成异常检测器与根因分析结合的异常数据定位方法。
[0005]为了解决上述技术问题,本专利技术公开了一种基于集成异常检测器与根因分析结合的异常数据定位方法,包括:
[0006]步骤1,对网络设备监控数据集进行异常检测,获得检测结果;所述异常检测采用集成异常检测器进行检测,所述集成异常检测器由监督异常检测器、半监督异常检测器和无监督异常检测器进行集成学习获得;所述检测结果包括正常结果和异常结果;将多个异常检测准则下建立的检测模型集成为一,综合考虑了多个检测结果,通过使用集成策略可以提高检测模型的鲁棒性,提高检测质量。
[0007]步骤2,对异常结果进行根因分析,获得异常根因,实现异常数据定位。集成异常检测器与根因分析算法相结合,在异常被检测到后触发根因分析,利用根因分析算法在多维属性空间中快速定位导致异常的属性值组合,提供给运维人员进行预防维护,以保障设备安全可靠运行。
[0008]在一种实现方式中,步骤1包括:
[0009]步骤1

1,根据集成异常检测器对网络设备监控数据集的要求,完成网络设备监控数据集分配;所述网络设备监控数据集包括训练集和测试集;
[0010]步骤1

2:对网络设备监控数据集进行数据预处理;
[0011]步骤1

3:对预处理后的数据进行特征提取,获得提取后的数据;
[0012]步骤1

4:分别将提取后的数据输入到集成异常检测器中的监督异常检测器、半监督异常检测器和无监督异常检测器中进行训练和测试;
[0013]步骤1

5:针对测试集,对监督异常检测器、半监督异常检测器和无监督异常检测器的输出结果进行集成决策,获得检测结果;完成测试集的异常识别,实现集成异常检测。
[0014]在一种实现方式中,所述步骤1中监督异常检测器采用极限学习机算法(Extreme Learning Machine,ELM),半监督异常检测器采用单分类极限学习机算法(One Class Extreme Learning Machine,OC

ELM),无监督异常检测器采用孤立森林算法(Iforest)。通过集成学习综合考虑了所有的可能性,有效降低了模型性能对单一异常检测准则的敏感度。
[0015]在一种实现方式中,所述步骤1

1中网络设备监控数据集分配包括划分数据集、训练集分配和测试集分配;
[0016]所述网络设备监控数据集的数据属性包括网络响应时间、CPU、内存、带宽利用率、吞吐量、包转发率和端口流量;
[0017]为验证提出的集成异常检测器的有效性,将网络设备监控数据集划分为5个类别的数据,记为类别0~类别4,其中,类别0代表正常类数据,在网络设备处于正常运行状态下采集获得;类别1代表异常类型1数据,类别2代表异常类型2数据,异常类型1数据和异常类型2数据在网络设备处于经常出现异常运行状态的两种情况下进行采集获得;类别3代表异常类型3数据,类别4代表异常类型4数据,异常类型3数据和异常类型4数据在网络设备处于偶尔出现异常运行状态的两种情况下进行采集获得;另外,异常类型1和异常类型2的两类数据作为已知异常类型的数据,异常类型3和异常类型4的两类数据作为未知异常类型的数据;
[0018]训练集分配如下:
[0019]对于极限学习机算法,训练集由正常类数据、异常类型1、异常类型2的数据组成;
[0020]对于单分类极限学习机算法,训练集仅由与极限学习机算法的训练集中相同正常类数据组成;
[0021]对于孤立森林算法,不需要训练过程;
[0022]测试集分配如下:
[0023]分别对未知异常和已知异常的测试集进行测试,以验证模型的有效性;
[0024]已知异常检测:三个异常检测器的测试集相同,由正常类型、异常类型1以及异常类型2的数据组成。
[0025]未知异常检测:三个异常检测器的测试集相同,由正常类型、异常类型3以及异常类型4的数据组成。
[0026]在一种实现方式中,所述步骤1

2中数据预处理包括数据标准化处理,所述数据标准化处理采用Z

score标准化方法,通过计算原始数据的均值和方差获得标准化的新数据,新数据服从均值为0,标准差为1的正态分布;新数据x
*
通过下列公式计算得到:
[0027]x
*
=(x

μ)/σ
[0028]其中,μ为原始数据x的均值,σ为原始数据的标准差。
[0029]在一种实现方式中,所述步骤1

2中数据预处理还包括数据降噪,所述数据降噪采用移动平均滤波法对数据进行平滑降噪。
[0030]在一种实现方式中,所述步骤1

3中采用主成分分析算法PCA(Principal Component Analysis)对多维数据进行特征提取,挑选出具有代表性的、有效性的成分构成新的特征向量。
[0031]在一种实现方式中,所述步骤1

5中采用多数投票法对监督异常检测器、半监督异常检测器和无监督异常检测器的输出结果进行集成决策,获得测试集中测试数据的检测结果,检测结果包括正常结果或异常结果。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集成异常检测器与根因分析结合的异常数据定位方法,其特征在于,包括:步骤1,对网络设备监控数据集进行异常检测,获得检测结果;所述异常检测采用集成异常检测器进行检测,所述集成异常检测器由监督异常检测器、半监督异常检测器和无监督异常检测器进行集成学习获得;所述检测结果包括正常结果和异常结果;步骤2,对异常结果进行根因分析,获得异常根因,实现异常数据定位。2.根据权利要求1所述的一种基于集成异常检测器与根因分析结合的异常数据定位方法,其特征在于,步骤1包括:步骤1

1,根据集成异常检测器对网络设备监控数据集的要求,完成网络设备监控数据集分配;所述网络设备监控数据集包括训练集和测试集;步骤1

2:对网络设备监控数据集进行数据预处理;步骤1

3:对预处理后的数据进行特征提取,获得提取后的数据;步骤1

4:分别将提取后的数据输入到集成异常检测器中的监督异常检测器和半监督异常检测器中进行训练和测试,输入到无监督异常检测器中进行测试;步骤1

5:针对测试集,对监督异常检测器、半监督异常检测器和无监督异常检测器的输出结果进行集成决策,获得检测结果。3.根据权利要求1所述的一种基于集成异常检测器与根因分析结合的异常数据定位方法,其特征在于,所述步骤1中监督异常检测器采用极限学习机算法,半监督异常检测器采用单分类极限学习机算法,无监督异常检测器采用孤立森林算法。4.根据权利要求3所述的一种基于集成异常检测器与根因分析结合的异常数据定位方法,其特征在于,所述步骤1

1中网络设备监控数据集分配包括划分数据集、训练集分配和测试集分配;所述网络设备监控数据集的数据属性包括网络响应时间、CPU、内存、带宽利用率、吞吐量、包转发率和端口流量;将网络设备监控数据集划分为5个类别的数据,记为类别0~类别4,其中,类别0代表正常类数据,在网络设备处于正常运行状态下采集获得;类别1代表异常类型1数据,类别2代表异常类型2数据,异常类型1数据和异常类型2数据在网络设备处于经常出现异常运行状态的两种情况下进行采集获得;类别3代表异常类型3数据,类别4代表异常类型4数据,异常类型3数据和异常类型4数据在网络设备处于偶尔出现异常运行状态的两种情况下进行采集获得;另外,异常类型1和异常类型2的两类数据作为已知异常类型的数据,异常类型3和异常类型4的两类数据作为未知异常类型的数据;所述训练集分配如下:对于极限学习机算法,训练集...

【专利技术属性】
技术研发人员:武萌张晓兵段林博艾磊谢荣平童彬祥景天野李中月
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1