一种面向网络管理系统的故障检测方法及装置制造方法及图纸

技术编号:32200884 阅读:22 留言:0更新日期:2022-02-08 16:07
本发明专利技术公开了一种面向网络管理系统的故障检测方法,包括以下步骤:步骤1、获取原始不均衡网络故障数据集NF,对NF进行压缩和过滤操作,得到处理后数据集NF',NF'包括样本,样本包括两种类型样本,两种类型样本是指非故障样本和故障样本;步骤2、获取不均衡比例I,所述不均衡比例I=非故障样本的数目/故障样本的数目;步骤3、预先设置一个采样后的两种类型样本数目的比例,根据获取新合成故障数据样本的数目N;步骤4、构建新合成故障数据样本的空间分布分配规则;步骤5、构建新合成故障数据样本的合成规则;步骤6、建立XGB

【技术实现步骤摘要】
一种面向网络管理系统的故障检测方法及装置


[0001]本专利技术涉及电子、通讯、信息工程类
,特别是一种面向网络管理系统的故障检测方法及装置。

技术介绍

[0002]面对目前越来越复杂化,大型化的网络系统,网络维护的难度也随之成倍递增,一旦网络发生故障,不论是在军事国防方面,还是商业、居民的日常生活方面,都会造成不可估计的损失以及诸多的不便。因此,如何有效利用当前技术,发现故障,诊断故障,恢复故障,对于保证网络管理系统的平稳运行,维持社会环境的正常有序发展,具有重大意义。
[0003]传统的一些数据分析方法面对日益壮大复杂的网络大数据,难以得到令人满意的结果。随着技术的不断进步,机器学习作为一种人工智能的方法被广泛的应用于数据的分析和挖掘中。机器学习在确定学习模型后,需要一定量的数据训练模型后,才可以使用模型。比如对于一个大型的网络系统来说,我们需要使用大量的网络数据(如网络告警、日志数据等等)训练机器学习模型后,才可以使用训练好的模型进行网络故障的检测与诊断。实际上,我们更加关注模型正确检测出网络发生故障的能力,然而在网络故障数据集中,故障数据总数要远远的低于正常数据的总数,一般称这种数据集为不均衡数据集。通常,样本数目多的类别称为多数类,样本数目少的类别称为少数类。
[0004]在分类过程中,传统的机器学习方法如支持向量机、决策树、贝叶斯网络、k 近邻等都是基于整体分类精度最大化而设计的,这往往导致分类时多数类的分类精度较高而对实际应用更重要的少数类的分类精度较低。因此,在进行模型训练之前,通过对网络故障数据集进行平衡化处理,一定程度上平衡正常和故障数据的比例,提升模型对故障数据的训练能力,从而能够有效提高模型对网络故障的检测和诊断能力。
[0005]合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)是目前最受欢迎的不均衡数据处理方法之一,其基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。然而由于SMOTE对所有少数类样本一视同仁,并未考虑近邻样本的类别信息,往往出现样本混叠现象,导致分类效果不佳。此外,如果选取的少数类样本周围都是少数类样本,则新合成的样本不会提供太多有用信息;如果选取的少数类样本周围都是多数类样本,这类的样本可能是噪声,则新合成的样本会与周围的多数类样本产生大部分重叠,导致分类困难。

技术实现思路

[0006]本专利技术所要解决的技术问题是克服现有技术的不足而提供一种面向网络管理系统的故障检测方法及装置,通过分析网络故障数据集的特点,设计一种面向网络故障的不均衡数据过采样方法,并且在此基础上,构建网络故障检测模型。本专利技术有效提高了网络故障检测的准确率。
[0007]本专利技术为解决上述技术问题采用以下技术方案:
根据本专利技术提出的一种面向网络管理系统的故障检测方法,包括以下步骤:步骤1、获取原始不均衡网络故障数据集NF,对NF进行压缩和过滤操作,得到处理后数据集NF',NF'包括样本,样本包括两种类型样本,两种类型样本是指非故障样本和故障样本;步骤2、获取不均衡比例I,所述不均衡比例I=非故障样本的数目/故障样本的数目;步骤3、预先设置一个采样后的两种类型样本数目的比例,,根据获取新合成故障数据样本的数目N,N= 故障样本的数目

非故障样本的数目;步骤4、构建新合成故障数据样本的空间分布分配规则:首先对于故障样本,使用k

means方法聚类划分为K个子簇;其次对于非故障样本和故障样本划分后的各个子簇,分别获取非故障样本的类中心以及故障样本每个子簇的簇中心,得到各子簇簇中心到非故障样本的类中心的类

簇间距离;根据第i子簇簇中心到非故障样本的类中心的类

簇间距离,建立权重值计算公式,根据权重值计算公式和计算出第i子簇的权重值;获取故障样本的第i子簇待新合成的故障数据样本数 ;步骤5、构建新合成故障数据样本的合成规则:首先以子簇为单位,遍历第子簇中故障样本到该子簇簇中心的距离,故障样本按距离大小升序排列,选取前个故障数据样本作为第子簇的优选样例,根据合成方法,使用合成第子簇的新故障数据样本;其中,,k为基于K近邻算法寻找某一优选样例的k个最近的邻居样本;之后,将各子簇的新故障数据样本加入到NF'中,获得均衡数据集NFB;步骤6、建立XGB

RF网络故障检测模型:首先,获得NFB中的第个样本特征,利用XGBoost算法构建出分类效果最优的XGBoost模型;其中,,为样本特征总数;根据每个在XGBoost算法中的所有树中分割训练NFB的次数,计算的重要性得分,选择个值最大的样本特征,删除剩余未被选择的样本特征,从而得到完成特征选择的NFB;将完成特征选择的NFB输入到随机森林模型中,实现网络故障检测模型的构建。
[0008]作为本专利技术所述的一种面向网络管理系统的故障检测方法进一步优化方案,步骤6中,所述特征重要性得分,其中表示损失函数,表示在构建出分类效果最优的XGBoost模型的过程中、使用分割训练NFB的次数,为初始迭代次数,表示惩罚系数,表示惩罚项,和分别表示分割后得到的左子树和右子树的权重。
[0009]作为本专利技术所述的一种面向网络管理系统的故障检测方法进一步优化方案,第i
子簇簇中心到非故障样本的类中心的类

簇间距离,其中,非故障样本的类中心是通过求类中所有数据点的平均值求得的,即为非故障样本中每个特征中所有样本的均值;为第i子簇的簇中心,表示第i子簇簇中心样本的第m特征的值,为非故障样本中第m特征。
[0010]基于上述的一种面向网络管理系统的故障检测方法的装置,包括数据预处理模块、故障数据样本获取模块、处理模块、新样本合成模块以及故障检测模块,其中,数据预处理模块,用于原始不均衡网络故障数据的压缩和过滤操作,得到处理后数据集NF';故障数据样本获取模块,用于获取NF';处理模块,用于计算故障样本各簇待新合成的故障数据样本数;新样例合成模块:用于构建新合成故障数据样本的合成规则,获得均衡数据集NFB;故障检测模块,用于建立XGB

RF网络故障检测模型,实现网络故障检测。
[0011]本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:(1)相比于现有技术,本专利技术重点考虑了网络故障样本的空间分布,增加了数据压缩和过滤操作,节约了样本的存储空间,更加有效的进行后续的过采样操作;构建了新合成样本的空间分布分配规则和新样本合成规则,对于携带更多有用信息的故障样本区域,选择出更多的优选样例,用于合成更多的新样本;建立了XGB

RF网络故障检测模型,利用集成学习的方法获取指控网络特征数据,进行特征选择,进行特征选择;通过随机森林中的每棵树构建过程和投票机制,实现网络故障检测模型的构建;(2)本专利技术通过对网络管理系统采集得到的数据进行过采样处理,获得充足的故障数据辅助故障检测模型的训练和评估,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向网络管理系统的故障检测方法,其特征在于,包括以下步骤:步骤1、获取原始不均衡网络故障数据集NF,对NF进行压缩和过滤操作,得到处理后数据集NF',NF'包括样本,样本包括两种类型样本,两种类型样本是指非故障样本和故障样本;步骤2、获取不均衡比例I,所述不均衡比例I=非故障样本的数目/故障样本的数目;步骤3、预先设置一个采样后的两种类型样本数目的比例,,根据获取新合成故障数据样本的数目N,N= 故障样本的数目

非故障样本的数目;步骤4、构建新合成故障数据样本的空间分布分配规则:首先对于故障样本,使用k

means方法聚类划分为K个子簇;其次对于非故障样本和故障样本划分后的各个子簇,分别获取非故障样本的类中心以及故障样本每个子簇的簇中心,得到各子簇簇中心到非故障样本的类中心的类

簇间距离;根据第i子簇簇中心到非故障样本的类中心的类

簇间距离,建立权重值计算公式,根据权重值计算公式和计算出第i子簇的权重值;获取故障样本的第i子簇待新合成的故障数据样本数 ;步骤5、构建新合成故障数据样本的合成规则:首先以子簇为单位,遍历第子簇中故障样本到该子簇簇中心的距离,故障样本按距离大小升序排列,选取前个故障数据样本作为第子簇的优选样例,根据合成方法,使用合成第子簇的新故障数据样本;其中,,k为基于K近邻算法寻找某一优选样例的k个最近的邻居样本;之后,将各子簇的新故障数据样本加入到NF'中,获得均衡数据集NFB;步骤6、建立XGB

RF网络故障检测模型:首先,获得NFB中的第个样本特征,利用XGBoost算法构...

【专利技术属性】
技术研发人员:潘成胜杨雯升张艳艳金爱鑫朱江
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1