一种基于多维攻击特征融合的半监督网络流量异常检测方法技术

技术编号：42367648 阅读：7 留言：0更新日期：2024-08-16 14:49

本发明专利技术提供了一种基于多维攻击特征融合的半监督网络流量异常检测方法，包括：步骤S1：收集网络流量，得到初始带标签数据集、无标签数据集及测试集；步骤S2：得到多组攻击类的特征组及特征重要性分数；步骤S3：得到多个攻击特征重要性向量；步骤S4：利用得到的攻击特征重要性向量计算它们之间相似度；步骤S5:采用堆栈集成学习的方式综合所有的分类结果得到元分类器；步骤S6：对初始带标签数据集进行10倍交叉验证获得模糊度阈值和方差阈值；步骤S7:训练新模型。本发明专利技术设计了一种相似攻击特征组融合的策略缓解特征选择效果不佳的影响，此外通过双重约束机制旨在半监督环境下有效筛选出具有高信息价值的伪标签样本，进一步提高了模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习与网络入侵检测，特别是一种基于多维攻击特征融合的半监督网络流量异常检测方法。

技术介绍

1、网络攻击日益复杂多样，网络安全形势日益严峻。因此设计一种高效的网络异常检测方法极其迫切。网络流量中包含大量无标签数据，在实际应用中，半监督下特征选择面临着标记数据有限的挑战，因此如何在有限数据集对特征进行充分挖掘以确保特征选择的效果是一个难点。此外，在半监督学习中，引入高质量的伪标签是一种常见的策略，但如何在半监督框架下评估伪标签的质量仍然是一个凾待解决的问题。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种基于多维攻击特征融合的半监督网络流量异常检测方法，利用相似攻击特征组融合的策略缓解特征选择效果不佳的影响，并通过双重约束机制在半监督环境下有效筛选出具有高信息价值的伪标签样本，进一步提高了模型的性能。

2、为实现上述目的，本专利技术采用如下技术方案：一种基于多维攻击特征融合的半监督网络流量异常检测方法，包括如下步骤：

3、步骤s1：从网络数据流中收集网络流量，预处理后得到初始带标签数据集dlabeled、无标签数据集dunlabeled及测试集dtest；

4、步骤s2：对带标签数据集dlabeled构建基于攻击类的二分类数据集并对其进行特征选择，标签数据中共有n组攻击类，得到包含n组攻击类的特征组的集合及攻击特征重要性评分向量集合其中表示第j个攻击类的二分类数据集下特征选择结果，表示第j个攻击类的二分类数据集下特征重要性评分向量；

5、步骤s3：分析数据集特征，将特征划分为k个维度，计算不同攻击特征组在k个维度上的特征重要性分数，得到攻击特征重要性向量sj＝{sj1,sj2,.....,sjk},sj表示第j个攻击类别的特征重要性向量；

6、步骤s4：利用得到的攻击特征重要性向量计算它们之间相似度以及相似度平均值，如果两个攻击类相似度高于平均相似度，则对这两个攻击类进行特征融合、去重，共得到q组攻击特征融合组{f'1,f'2,......f'q}，构建最后基于攻击融合特征组构建q个攻击融合子集；

7、步骤s5:对多个攻击融合子集采用堆栈集成学习的方式进行训练模型；

8、步骤s6：对初始带标签数据集进行10倍交叉验证获得模糊度阈值和方差阈值，以此为约束条件获得高质量的伪标签数据集；

9、步骤s7:将原始带标签数据集与高质量的伪标签数据集组合构建新训练集，并训练新模型。

10、在一较佳的实施例中，步骤s1具体为：

11、s11:将数据集非连续的数值特征以及映射到数值特征空间中；

12、s12:删除数据集中存在的异常值。

13、在一较佳的实施例中，步骤s2具体为：

14、步骤s21:假设yi为样本的类别标签，当yi为零时，表明为正常样本，而yi非零时，代表为攻击样本，yi∈{0,1,2,…,n}，对样本的类别标签使用公式(1)进行标签调整，其中j表示第j个攻击类别，表示j攻击类别的二分类数据集中第i个样本的标签，生成n个二分类的数据集，即dattack＝{d1,d2,......,dn}，生成的数据集的特征保持不变；

15、

16、步骤s22:对多个基于攻击类的二分类数据集dattack＝{d1,d2,......,dn}分别进行特征选择，得到包含n组攻击类的特征组的集合及特征重要性分数向量集合

17、在一较佳的实施例中，步骤s3具体为：

18、步骤s31:对原始数据集d进行分析，根据数据集特征的特点将原始特征集d特征分为k个维度的特征，如公式(2)所示，其中fz表示第z个维度包含的特征，m为数据集的特征数；

19、f＝f1∪f2∪fz…∪fk＝{f1,f2,.....,fm} (2)

20、步骤s32:依据维度的划分，将每个维度的特征的重要性评分相加获得基于维度的特征重要性评分获得攻击类别的特征重要性向量sj＝{sj1,sj2,.....,sjk}，如公式(3)、(4)所示；

21、

22、

23、其中sjz表示第j个攻击类第z个维度特征重要性，表示特征重要性评分simp中第j个元素中第t分量，即第j个攻击类第t个特征重要性评分，ft表示数据集中第t个特征，cjzt表示第j个攻击类中第z个维度特征中是否包含特征ft。

24、在一较佳的实施例中，步骤s4具体为：

25、s41:对攻击类别的特征重要性向量使用余弦距离公式(5)

26、

27、获得所有攻击类别间的相似度，计算攻击类别间平均相似度，如果两个攻击类相似度高于平均相似度，则对这两个攻击类进行特征融合、去重，共得到q组攻击特征融合组{f'1,f'2,......f'q}，最后基于攻击特征融合组集合构建q个攻击融合子集。；

28、在一较佳的实施例中，步骤s5具体为：

29、s51：通过得到的多个攻击融合特征子集训练基分类器得到初步分类结果，并用堆栈集成学习的元分类器综合得到最终的分类结果，得到初级模型。

30、在一较佳的实施例中，步骤s6具体为：

31、s61：将标记数据集随机划分成十个数据集，每次选取单个子数据集作为测试集，剩余的九个数据集作为训练集，重复在xgboost上训练十次得到所有的样本的隶属度向量矩阵u＝(μij)(l×(n+1))，其中隶属度矩阵u的元素满足公式(6)的条件；

32、

33、其中μij表示第i个样本属于第j类的隶属度，l为总样本数；

34、s62:根据公式(7)

35、

36、计算出每个样本隶属度向量的模糊度；

37、s63:将xgboost分类器的预测结果与实际的样本标签比较，筛选出正确预测的样本模糊度，取最大的模糊度作为模糊度阈值；

38、s64:方差阈值与模糊度阈值的确定方式类似，通过筛选出正确预测的样本，计算样本的隶属度之间的方差，如公式(8)所示

39、

40、最后统计获得所有正确预测样本隶属度向量的方差的最小值，以方差的最小值作为方差阈值；

41、s65:将无标签数据集放入初级模型中训练，通过其预测结果计算隶属度向量模糊度及方差，当模型预测的隶属度向量模糊度小于模糊度阈值且方差大于方差阈值的样本被认为是高质量的伪标签样本，否则认为是低质量的伪标签样本。

42、在一较佳的实施例中，步骤s7具体为：

43、s71:将步骤得到的高质量伪标签数据与原始带标签数据合并为新数据集，并训练更新元分类器模型；

44、s72:通过得到测试集的预测标签与其真实标签进行对比，得到最终预测结果。

45、与现有技术相比，本专利技术具有以下有益效果：本专利技术设计了一种相似攻击特征组融合的策略缓解特征选择效果不佳的影响，本文档来自技高网...

【技术保护点】

1.一种基于多维攻击特征融合的半监督网络流量异常检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于多维攻击特征融合的半监督网络流量异常检测方法，其特征在于，步骤S1具体为：

3.根据权利要求1所述的一种基于多维攻击特征融合的半监督网络流量异常检测方法，其特征在于，步骤S2具体为：

4.根据权利要求1所述的一种基于多维攻击特征融合的半监督网络流量异常检测方法，其特征在于，步骤S3具体为：

5.根据权利要求1所述的一种基于多维攻击特征融合的半监督网络流量异常检测方法，其特征在于，步骤S4具体为：

6.根据权利要求1所述的一种基于多维攻击特征融合的半监督网络流量异常检测方法，其特征在于，步骤S5具体为：

7.根据权利要求1所述的一种基于多维攻击特征融合的半监督网络流量异常检测方法，其特征在于，步骤S6具体为：

8.根据权利要求1所述的一种基于多维攻击特征融合的半监督网络流量异常检测方法，其特征在于，步骤S7具体为：

【技术特征摘要】

1.一种基于多维攻击特征融合的半监督网络流量异常检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于多维攻击特征融合的半监督网络流量异常检测方法，其特征在于，步骤s1具体为：

3.根据权利要求1所述的一种基于多维攻击特征融合的半监督网络流量异常检测方法，其特征在于，步骤s2具体为：

4.根据权利要求1所述的一种基于多维攻击特征融合的半监督网络流量异常检测方法，其特征在于，步骤s3具体为：

5....

【专利技术属性】
技术研发人员：张浩，顾铮耀，张锋艺，
申请(专利权)人：福州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人