基于数据增强和自监督特征增强的网络入侵检测方法技术

技术编号:34770326 阅读:20 留言:0更新日期:2022-08-31 19:30
本发明专利技术公开了基于数据增强和自监督特征增强的网络入侵检测方法,该方法包括:对数据进行预处理,预处理后的数据集包括正常样本和攻击类样本,使用自编码器对攻击类样本进行数据增强,扩充攻击类样本数;构建CNN

【技术实现步骤摘要】
基于数据增强和自监督特征增强的网络入侵检测方法


[0001]本专利技术涉及网络
,具体涉及基于数据增强和自监督特征增强的网络入侵检测方法。

技术介绍

[0002]随着互联网技术的快速发展,我国已然进入信息化大数据时代。物联网,云计算等互联网新技术的应用在给人们带来巨大便利的同时,也让人们处在网络安全隐患威胁当中。特别是数据泄露、网络入侵等网络安全问题日益严峻,引起了人们对网络安全的高度重视。
[0003]尽管网络入侵检测技术已经发展了数十年,但是现有的网络入侵检测技术仍然面临着日益复杂的互联网攻击和海量数据入侵检测的挑战,准确检测异常流量对于网络安全性和可靠性尤为重要,现有的基于传统的机器学习方法是简单的浅层特征学习,面对大规模高维网络流量数据,往往需要进行复杂的特征提取工程,且准确率较低。而深度学习网络不需要复杂的特征工程就可以自动进行高维数据的特征选择,更适合用于网络入侵检测。
[0004]在目前使用自编码器网络的网络入侵检测模型中,绝大多数自编码器网络用于降维或者数据增强,然而自编码器作为自监督模型的一种,最主要的目的就是学习到更丰富的信息表征。实际上我们不仅可以用自编码器进行数据增强扩充攻击流量的数量,还可以用自编码器从原始网络中学习到更丰富的特征以增加流量的特征信息对流量特征进行增强。
[0005]虽然现有的基于数据增强的网络入侵检测模型有很多,但是应用于网络入侵检测中的特征增强还鲜少有学者进行研究。本专利技术在对攻击流量样本进行数据增强的同时还采用半自监督模型对流量特征进行增强。

技术实现思路

[0006]本专利技术目的:在于提供基于数据增强和自监督特征增强的网络入侵检测方法,设计了一种自编码器对攻击类流量进行流量数据扩充,解决了攻击类样本不足的问题,将扩充后的网络流量数据样本输入到所设计的CNN

BiLSTM神经网络中训练提取高维时空流量特征,并且通过自编码器网络从原始网络流量数据样本中学习更丰富的信息表征进行特征增强,生成自监督特征,将高维时空流量特征和自监督特征形成的组合特征输入分类网络进行分类;该方法能够有效提高网络入侵的检测精度,提高了对未知攻击的检测功能,降低了误报率。
[0007]为实现以上功能,本专利技术设计基于数据增强和自监督特征增强的网络入侵检测方法,基于数据增强和自监督特征增强的网络入侵检测方法,按预设周期执行步骤S1

步骤S4,获得网络入侵检测模型,然后应用网络入侵检测模型,对网络流量进行分类,实现网络入侵检测的功能;
[0008]S1:对网络流量数据集做数据分析,根据数据分析结果进行数据预处理,数据预处
理方法具体包括:对网络流量数据集进行标准化处理,即采用独热编码将符号特征转换成数值特征表示;并使用所提基于四分位距的异常值处理算法,对数值特征进行异常值处理;对经过标准化和异常值处理后的数据集进行Min

Max Scaling将数值归一化到0到1之间。以网络流量数据集中的网络流量样本为输入,以经过预处理的网络流量数据集中的网络流量样本为输出,构建网络流量数据预处理模块;
[0009]S2:网络流量数据集包括训练数据集、测试数据集,训练数据集、测试数据集中的网络流量样本包括攻击类样本,以经过预处理的网络流量数据集中训练数据集的攻击类样本为输入,构建数据增强自编码器网络对攻击类样本进行数据增强处理,生成预设数量的攻击类样本,基于生成的攻击类样本和步骤S1所获得的经过预处理的网络流量数据集中训练数据集中的网络流量样本,构建最终训练数据集,并输出最终训练数据集,构建攻击类样本增强模块;
[0010]S3:以步骤S2所获得的最终训练数据集中的网络流量样本为输入,基于CNN

BiLSTM神经网络和特征增强自编码器网络构建半自监督模型,并应用半自监督模型进行特征提取,以提取到的高维时空流量特征和自监督特征作为输出,构建半自监督特征提取模块;
[0011]S4:将半自监督特征提取模块输出的高维时空流量特征和自监督特征合并,获得特征增强后的最终特征,输入到分类网络中进行预测分类,并结合分类结果,采用自定义的损失函数作为评估标准对半自监督模型进行预设次数的迭代训练,对半自监督模型参数进行更新,获得网络入侵检测模型,实现网络入侵检测的功能。
[0012]作为本专利技术的一种优选技术方案:步骤S1中构建网络流量数据预处理模块的具体步骤如下:
[0013]S11:网络流量数据集包含的特征类型为数值特征和符号特征,对网络流量数据集进行标准化处理,基于独热编码方法将符号特征转换成数值特征表示。
[0014]基于四分位距的异常值处理算法,根据预设步骤S12

S14对于数值特征进行异常值处理:
[0015]S12:计算网络流量数据集每个数值特征所有数据的第一四分位数Q1和第三四分位数Q3,根据公式(1)计算每个数值特征所有数据的四分位距IQR;
[0016]IQR=Q3‑
Q1ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0017]S13:基于网络流量数据集中每个数值特征所有数据的第三四分位数Q3和四分位距IQR,根据公式(2)计算网络流量样本的异常值边界OF;
[0018]OF=Q3+1.5*IQR
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0019]S14:基于步骤S13得到的四分位距IQR和异常值边界OF,提出一种异常值处理算法,其简化形式如公式(3)所示,并应用该异常值处理算法对网络流量数据集进行异常值处理:
[0020][0021]式(3)中x为网络流量数据集中其中一个数值特征对应的数据,OF为该数值特征所有数据的异常值边界;
[0022]S15:基于Min

Max Scaling方法,根据公式(4)对经过标准化处理和异常值处理后的网络流量数据集进行归一化处理:
[0023][0024]式(4)中,x为网络流量数据集中其中一个数值特征对应的数据,x
max
为数值特征对应数据中的最大值,x
min
为数值特征对应数据中的最小值,x
*
表示归一化后的数值特征对应数据。
[0025]作为本专利技术的一种优选技术方案:步骤S2中以经过预处理的网络流量数据集中训练数据集的攻击类样本为输入,构建数据增强自编码器网络对攻击类样本进行数据增强处理,生成预设数量的攻击类样本,基于生成的攻击类样本和步骤S1所获得的经过预处理的网络流量数据集中训练数据集中的网络流量样本,构建最终训练数据集,并输出最终训练数据集,构建攻击类样本增强模块的具体步骤如下:
[0026]S21:将经过预处理的训练数据集中的攻击类样本x
i
输入到数据增强自编码器中,输出攻击类样本对应的重构样本基于攻击类样本及其对应的重构样本经过log_softmax分类器和so本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于数据增强和自监督特征增强的网络入侵检测方法,其特征在于,按预设周期执行步骤S1

步骤S4,获得网络入侵检测模型,然后应用网络入侵检测模型,对网络流量进行分类,实现网络入侵检测的功能;S1:对网络流量数据集做数据分析,根据数据分析结果进行数据预处理,数据预处理方法具体包括:对网络流量数据集进行标准化处理,即采用独热编码将符号特征转换成数值特征表示;并使用所提基于四分位距的异常值处理算法,对数值特征进行异常值处理;对经过标准化和异常值处理后的数据集进行Min

Max Scaling将数值归一化到0到1之间;以网络流量数据集中的网络流量样本为输入,以经过预处理的网络流量数据集中的网络流量样本为输出,构建网络流量数据预处理模块;S2:网络流量数据集包括训练数据集、测试数据集,训练数据集、测试数据集中的网络流量样本包括攻击类样本,以经过预处理的网络流量数据集中训练数据集的攻击类样本为输入,构建数据增强自编码器网络对攻击类样本进行数据增强处理,生成预设数量的攻击类样本,基于生成的攻击类样本和步骤S1所获得的经过预处理的网络流量数据集中训练数据集中的网络流量样本,构建最终训练数据集,并输出最终训练数据集,构建攻击类样本增强模块;S3:以步骤S2所获得的最终训练数据集中的网络流量样本为输入,基于CNN

BiLSTM神经网络和特征增强自编码器网络构建半自监督模型,并应用半自监督模型进行特征提取,以提取到的高维时空流量特征和自监督特征作为输出,构建半自监督特征提取模块;S4:将半自监督特征提取模块输出的高维时空流量特征和自监督特征合并,获得特征增强后的最终特征,输入到分类网络中进行预测分类,并结合分类结果,采用自定义的损失函数作为评估标准对半自监督模型进行预设次数的迭代训练,对半自监督模型参数进行更新,获得网络入侵检测模型,实现网络入侵检测的功能。2.根据权利要求1所述的基于数据增强和自监督特征增强的网络入侵检测方法,其特征在于,步骤S1中构建网络流量数据预处理模块的具体步骤如下:S11:网络流量数据集包含的特征类型为数值特征和符号特征,对网络流量数据集进行标准化处理,基于独热编码方法将符号特征转换成数值特征表示;基于四分位距的异常值处理算法,根据预设步骤S12

步骤S14对于数值特征进行异常值处理:S12:计算网络流量数据集每个数值特征所有数据的第一四分位数Q1和第三四分位数Q3,根据公式(1)计算每个数值特征所有数据的四分位距IQR;IQR=Q3‑
Q1ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)S13:基于网络流量数据集中每个数值特征所有数据的第三四分位数Q3和四分位距IQR,根据公式(2)计算网络流量样本的异常值边界OF;OF=Q3+1.5*IQR
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)S14:基于步骤S13得到的四分位距IQR和异常值边界OF,提出一种异常值处理算法,其简化形式如公式(3)所示,并应用该异常值处理算法对网络流量数据集进行异常值处理:
式(3)中x为网络流量数据集中其中一个数值特征对应的数据,OF为该数值特征所有数据的异常值边界;S15:基于Min

Max Scaling方法,根据公式(4)对经过标准化处理和异常值处理后的网络流量数据集进行归一化处理:式(4)中,x为网络流量数据集中其中一个数值特征对应的数据,x
max
为数值特征对应数据中的最大值,x
min
为数值特征对应数据中的最小值,x
*
表示归一化后的数值特征对应数据。3.根据权利要求2所述的基于数据增强和自监督特征增强的网络入侵检测方法,其特征在于,步骤S2中以经过预处理的网络流量数据集中训练数据集的攻击类样本为输入,构建数据增强自编码器网络对攻击类样本进行数据增强处理,生成预设数量的攻击类样本,基于生成的攻击类样本和步骤S1所获得的经过预处理的网络流量数据集中训练数据集中的网络流量样本,构建最终训练数据集,并输出最终训练数据集,构建攻击类样本增强模块的具体步骤如下:S21:将经过预处理的训练数据集中的攻击类样本x
i
输入到数据增强自编码器中,输出攻击类样本对应的重构样本基于攻击类样本及其对应的重构样本经过log_softmax分类器和softmax分类器的数据分布,计算出KL散度,MSE损失,并结合KL散度和MSE损失,构建自定义损失函数L1,具体如公式(5),(6),(7)所示:,具体如公式(5),(6),(7)所示:L1=0.5MSE+0.5D
KL1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)其中,x
i
...

【专利技术属性】
技术研发人员:行鸿彦梁欣怡侯天浩
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1