本发明专利技术公开了一种基于特征选择和深度神经网络的网络入侵检测方法,包括:基于lightGBM模型和随机森林模型进行特征选择;获取包含网络入侵和正常数据的网络流量数据集,根据深度学习特征从网络流量数据集中提取网络流量子集,使用归一化方法对连续型特征进行预处理,并使用嵌入方法对离散型特征进行预处理,将预处理后的网络流量子集随机分为训练集和测试集;利用训练集对深度神经网络进行训练,直至深度神经网络针对测试集的检测达到预设的检测效果;利用训练后的深度神经网络对待处理的网络流量进行网络入侵检测。本发明专利技术有效提高模型训练效率以及检测效果。提高模型训练效率以及检测效果。提高模型训练效率以及检测效果。
【技术实现步骤摘要】
一种基于特征选择和深度神经网络的网络入侵检测方法
[0001]本专利技术属于网络安全
,具体涉及一种基于特征选择和深度神经网络的网络入侵检测方法。
技术介绍
[0002]随着互联网的快速发展,网络已经成为日常生活中必不可少的重要基础设施。网络在带来便利的同时也带来了安全隐患,网站被入侵、个人信息被盗取、勒索软件等问题严重影响了人们的日常工作和生活。为了促进网络空间生态的健康长久发展,必须有效解决网络空间的安全问题。网络入侵是各种网络威胁中出现频率最高、危害最大的。
[0003]网络入侵检测系统是应对网络入侵有效的办法。近年来,深度学习被应用于网络入侵检测模型的构建中,提高了入侵检测的准确率。然而现有网络入侵检测数据集中存在大量冗余无效特征,不仅降低了模型训练的效率也干扰了模型检测效果。在进行网络入侵检测模型训练之前通常需要根据专业知识进行特征选择。因此特征选择的好坏决定了最终模型检测效果。此外现有模型对未知的网络入侵方法检测效果并不理想。
技术实现思路
[0004]本专利技术的目的在于提供一种基于特征选择和深度神经网络的网络入侵检测方法,提高模型训练效率以及检测效果。
[0005]为实现上述目的,本专利技术所采取的技术方案为:
[0006]一种基于特征选择和深度神经网络的网络入侵检测方法,所述基于特征选择和深度神经网络的网络入侵检测方法,包括:
[0007]步骤1、基于lightGBM模型和随机森林模型进行特征选择,包括:
[0008]步骤1.1、利用lightGBM模型计算网络流量特征的重要性评分;
[0009]步骤1.2、利用随机森林模型计算网络流量特征的重要性评分;
[0010]步骤1.3、聚合lightGBM模型和随机森林模型输出的重要性评分得到综合重要性评分;
[0011]步骤1.4、选取综合重要性评分高的网络流量特征作为深度学习特征;
[0012]步骤2、获取包含网络入侵和正常数据的网络流量数据集,根据深度学习特征从网络流量数据集中提取网络流量子集,使用归一化方法对连续型特征进行预处理,并使用嵌入方法对离散型特征进行预处理,将预处理后的网络流量子集随机分为训练集和测试集;
[0013]步骤3、利用训练集对深度神经网络进行训练,直至深度神经网络针对测试集的检测达到预设的检测效果;
[0014]步骤4、利用训练后的深度神经网络对待处理的网络流量进行网络入侵检测。
[0015]以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
[0016]作为优选,所述利用lightGBM模型计算网络流量特征的重要性评分,包括:
[0017][0018]式中,ImpG
f
表示lightGBM模型输出的网络流量特征f的重要性评分,n1表示lightGBM模型中决策树的数量,Split
f,i
表示网络流量特征f在第i棵决策树上的分裂次数。
[0019]作为优选,所述利用随机森林模型计算网络流量特征的重要性评分,包括:
[0020][0021]式中,ImpR
f
表示随机森林模型输出的网络流量特征f的重要性评分,n2表示随机森林模型中决策树的数量,表示在第j棵决策树中随机置换网络流量特征f后的误差率,表示在第j棵决策树中随机置换网络流量特征f后的误差率的平均值。
[0022]作为优选,所述聚合lightGBM模型和随机森林模型输出的重要性评分得到综合重要性评分,包括:
[0023]对lightGBM模型和随机森林模型输出的重要性评分进行归一化处理:
[0024][0025][0026]式中,ImpG
′
f
表示lightGBM模型输出的网络流量特征f的重要性评分归一化后的值,min(ImpG)表示lightGBM模型输出的重要性评分的最小值,max(ImpG)表示lightGBM模型输出的重要性评分的最大值,ImpR
′
f
表示随机森林模型输出的网络流量特征f的重要性评分归一化后的值,min(ImpR)表示随机森林模型输出的重要性评分的最小值,max(ImpR)表示随机森林模型输出的重要性评分的最大值;
[0027]综合重要性评分的计算:
[0028][0029]式中,Imp
′
f
表示网络流量特征f的综合重要性评分。
[0030]作为优选,所述使用归一化方法对连续型特征进行预处理,包括:
[0031][0032]式中,f
norm
表示连续型特征归一化后的值,f表示连续型特征归一化前的值,min(f)表示连续型特征中的最小值,max(f)表示连续型特征中的最大值;
[0033]所述使用嵌入方法对离散型特征进行预处理,包括:
[0034]E=Embeding(m,d)
[0035]e=E*onehot(f)
[0036]式中,E表示离散型特征的嵌入矩阵,m表示离散型特征f的取值种类,d表示嵌入向量维度,e表示离散型特征f预处理后的嵌入表示,onehot(f)表示计算离散型特征f的独热向量表示。
[0037]本专利技术提供的基于特征选择和深度神经网络的网络入侵检测方法,通过结合随机森林模型和lightGBM模型两种不同的特征选择方法更有效的进行特征选择;通过深度神经网络学习特征的非线性关系,提高模型对未知攻击的检查能力。
附图说明
[0038]图1为本专利技术的基于特征选择和深度神经网络的网络入侵检测方法的流程图;
[0039]图2为本专利技术深度神经网络的训练图。
具体实施方式
[0040]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0041]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本专利技术。
[0042]针对网络入侵检测数据特征高维高冗余的特点,以及现有模型对未知网络入侵检测效果差的现状,本实施例提出了一种基于特征选择和深度学习的网络入侵检测方法;通过聚合LightGBM模型和随机森林模型对流量特征的重要性评分,提取流量特征子集;在流量特征子集上使用深度学习方法构建网络入侵检测模型,提高模型对未知网络入侵检测的泛化能力。
[0043]如图1所示,本实施例的基于特征选择和深度神经网络的网络入侵检测方法,包括以下步骤:
[0044]步骤1、基于l本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于特征选择和深度神经网络的网络入侵检测方法,其特征在于,所述基于特征选择和深度神经网络的网络入侵检测方法,包括:步骤1、基于lightGBM模型和随机森林模型进行特征选择,包括:步骤1.1、利用lightGBM模型计算网络流量特征的重要性评分;步骤1.2、利用随机森林模型计算网络流量特征的重要性评分;步骤1.3、聚合lightGBM模型和随机森林模型输出的重要性评分得到综合重要性评分;步骤1.4、选取综合重要性评分高的网络流量特征作为深度学习特征;步骤2、获取包含网络入侵和正常数据的网络流量数据集,根据深度学习特征从网络流量数据集中提取网络流量子集,使用归一化方法对连续型特征进行预处理,并使用嵌入方法对离散型特征进行预处理,将预处理后的网络流量子集随机分为训练集和测试集;步骤3、利用训练集对深度神经网络进行训练,直至深度神经网络针对测试集的检测达到预设的检测效果;步骤4、利用训练后的深度神经网络对待处理的网络流量进行网络入侵检测。2.如权利要求1所述的基于特征选择和深度神经网络的网络入侵检测方法,其特征在于,所述利用lightGBM模型计算网络流量特征的重要性评分,包括:式中,ImpG
f
表示lightGBM模型输出的网络流量特征f的重要性评分,n1表示lightGBM模型中决策树的数量,Split
f,i
表示网络流量特征f在第i棵决策树上的分裂次数。3.如权利要求2所述的基于特征选择和深度神经网络的网络入侵检测方法,其特征在于,所述利用随机森林模型计算网络流量特征的重要性评分,包括:式中,ImpR
f
表示随机森林模型输出的网络流量特征f的重要性评分,n2表示随机森林模型中决策树的数量,表示在第j棵决策树中随机置换网络流量特征f后的误差率,表示在第j棵决策树中...
【专利技术属性】
技术研发人员:吕明琪,徐康,陈铁明,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。