一种基于生成对抗网络过采样的网络入侵检测方法技术

技术编号:27977434 阅读:27 留言:0更新日期:2021-04-06 14:12
本发明专利技术公开了一种基于生成对抗网络过采样的网络入侵检测方法,先选取网络入侵检测数据集中的主要特征,对主要特征进行数据预处理,得到训练集,再通过CGAN模型对训练集中的不平衡数据过采样,然后输入到网络入侵检测模型中进行训练,训练完成以后使用测试集对网络入侵检测模型进行测试。本发明专利技术通过CGAN模型产生的过采样样本,先解决了数据的不平衡问题以后再对检测模型进行训练,使得检测模型对样本数量较少类别的分类更加准确,以此提高了检测模型整体的准确率。

【技术实现步骤摘要】
一种基于生成对抗网络过采样的网络入侵检测方法
本专利技术属于网络安全
,更具体的说是涉及一种基于生成对抗网络过采样的网络入侵检测方法。
技术介绍
计算机技术的飞速发展,网络攻击事件频繁发生,越来越多的研究者投入网络入侵检测模型的研究中。网络入侵检测是指对异常的网络流量和活动进行监控,并将其与正常的网络预期行为进行区分。检测模型在实际应用中的检测准确率高度依赖于训练模型的数据集。在实际应用中,由于网络入侵行为并不是时刻都在发生的,所以在进行数据样本捕捉时异常样本数量通常要远少于正常样本,导致大多数的网络入侵检测数据集都存在数据不平衡的问题。直接使用不平衡的数据集对网络入侵检测模型进行训练往往效果不佳,因为它们会导致分类结果偏向于样本数量多的类,使得检测模型准确率下降。因此,如何提供一种基于生成对抗网络过采样的网络入侵检测方法是本领域技术人员亟需解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种基于生成对抗网络过采样的网络入侵检测方法,通过CGAN模型产生的过采样样本,先解决了数据的不平衡问题以后再对检测模型进行训练,使得检测模型对样本数量较少类别的分类更加准确,以此提高了检测模型整体的准确率。为了实现上述目的,本专利技术采用如下技术方案:一种基于生成对抗网络过采样的网络入侵检测方法,先选取网络入侵检测数据集中的主要特征,对主要特征进行数据预处理,得到训练集,再通过CGAN模型对训练集中的不平衡数据过采样,然后输入到网络入侵检测模型中进行训练,训练完成以后使用测试集对网络入侵检测模型进行测试。优选的,网络入侵检测数据集中的主要特征包括TCP连接基本特征、TCP连接的内容特征、基于时间的网络流量统计特征以及基于主机的网络流量统计特征。优选的,数据预处理包括:非数值型特征属性数值化、数据标准化以及构建标签y集合。优选的,CGAN模型训练完成以后,以训练集中的不平衡数据作为原始数据,结合数据的类别标签对不平衡样本进行过采样,过采样完成后数据集中所有类别样本数量相等。优选的,CGAN模型过采样技术是在GAN模型的基础上,添加一个条件信息,限制GAN模型生成特定条件下的样本以完成数据过采样。优选的,GAN模型由两个神经网络模型组成,一个为生成模型G,一个是判别模型D;GAN模型在训练时,生成模型以随机噪声z~Pz(z)作为输入,然后尽量生成与原始样本符合同一分布的生成样本作为生成模型输出;判别模型的输入由生成样本和原始样本组成,目标是判别出两种样本,输出为概率值,若输入来自原始样本则输出1,若输入来自生成样本则输出0;同时判别模型还会给生成模型一个反馈信息,用于指导生成模型的训练,更新生成模型的参数;生成模型的目标是生成能欺骗判别模型的生成样本,判别模型的目标是判别出生成样本和原始样本,通过不断的对抗训练优化,最终达到一个纳什均衡状态,此时判别模型每次输出的概率值都是0.5,GAN模型达到最优。优选的,GAN模型损失函数如下:其中D(x)为判别模型判别原始样本x为真的概率,D(G(z))为判别生成样本G(z)为真的概率,表示对log[D(x)]求期望,表示对log[1-D(G(z))]求期望。优选的,CGAN模型在GAN模型的基础上添加的条件信息为y~P(y),y~P(y)分别与x和z进行合并,作为G和D的输入;CGAN模型的损失函数如下:其中,x为原始样本,z为生成样本,D(x,y)为判别模型判别原始样本x在条件信息y下为真的概率,D(G(z,y),y)为判别模型判别生成样本G(z,y)在条件信息y下为真的概率;(x,y)值从数据分布Pdata(x,y)中采样,z值从噪声分布Pz(z)中采样,y值从条件信息向量中采样,用密度函数Py(y)表示,表示对log[D(x,y)]求期望,表示对log[1-D(G(z,y),y)]求期望。优选的,生成模型G将一个随机噪声z与条件信息y结合作为输入,通过神经网络学习到原始数据x与条件信息y的真实分布,生成能够以假乱真的G(z,y);生成模型用于尽量缩小G(z,y)与原始数据x的分布Pdata(x,y)间的差距;判别模型用于对输入的数据进行真假判断,当输入的数据来自于原始样本x时,D(x,y)期望输出1,当输入数据来自于生成样本G(z,y)时,D(G(z,y),y)期望输出0;通过交替训练生成模型和判别模型至平衡状态,使得两个输出都趋向于0.5,此时判别模型判别不了输入的数据是真实样本还是生成样本;CGAN模型训练至平衡状态以后,利用生成模型进行各种标签类型数据的过采样操作。优选的,CGAN的训练过程中,对于一小批m个训练样本和m个噪声样本判别模型和生成模型的梯度更新损失函数为如下:其中JD表示判别模型的损失,JG表示生成模型的损失;CGAN模型基于梯度更新交替训练JD和JG,以达到纳什均衡状态则利用生成模型进行各种标签类型数据的过采样操作。本专利技术的有益效果在于:本专利技术与直接使用训练集进行训练的网络入侵检测模型相比,通过CGAN模型产生的过采样样本,先解决了数据的不平衡问题以后再对检测模型进行训练,使得检测模型对样本数量较少类别的分类更加准确,大大提高了检测模型整体的准确率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1附图为本专利技术网络入侵检测方法流程图。图2附图为本专利技术GAN模型原理图。图3附图为本专利技术CGAN模型原理图。图4附图为本专利技术CGAN模型过采样流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅附图1,本专利技术提供了一种基于生成对抗网络过采样的网络入侵检测方法,先选取网络入侵检测数据集中的主要特征,对主要特征进行数据预处理,得到训练集,再通过CGAN模型对训练集中的不平衡数据过采样,然后输入到网络入侵检测模型中进行训练,训练完成以后使用测试集对网络入侵检测模型进行测试,查看检测准确率。本专利技术中网络入侵检测模型使用三隐层每层100个神经元的结构,激活函数选用Relu函数,并且使用Adam优化器进行最小损失的求解。过采样时,CGAN模型使用单隐含层的前馈神经网络作为模型的内部结构。网络入侵检测模型输入中的所有数据都必须是数值型数据,在数据集中出现非数值型数据时,需要将非数值型数据数值化,并且采用标准化方法对数据进行预处理操作。本实施例中,网络入侵检测数据集中的主要特征包括TC本文档来自技高网...

【技术保护点】
1.一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,先选取网络入侵检测数据集中的主要特征,对主要特征进行数据预处理,得到训练集,再通过CGAN模型对训练集中的不平衡数据过采样,然后输入到网络入侵检测模型中进行训练,训练完成以后使用测试集对网络入侵检测模型进行测试。/n

【技术特征摘要】
1.一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,先选取网络入侵检测数据集中的主要特征,对主要特征进行数据预处理,得到训练集,再通过CGAN模型对训练集中的不平衡数据过采样,然后输入到网络入侵检测模型中进行训练,训练完成以后使用测试集对网络入侵检测模型进行测试。


2.根据权利要求1所述的一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,网络入侵检测数据集中的主要特征包括TCP连接基本特征、TCP连接的内容特征、基于时间的网络流量统计特征以及基于主机的网络流量统计特征。


3.根据权利要求1所述的一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,数据预处理包括:非数值型特征属性数值化、数据标准化以及构建标签y集合。


4.根据权利要求1所述的一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,CGAN模型训练完成以后,以训练集中的不平衡数据作为原始数据,结合数据的类别标签对不平衡样本进行过采样,过采样完成后数据集中所有类别样本数量相等。


5.根据权利要求4所述的一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,CGAN模型过采样技术是在GAN模型的基础上,添加一个条件信息,限制GAN模型生成特定条件下的样本以完成数据过采样。


6.根据权利要求5所述的一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,GAN模型由两个神经网络模型组成,一个为生成模型G,一个是判别模型D;GAN模型在训练时,生成模型以随机噪声z~Pz(z)作为输入,然后尽量生成与原始样本符合同一分布的生成样本作为生成模型输出;判别模型的输入由生成样本和原始样本组成,目标是判别出两种样本,输出为概率值,若输入来自原始样本则输出1,若输入来自生成样本则输出0;同时判别模型还会给生成模型一个反馈信息,用于指导生成模型的训练,更新生成模型的参数;生成模型的目标是生成能欺骗判别模型的生成样本,判别模型的目标是判别出生成样本和原始样本,通过不断的对抗训练优化,最终达到一个纳什均衡状态,此时判别模型每次输出的概率值都是0.5,GAN模型达到最优。


7.根据权利要求6所述的一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,GAN模型损失函数如...

【专利技术属性】
技术研发人员:雷震春马明磊杨印根
申请(专利权)人:江西师范大学
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1