一种基于GAN的不平衡网络入侵数据检测系统及其方法技术方案

技术编号:37966307 阅读:7 留言:0更新日期:2023-06-30 09:41
本发明专利技术公开了一种基于GAN的不平衡网络入侵数据检测系统系统及其方法,该系统包括:GAN

【技术实现步骤摘要】
一种基于GAN的不平衡网络入侵数据检测系统及其方法


[0001]本专利技术涉及异常检测
,更具体的说是涉及一种基于GAN的不平衡网络入侵数据检测系统及其方法。

技术介绍

[0002]入侵检测技术概念于1980年由美国专家James.P.Anderson首次提出,Heady将入侵行为看作故意破坏系统资源行为的集合。随着计算机技术的迅速发展以及网络应用的广泛使用,网络威胁的规模和数量也在不断地增加,而且比以往任何时候都更严重,这可能会导致计算机中的重要信息被窃取和篡改,会给用户带来巨大的损失。因此,研究入侵检测对网络是否能安全、稳定地运行具有十分重要的意义。
[0003]然而,通常网络都是在正常情况下运行,出现被入侵或异常的情况很少,庞大的数据集中往往会出现异常类别的样本远远小于正常类别的样本。目前遇到的挑战是如何在样本维度高、样本类别不平衡数据中准确地识别出网络流量的异常行为。
[0004]现有技术中上述问题的解决办法大致分为传统的机器学习方法和深度学习方法。传统的机器学习方法如OC

SVM,IForest等,将网络入侵检测视为一种分类问题。这些方法通常使用数据训练出分类器,将其分为正常类和异常类。但是对于样本类别不平衡问题,它们往往倾向于确保数量多的类别的准确率,导致不能有效地识别出网络流量中的异常行为。由于网络产生的数据的维度越来越高,数据量也越来越大,在其他领域的出色表现以及其具有强大的数据学习和表达能力的深度学习被应用到了网络入侵检测中。这些方法包括CNN,RNN,DNN和DAGMM等,通过神经网络对数据进行多次抽象学习,可以较好地解决数据维度对入侵检测效果的限制问题,但是它们同样地不能很好地处理不平衡问题,对异常的识别往往具有倾向性,而生成对抗网络(Generative Adversarial Network,GAN)在图像识别领域可以有效地缓解数据不平衡问题。
[0005]因此,如何提供一种准确性高的基于GAN的不平衡网络入侵数据检测系统及其方法是本领域技术人员亟需解决的问题。

技术实现思路

[0006]有鉴于此,本专利技术提供了一种基于GAN的不平衡网络入侵数据检测系统及其方法,用于缓解网络入侵检测所遇到的数据维度高和样本中存在的类别不平衡的问题。
[0007]为了实现上述目的,本专利技术采用如下技术方案:
[0008]一种基于GAN的不平衡网络入侵数据检测系统,包括:GAN

DAE模型、误差计算模块、结果输出模块和评价模块;
[0009]所述GAN

DAE模型包括生成器和鉴别器;
[0010]所述生成器中的深度自编码器DAE至少依次包括第一编码器、第一解码器和第二编码器;
[0011]所述第一编码器,用于接收输入样本X并进行第一次编码得到编码后结果Z,并将Z
发送至所述第一解码器;
[0012]所述第一解码器,用于接收Z并进行解码得到解码后结果X

,并将X

发送至所述第二编码器和所述鉴别器;
[0013]所述第二编码器,用于接收X

并进行第二次编码得到编码后的结果Z


[0014]所述鉴别器,用于接收X和X

,并判断X

是否为正常样本;
[0015]所述训练模块,用于控制生成器和鉴别器进行相互对抗,优化生成器和鉴别器的代价函数,直至生成器损失最小化,即鉴别器损失最大化;
[0016]所述误差计算模块:计算将X

视为正常样本的误差、X与X

之间的误差、以及Z与Z

之间的误差;
[0017]所述结果输出模块,用于根据所述误差计算模块得出的误差值的大小来识别待检测数据中是否存在异常;若误差值小于预设阈值,则输出不存在异常结果,若误差值大于预设阈值,则输出存在异常结果;
[0018]所述评价模块,用于根据评价指标来评价训练好的所述GAN

DAE模型的性能。
[0019]优选的,生成器和鉴别器进行相互对抗的过程为:
[0020][0021]其中p(z)表示编码后结果Z的分布,p(x)表示输入数据X的分布,D(x)表示数据X来自真实数据分布。
[0022]优选的,所述误差计算模块中的损失函数分别为:
[0023]计算将X

作为输入样本时的误差:
[0024][0025]计算X与X

之间的误差:
[0026][0027]计算Z与Z

之间的误差:
[0028][0029]其中,g表示二元交叉损失函数,C(X')表示鉴别器将X'看作真实样本的概率,α为1。
[0030]优选的,所述评价指标包括:准确率、精确率、召回率和F1分数;
[0031]准确率表示预测正确的样本占总样本的比例,计算方法为:
[0032]Accuracy=(TP+TN)/(TP+FN+FP+TN)#
[0033]准确率取值范围为[0,1],准确率取值越大,模型效果越好;
[0034]精确率表示模型预测为正的所有情况中,预测为正的情况占比,计算方法为:
[0035]Precision=TP/(TP+FP)
[0036]精确率取值范围是[0,1],精确率值越接近于1,表示模型预测能力越好;
[0037]召回率表示在所有正样本中,模型预测为正的情况占比,计算方法为:
[0038]Recall=TP/(TP+FN)#
[0039]召回率取值范围为[0,1],召回率的值越大,表示模型的预测能力越好;
[0040]F1分数的值越大,表示模型的预测能力越好,计算方法为:
[0041]F1=2*Precison*Recall/(Precision+Recall)#
[0042]其中,TP表示真实值为正,预测值也为正,即预测完全正确;TN表示真实值为负,预测值也为负,即预测完全正确;FP表示真实值为负,但是预测值却为正,即预测错误,称为第一类错误;FN表示真实值为正,预测值却为负,即预测错误,称为第二类错误。
[0043]一种基于GAN的不平衡网络入侵数据检测方法,包括以下步骤:
[0044]将待检测数据输入至训练好的GAN

DAE模型中,所述GAN

DAE模型根据损失函数计算得到的误差值的大小来识别待检测数据中是否存在异常;若误差值小于预设阈值,则输出不存在异常结果,若误差值大于预设阈值,则输出存在异常结果;
[0045]所述GAN

DAE模型的训练过程为:
[0046]S1.将正常样本数据进行预处理,并划分为训练集和测试集;
[0047]S2.对所述训练集中的样本数据X进行第一次编码得到编码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于GAN的不平衡网络入侵数据检测系统,其特征在于,包括:GAN

DAE模型、结果输出模块和评价模块;所述GAN

DAE模型包括生成器和鉴别器;所述生成器中的深度自编码器DAE至少依次包括第一编码器、第一解码器和第二编码器;所述第一编码器,用于接收输入样本X并进行第一次编码得到编码后结果Z,并将Z发送至所述第一解码器;所述第一解码器,用于接收Z并进行解码得到解码后结果X

,并将X

发送至所述第二编码器和所述鉴别器;所述第二编码器,用于接收X

并进行第二次编码得到编码后的结果Z

;所述鉴别器,用于接收X和X

,并判断X

是否为正常样本;所述训练模块,用于控制生成器和鉴别器进行相互对抗,优化生成器和鉴别器的代价函数,直至生成器损失最小化,即鉴别器损失最大化;所述误差计算模块:计算将X

视为正常样本的误差、X与X

之间的误差、以及Z与Z

之间的误差;所述结果输出模块,用于根据误差计算模块计算出的误差值的大小来识别待检测数据中是否存在异常;若误差值小于预设阈值,则输出不存在异常结果,若误差值大于预设阈值,则输出存在异常结果;所述评价模块,用于根据评价指标来评价训练好的所述GAN

DAE模型的性能。2.根据权利要求1所述的一种基于GAN的不平衡网络入侵数据检测系统,其特征在于,生成器和鉴别器进行相互对抗的过程为:其中p(z)表示编码后结果Z的分布,p(x)表示输入数据X的分布,D(x)表示数据X来自真实数据分布。3.根据权利要求1所述的一种基于GAN的不平衡网络入侵数据检测系统,其特征在于,所述误差计算模块中的损失函数分别为:计算将X

作为输入样本时的误差:计算X与X

之间的误差:计算Z与Z

之间的误差:其中,g表示二元交叉损失函数,C(X

)表示鉴别器将X

看作真实样本的概率,α为1。
4.根据权利要求1所述的一种基于GAN的不平衡网络入侵数据检测系统,其特征在于,所述评价指标包括:准确率、精确率、召回率和F1分数;准确率...

【专利技术属性】
技术研发人员:张传雷刘江涛李建荣可婷张勇进陈伟孙迪丁忠林
申请(专利权)人:天津市多智信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1