基于生成对抗网络的恶意域名训练数据生成方法技术

技术编号:37138116 阅读:15 留言:0更新日期:2023-04-06 21:39
本发明专利技术提供了基于生成对抗网络的恶意域名训练数据生成方法,涉及网络信息安全技术领域,包括:(1)获取真实Alexa域名,构建域名数据集;(2)构建域名自编码器网络并训练;(3)利用训练好的域名自编码器网络构建域名生成对抗网络模型;(4)真实数据与自身产生数据判断,进行判别输出;(5)采用MMD检验输出样本与真实域名判别是否来自相同分布;(6)输出训练数据。本发明专利技术采用基于最大均值差异MMD的两样本检验方法来验证生成器的输出样本与真实的Alexa域名样本来自相同的分布,保证生成模型和生成数据的有效性。的有效性。的有效性。

【技术实现步骤摘要】
基于生成对抗网络的恶意域名训练数据生成方法


[0001]本专利技术网络信息安全
,尤其涉及基于生成对抗网络的恶意域名训练数据生成方法。

技术介绍

[0002]在互联网产业蓬勃发展的同时,诸如网络诈骗、DDoS攻击、勒索软件、计算机恶意程序感染等各类网络安全事件层出不穷,据国家计算机网络应急技术处理协调中心CNCERT/CC监测显示,2020年我国境内木马或僵尸程序控制服务器IP地址数量为12810个,境内木马或僵尸程序受控主机IP地址数量为5338246个,由此构成的僵尸网络已经成为当前网络安全领域的巨大威胁。
[0003]僵尸网络广泛采用域名生成算法生成大量的随机域名来躲避安全检测,恶意域名的准确检测和识别成为当前网络安全管理的重要课题。基于神经网络的深度学习算法在恶意域名检测方面表现优异,Woodbridge等人首次利用长短期记忆网络构建DGA域名检测器,并在检测准确率、召回率等方面相较于传统机器学习模型有着明显优势;Yu等人对利用不同的卷积神经网络训练出的DGA域名检测器检测准确率高达90%以上。袁辰等人提出一种DGA域名训练数据的生成模型,该模型结合了生成对抗网络的思想,直接将数据输入GAN原始模型进行学习训练,保持了数据的真实特性。Anderson等人将自编码器融入生成对抗网络,提出一种DGA生成模型和检测模型DeepDGA,通过多次迭代训练生成对抗网络后,生成器可以模拟出特征类似的真实DGA域名,使采用随机森林算法的DGA检测器的性能明显降低。
[0004]现有的DGA检测器均是基于公开的DGA域名数据集进行训练构建,缺乏最新的丰富的DGA域名训练样本数据,导致检测模型更新周期过长、过慢,检测的实效性、快速性不强,对未知的DGA域名检测效率不高。

技术实现思路

[0005]本专利技术提供了基于生成对抗网络的恶意域名训练数据生成方法,目的是为了解决现有技术中存在的缺点。
[0006]为了实现上述目的,本专利技术提供如下技术方案:基于生成对抗网络的恶意域名训练数据生成方法,包括如下步骤:
[0007]获取真实域名,构建域名数据集;
[0008]构建域名自编码器网络,将域名数据集输入域名自编码器网络进行预训练,得到训练后的域名自编码器网络;
[0009]利用训练好的域名自编码器网络构建域名生成对抗网络模型,通过对真实数据与域名生成对抗网络模型产生的恶意域名数据进行判断,并输出判断结果;
[0010]对域名生成对抗网络模型进行训练,并利用最大均值差异MMD检验判别域名生成对抗网络模型的输出样本是否与真实域名来自相同的分布,检验通过则停止训练,输出训练完成后的恶意域名训练数据。
[0011]优选的,所述构建域名自编码器网络包括:
[0012]通过3个平行的卷积网络和1个LSTM网络级联组成域名自编码器网络;
[0013]通过3个卷积网络的卷积滤波核尺寸对应捕获域名数据字符间的n

gram信息;
[0014]通过LSTM网络挖掘和表示变长域名序列的潜在特征,生成可变长序列。
[0015]优选的,所述将域名数据集输入域名自编码器进行预训练包括如下步骤:
[0016]对所述真实域名进行序列标记,进行独热编码;
[0017]将所述独热编码后的序列输入级联的卷积层,并将级联的卷积层输出结果并列拼接后送入到另一个卷积层;
[0018]将另一个所述卷积层输出结果输入展平层,利用展平层将输入序列平展成一个一维的矢量矩阵,作为编码器的输出;
[0019]通过重构层将一维的输入序列重组成一个二维矢量矩阵;
[0020]将所述二维矢量矩阵输入级联卷积层并输出,将输出结果并列拼接后送入输出卷积层;
[0021]将输出卷积层的结果去除序列标记,得到原始域名。
[0022]优选的,所述利用将训练好的域名自编码器构建域名生成对抗网络模型包括如下步骤:
[0023]利用解码器构建GAN网络生成器并进行训练;
[0024]利用编码器构建GAN网络判别器并进行训练;
[0025]通过所述GAN网络生成器与GAN网络判别器构成域名生成对抗网络模型。
[0026]优选的,所述GAN网络生成器的网络结构由一个全连接层与解码器构成,所述利用解码器构建GAN网络生成器并进行训练的训练步骤包括:
[0027]使用随机噪声发生器产生在[

1,1]上均匀分布的噪声;
[0028]通过全连接层对随机噪声的线性变换,得到与编码器输出维度一致的维度;
[0029]利用ReLU函数对线性变换的随机噪声进行激活;
[0030]将激活的随机噪声送入解码器,得到输出域名的标记采样。
[0031]优选的,所述GAN网络判别器的网络结构由编码器和一个全连接层构成,所述利用编码器构建GAN网络判别器并进行训练的训练步骤包括:
[0032]所述编码器接收真实的域名或生成器生成的假域名序列并进行编码;
[0033]将所述编码后的数据经过全连接层变换为低维数据;
[0034]通过Sigmoid函数对所述低维数据进行激活并输出结果。
[0035]优选的,在所述训练GAN网络生成器的网络时,将预训练好的编码器的权重参数进行冻结,再对GAN网络生成器的全连接网络进行训练;
[0036]在所述训练GAN网络判别器的网络时,将预训练好的编码器的权重参数进行冻结,再对GAN网络判别器的全连接网络进行训练。
[0037]优选的,对所述域名生成对抗网络模型进行训练,并采用标签光滑、改进损失更新来提升模型训练的稳定性。
[0038]优选的,所述最大均值差异MMD具体定义为:
[0039][0040]其中,p和q分别两个分布,x和y分别为p和q对应生成的样本,E
x
,E
y
分别为x和y两个生成样本f上函数值均值,对两个均值做差得到这两个分布对应于函数f的均值差Mean Discrepancy,最大均值差异的目标是寻找一个f使得均值差最大,即得到最大均值差异;F取为希尔伯特空间的单位球,分别为实际操作时借助预先设定的核函数。
[0041]本专利技术与现有技术相比具有以下有益效果:
[0042]1、通过预训练自编码器并将其应用于GAN网络最大程度地学习到了真实域名的潜在特性。
[0043]2、采用基于最大均值差异Maximum Mean Discrepancy,MMD的两样本检验方法来验证生成器的输出样本与真实的Alexa域名样本来自相同的分布,保证生成模型和生成数据的有效性。
[0044]3、在自编码器结构中除了设计卷积层来提取域名的n

gram信息外,还引入LSTM网络层以更好地捕获域名字符间的潜在特征,从而生成长度可变的字符序列。
[0045]4、将生成数据在基于LSTM网络的DGA域名检测器上进行验证,发现其能够有效本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于生成对抗网络的恶意域名训练数据生成方法,其特征在于,包括如下步骤:获取真实域名,构建域名数据集;构建域名自编码器网络,将域名数据集输入域名自编码器网络进行预训练,得到训练后的域名自编码器网络;利用训练好的域名自编码器网络构建域名生成对抗网络模型,通过对真实数据与域名生成对抗网络模型产生的恶意域名数据进行判断,并输出判断结果;对域名生成对抗网络模型进行训练,并利用最大均值差异MMD检验判别域名生成对抗网络模型的输出样本是否与真实域名来自相同的分布,检验通过则停止训练,输出训练完成后的恶意域名训练数据。2.如权利要求1所述的基于生成对抗网络的恶意域名训练数据生成方法,其特征在于,所述构建域名自编码器网络包括:通过3个平行的卷积网络和1个LSTM网络级联组成域名自编码器网络;通过3个卷积网络的卷积滤波核尺寸对应捕获域名数据字符间的n

gram信息;通过LSTM网络挖掘和表示变长域名序列的潜在特征,生成可变长序列。3.如权利要求1所述的基于生成对抗网络的恶意域名训练数据生成方法,其特征在于,所述将域名数据集输入域名自编码器进行预训练包括如下步骤:对所述真实域名进行序列标记,进行独热编码;将所述独热编码后的序列输入级联的卷积层,并将级联的卷积层输出结果并列拼接后送入到另一个卷积层;将另一个所述卷积层输出结果输入展平层,利用展平层将输入序列平展成一个一维的矢量矩阵,作为编码器的输出;通过重构层将一维的输入序列重组成一个二维矢量矩阵;将所述二维矢量矩阵输入级联卷积层并输出,将输出结果并列拼接后送入输出卷积层;将输出卷积层的结果去除序列标记,得到原始域名。4.如权利要求1所述的基于生成对抗网络的恶意域名训练数据生成方法,其特征在于,所述利用将训练好的域名自编码器构建域名生成对抗网络模型包括如下步骤:利用解码器构建GAN网络生成器并进行训练;利用编码器构建GAN网络判别器并进行训练;通过所述GAN网络生成器与GAN网络判别器构成域名生成对抗网络模型。5.如权利要求4所述的基于生成对抗网络的恶意域名训练数...

【专利技术属性】
技术研发人员:刘伟山马旭琦汪航李娟红刘一丹
申请(专利权)人:国家计算机网络与信息安全管理中心甘肃分中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1