基于剪枝卷积神经网络和机器学习的加密流量识别方法技术

技术编号:35555759 阅读:22 留言:0更新日期:2022-11-12 15:36
本发明专利技术公开了一种基于剪枝卷积神经网络和机器学习的加密流量识别方法,包括数据预处理、构建CNN模型、模型剪枝、使用CNN提取高级特征向量和使用LightGBM分类的步骤。本发明专利技术的基于剪枝卷积神经网络和机器学习的加密流量识别方法,无需手工提取特征,利用CNN模型自动从原始流量文件中自动提取高级特征并进行分类,同时构建了一种基于剪枝的卷积神经网络模型,减少模型参数量,降低了计算开销,使用LightGBM根据加密流量的高级特征进行分类,以弱分类器来达到强分类的效果,提高了准确率,最终的模型会达到比其他分类模型更高的性能和精准率。和精准率。和精准率。

【技术实现步骤摘要】
基于剪枝卷积神经网络和机器学习的加密流量识别方法


[0001]本专利技术涉及网络流量识别
,尤其涉及一种基于剪枝卷积神经网络和机器学习的加密流量识别方法。

技术介绍

[0002]网络流量识别技术在网络服务质量控制、流量计费、网络资源使用规划、恶意软件检测等应用中有着重要作用。随着网络信息技术的不断发展,越来越多的软件使用了SSL、SSH、VPN和Tor等加密或者端口混淆技术,加密流量的占比越来越高。
[0003]调查统计机构Netmarketshare称截至到2019年10月,加密Web流量的比例已经超过了九成,互联网上排名前100位的非Google网站中默认使用HTTPS的已有90位,在全球范围内,美国的HTTPS比例为92%,俄罗斯为85%,日本为80%,印尼为74%。这一变化对当前的流量检测方法带来了新的挑战,使得网络流量识别和分析变得愈加困难。
[0004]流量分类的前提便是不同流量的特征是独一无二的,当前的流量分类方法大致可以分为以下几种:
[0005]1)基于端口的分类方法。该方法基于应用服务都使用了IANA所分配的端口且保持不变这一前提上,根据流量所使用的端口号来区分不同流量类型。
[0006]2)基于有效载荷的分类方法。该方法又称为深度包检测,即根据静态的有效载荷特征来区分协议,可用于一些粗粒度的流量分类上。
[0007]3)基于统计学的分类方法。此类方法采用机器学习技术较多,是根据流量的统计学上的特征来区分不同类型的。这些特征大致可分为包级别和流级别两种,前者包括一些包长度、包到达间隔时间和方向等,后者包括一些上下行流量包数量、网络流时长、不同类型的流量包所占比例等。
[0008]当前的流量分类方法具有以下缺点:
[0009]1)基于端口的分类方法,当遇到应用软件使用了IANA规定之外的端口时,准确率会大大降低,并且恶意软件流量会使用随机或动态端口,该方法不能识别恶意软件流量。
[0010]2)基于有效载荷的分类方法,流量加密后会破坏它所依赖的载荷特征,只适合粗粒度的流量分类或未完全加密的场景。
[0011]3)基于深度学习的分类方法,该方法训练出来的分类模型参数量巨大,限制了模型部署条件。

技术实现思路

[0012]本专利技术针对基于深度学习的分类方法训练出来的分类模型参数量巨大的技术问题,提出一种基于剪枝卷积神经网络和机器学习的加密流量识别方法,无需手工提取特征,直接从原始流量文件中自动提取高级特征并进行分类,并且对模型进行剪枝,减少模型参数量,卷积神经网络用于提取特征自动提取,LightGBM以弱分类器来达到强分类的效果,最终的模型会达到比其他分类模型更高的性能和精准率,适用于加密流量的高效检测。
[0013]为了实现上述目的,本专利技术提供如下技术方案:
[0014]本专利技术提供的一种基于剪枝卷积神经网络和机器学习的加密流量识别方法,包括以下步骤:
[0015]S1:数据预处理;
[0016]S2:构建CNN模型,卷积神经网络主要由以下几层组成:输入层、卷积层、ReLU层、池层和全连接层;
[0017]S3:模型剪枝,重新训练模型,经过若干次迭代后得到一个优化的CNN模型;
[0018]S4:优化后CNN模型输出一个256维度的特征向量,作为LightGBM分类器的输入;
[0019]S5:LightGBM分类,LightGBM算法中的梯度决策树是通过对给定的训练数据集进行多次迭代得到的,每次迭代时,用梯度信息重新调整一棵新树,以加入前一棵迭代树,在函数空间中,上述过程为一个连续变化的线性组合过程,LightGBM集成所有叶节点的权重作为构建树的参考,然后确定分割点并计算一阶梯度和二阶梯度,经过多次迭代后,使得LightGBM分类器性能达到最优。
[0020]与现有技术相比,本专利技术的有益效果为:
[0021]本专利技术提供的一种基于剪枝卷积神经网络和机器学习的加密流量识别方法,无需手工提取特征,利用CNN模型自动从原始流量文件中自动提取高级特征并进行分类,同时构建了一种基于剪枝的卷积神经网络模型,减少模型参数量,降低了计算开销,使用LightGBM根据加密流量的高级特征进行分类,以弱分类器来达到强分类的效果,提高了准确率,最终的模型会达到比其他分类模型更高的性能和精准率。
附图说明
[0022]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0023]图1为本专利技术实施例提供的基于剪枝卷积神经网络和机器学习的加密流量识别方法流程图。
[0024]图2为本专利技术实施例提供的数据预处理流程图。
[0025]图3为本专利技术实施例提供的剪枝步骤流程图。
具体实施方式
[0026]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0027]本专利技术提供的一种基于剪枝卷积神经网络和机器学习的加密流量识别方法,如图1所示,包括以下步骤:
[0028]S1:数据预处理:对原始流量文件进行处理,以适合CNN模型的标准输入;
[0029]步骤S1输入的加密流量使用公开数据集ISCXVPN2016,该数据集包含了6种传统的加密流量:Email、Chat、Streaming、File transfer、VoIP和P2P,6种对应的VPN加密流量:
VPN

Email、VPN

Chat、VPN

Streaming、VPN

File transfer、VPN

VoIP和VPN

P2P。流量数据均是由Wireshark和tcpdump工具在真实环境中获取,共计28GB。
[0030]数据预处理步骤具体流程如图2所示。其中关键点如下:
[0031]去除不相关报文:即去除影响模型预测或有效载荷为空的数据包。真实环境中的流量会包含一些用于TCP建立、断开连接的数据包,比如包含SYN、ACK或FIN标志位的数据包,还有一些用于域名解析的数据包和有效载荷为空的数据包,这些数据包对于流量分类是不起作用的,反而会影响分类准确性,所以需要去除。
[0032]去除以太网帧头:以太网帧头包含了MAC地址,用于确认网络设备位置和在网络节点之间传输数据包,但是在流量分类中作用很小,所以需要删除以太网帧头。
[0033]掩盖IP地址:IP地址在流量分类中对模型有过拟合的影响,需要将源IP地址与目标IP地址置为0。
[0034本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于剪枝卷积神经网络和机器学习的加密流量识别方法,其特征在于,包括以下步骤:S1:数据预处理;S2:构建CNN模型,卷积神经网络主要由以下几层组成:输入层、卷积层、ReLU层、池层和全连接层;S3:模型剪枝,重新训练模型,经过若干次迭代后得到一个优化的CNN模型;S4:优化后CNN模型输出一个256维度的特征向量,作为LightGBM分类器的输入;S5:LightGBM分类,LightGBM算法中的梯度决策树是通过对给定的训练数据集进行多次迭代得到的,每次迭代时,用梯度信息重新调整一棵新树,以加入前一棵迭代树,在函数空间中,上述过程为一个连续变化的线性组合过程,LightGBM集成所有叶节点的权重作为构建树的参考,然后确定分割点并计算一阶梯度和二阶梯度,经过多次迭代后,使得LightGBM分类器性能达到最优。2.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法,其特征在于,步骤S1输入的加密流量使用公开数据集ISCXVPN2016,该数据集包含了6种传统的加密流量:Email、Chat、Streaming、File transfer、VoIP和P2P,6种对应的VPN加密流量:VPN

Email、VPN

Chat、VPN

Streaming、VPN

File transfer、VPN

VoIP和VPN

P2P。3.根据权利要求2所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法,其特征在于,步骤S1输入的流量数据均是由Wireshark和tcpdump工具在真实环境中获取,共计28GB。4.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法,其特征在于,步骤S1数据预处理过程包括:S11:读取pcap文件;S12:去除不相关报文;S13:去除以太网帧头;S14:掩盖IP地址;S15:检查包长度是否大于规定的输入大小,是则对数据包进行截断,否则在数据包末尾进行零填充,生成字节矩阵;S16:对数据包进行归一化处理,以字节为单位除以255,使得输入大小都在0到1之间。5.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法,其特征在于,...

【专利技术属性】
技术研发人员:李小勇栗仕超刘芸杉亢超群李二霞李灵慧苑洁高雅丽
申请(专利权)人:国网上海能源互联网研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1