基于剪枝卷积神经网络和机器学习的加密流量识别方法技术

技术编号：35555759 阅读：22 留言：0更新日期：2022-11-12 15:36

本发明专利技术公开了一种基于剪枝卷积神经网络和机器学习的加密流量识别方法，包括数据预处理、构建CNN模型、模型剪枝、使用CNN提取高级特征向量和使用LightGBM分类的步骤。本发明专利技术的基于剪枝卷积神经网络和机器学习的加密流量识别方法，无需手工提取特征，利用CNN模型自动从原始流量文件中自动提取高级特征并进行分类，同时构建了一种基于剪枝的卷积神经网络模型，减少模型参数量，降低了计算开销，使用LightGBM根据加密流量的高级特征进行分类，以弱分类器来达到强分类的效果，提高了准确率，最终的模型会达到比其他分类模型更高的性能和精准率。和精准率。和精准率。

全部详细技术资料下载

【技术实现步骤摘要】
基于剪枝卷积神经网络和机器学习的加密流量识别方法

[0001]本专利技术涉及网络流量识别
，尤其涉及一种基于剪枝卷积神经网络和机器学习的加密流量识别方法。

技术介绍

[0002]网络流量识别技术在网络服务质量控制、流量计费、网络资源使用规划、恶意软件检测等应用中有着重要作用。随着网络信息技术的不断发展，越来越多的软件使用了SSL、SSH、VPN和Tor等加密或者端口混淆技术，加密流量的占比越来越高。
[0003]调查统计机构Netmarketshare称截至到2019年10月，加密Web流量的比例已经超过了九成，互联网上排名前100位的非Google网站中默认使用HTTPS的已有90位，在全球范围内，美国的HTTPS比例为92％，俄罗斯为85％，日本为80％，印尼为74％。这一变化对当前的流量检测方法带来了新的挑战，使得网络流量识别和分析变得愈加困难。
[0004]流量分类的前提便是不同流量的特征是独一无二的，当前的流量分类方法大致可以分为以下几种：
[0005]1)基于端口的分类方法。该方法基于应用服务都使用了IANA所分配的端口且保持不变这一前提上，根据流量所使用的端口号来区分不同流量类型。
[0006]2)基于有效载荷的分类方法。该方法又称为深度包检测，即根据静态的有效载荷特征来区分协议，可用于一些粗粒度的流量分类上。
[0007]3)基于统计学的分类方法。此类方法采用机器学习技术较多，是根据流量的统计学上的特征来区分不同类型的。这些特征大致可分为包级别和流级别两种...

【技术保护点】

【技术特征摘要】
1.一种基于剪枝卷积神经网络和机器学习的加密流量识别方法，其特征在于，包括以下步骤：S1：数据预处理；S2：构建CNN模型，卷积神经网络主要由以下几层组成：输入层、卷积层、ReLU层、池层和全连接层；S3：模型剪枝，重新训练模型，经过若干次迭代后得到一个优化的CNN模型；S4：优化后CNN模型输出一个256维度的特征向量，作为LightGBM分类器的输入；S5：LightGBM分类，LightGBM算法中的梯度决策树是通过对给定的训练数据集进行多次迭代得到的，每次迭代时，用梯度信息重新调整一棵新树，以加入前一棵迭代树，在函数空间中，上述过程为一个连续变化的线性组合过程，LightGBM集成所有叶节点的权重作为构建树的参考，然后确定分割点并计算一阶梯度和二阶梯度，经过多次迭代后，使得LightGBM分类器性能达到最优。2.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法，其特征在于，步骤S1输入的加密流量使用公开数据集ISCXVPN2016，该数据集包含了6种传统的加密流量：Email、Chat、Streaming、File transfer、VoIP和P2P，6种对应的VPN加密流量：VPN
‑
Email、VPN
‑
Chat、VPN
‑
Streaming、VPN
‑
File transfer、VPN
‑
VoIP和VPN
‑
P2P。3.根据权利要求2所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法，其特征在于，步骤S1输入的流量数据均是由Wireshark和tcpdump工具在真实环境中获取，共计28GB。4.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法，其特征在于，步骤S1数据预处理过程包括：S11：读取pcap文件；S12：去除不相关报文；S13：去除以太网帧头；S14：掩盖IP地址；S15：检查包长度是否大于规定的输入大小，是则对数据包进行截断，否则在数据包末尾进行零填充，生成字节矩阵；S16：对数据包进行归一化处理，以字节为单位除以255，使得输入大小都在0到1之间。5.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法，其特征在于，...

【专利技术属性】
技术研发人员：李小勇，栗仕超，刘芸杉，亢超群，李二霞，李灵慧，苑洁，高雅丽，
申请(专利权)人：国网上海能源互联网研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人