基于时空特性相结合的深度学习流量分类方法技术

技术编号：23193348 阅读：33 留言：0更新日期：2020-01-24 17:06

本发明专利技术公开了一种基于时空特性相结合的深度学习流量分类方法，主要解决现有技术检测准确率低的问题。其实现方案是：1)采集并标注原始流量负载数据；2)基于原始流量负载数据，生成预处理后的流量图集；3)利用流量图集训练基于时空特性相结合的深度学习模型；4)用新采集并生成的流量数据验证训练好的深度学习模型，合格后将模型作为流量分类器部署于真实网络结点；5)对真实网络环境中的流量进行解析分类并标注。本发明专利技术构建的模型利用了流量数据的时空特性，提高了流量分类的准确率，且减少分类器占用的资源，能满足当前网络环境下流量分类的需求，可应用于网络边缘节点中实现加密流量识别和恶意流量检测。

Deep learning traffic classification method based on the combination of temporal and spatial characteristics

全部详细技术资料下载

【技术实现步骤摘要】
基于时空特性相结合的深度学习流量分类方法
本专利技术属于计算机网络
，尤其涉及一种流量分类方法，可应用于网络边缘节点中，实现加密流量识别和恶意流量检测。
技术介绍
当今网络流量环境日益复杂，如何继续保持高效快捷的恶意流量检测成为当今网络环境下一大挑战。流量识别或恶意流量检测的本质皆为分类问题，且传统的流量分类方法，如基于端口号或深度包检测技术，皆无法很好的在当今网络环境下满足任务需求；基于传统机器学习的方法也被用于应对加密流量识别及恶意流量监测，但繁杂的人为选取特征以及标记特征库这一步骤涉及人工成本和隐私信息等问题，使得此类方法的泛化能力受到了制约；近些年刚刚兴起的基于深度学习的方法很好的解决了前人方法中的不足，但大多只利用了原始流量信息中时间或空间单一维度的信息，使得分类器的性能受到了制约，尤其是在应对同时解析加密流量和恶意流量检测任务时，很容易在训练时遇到瓶颈。参上，如何设计一个可以同时利用时空特性的深度学习分类器成为一个核心问题。上海交通大学邹福泰等人在其申请的专利文献“一种基于深度学习的加密恶意流量的检测系统和方法”(申请号201811244932.5申请日2018.10.24申请公布号：CN109104441A)中公开了一种基于深度学习的加密恶意流量检测系统。该方法的具体步骤是，第一步：通过流量分析软件对加密流量数据进行分析，获得三个日志文件，连接并获得一系列的聚合数据；第二步：从上述的聚合数据中提取一系列的特征数据；第三步：利用xgboost算法，对第二步中的特征数据进行训练，获得第一模型；...

【技术保护点】
1.一种基于时空特性相结合的深度学习流量分类方法，其特征在于，包括如下：/n(1)采集并标注原始网络流量负载数据，得到经过标注的网络流量负载数据：/n(1a)从纯净网络节点处采集网络流量负载数据，并将其按照加密流量，未加密流量和恶意访问流量这三类进行分类，其中加密流量按照互联网中六大类应用进行细分标注，即Email、Chat、File、P2P、Streaming、和VoIP；/n(1b)将本次采集的网络流量负载数据、以往时间点数据与预先构建的数据库进行随机混合，得到经过标注的网络流量负载数据库；/n(2)基于经过标注的网络流量负载数据库，生成预处理后的流量图集：/n(2a)将连续的网络流量利用抓包工具切分，以产生pcap格式的数据包，并存储；/n(2b)对数据包进行协议除杂，即删除数据包内能直接反映流量服务类型的TCP协议和DCP协议相关数据，此部分数据在恶意访问流量或加密流量中为干扰项，在深度学习模型中会干扰模型的信息提取；/n(2c)对数据包进行物理信息除杂，即删除物理地址相关信息，以避免深度学习模型误认为物理地址为某种服务相关的识别特征从而产生误分类；/n(2d)删除空白数据包和...

【技术特征摘要】
1.一种基于时空特性相结合的深度学习流量分类方法，其特征在于，包括如下：
(1)采集并标注原始网络流量负载数据，得到经过标注的网络流量负载数据：
(1a)从纯净网络节点处采集网络流量负载数据，并将其按照加密流量，未加密流量和恶意访问流量这三类进行分类，其中加密流量按照互联网中六大类应用进行细分标注，即Email、Chat、File、P2P、Streaming、和VoIP；
(1b)将本次采集的网络流量负载数据、以往时间点数据与预先构建的数据库进行随机混合，得到经过标注的网络流量负载数据库；
(2)基于经过标注的网络流量负载数据库，生成预处理后的流量图集：
(2a)将连续的网络流量利用抓包工具切分，以产生pcap格式的数据包，并存储；
(2b)对数据包进行协议除杂，即删除数据包内能直接反映流量服务类型的TCP协议和DCP协议相关数据，此部分数据在恶意访问流量或加密流量中为干扰项，在深度学习模型中会干扰模型的信息提取；
(2c)对数据包进行物理信息除杂，即删除物理地址相关信息，以避免深度学习模型误认为物理地址为某种服务相关的识别特征从而产生误分类；
(2d)删除空白数据包和重复的数据包，以避免对深度学习训练产生干扰；
(2e)统一数据包流量长度为900字节，即对超过900字节的流量包进行截取，不足900字节的流量包用0x00进行补齐；
(2f)将统一长度后的数据包做可视化处理，即将每个流量包转换为30*30大小的流量图，并最终将所有处理过的数据包合并为一个流量图集；
(3)构建依次由第一卷积层、第一局部归一化层、第二卷积层、第二局部归一化层、全连接层、LSTM层和softmax层连接组成的深度学习模型；
(4)对深度学习模型进行训练：
(4a)设置训练循环次数R；
(4b)将混合后的流量图集依次输入到第一卷积层、第一局部归一化层、第二卷积层和第二局部归一化层，以学习流量的空间特性，并对异常值进行归一化处理；
(4c)将(4b)处理过的数据输入到全连接层中，转换为LSTM模型可以接收的数据形式；
(4d)将(4c)所得的数据输入到LSTM层中，以学习流量的时间特性；
(4e)将(4d)所得的数据输入到softmax层，直接输出分类结果，即给出原始网络流量负载数据的标签；
(4...

【专利技术属性】
技术研发人员：顾华玺，魏雯婷，薛智浩，曾祎，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人