一种基于跨模态特征融合的多任务加密网络流量分类方法技术

技术编号:33122269 阅读:16 留言:0更新日期:2022-04-17 00:26
本发明专利技术公开了一种基于跨模态特征融合的多任务加密网络流量分类方法,包括:获取待识别的原始流量;预处理原始流量,并获得其格式化样本;将格式化样本输入至训练完成后的基于特征融合技术的多模态多任务深度神经网络,得到对于每个任务对应的预测向量;取其中最大的值对应的分类作为加密流量在该任务上最终的分类标签。本发明专利技术能实现对流量特征的自动提取、融合,并根据融合后的结果做出多任务预测;具有通用性;实现包级别和流级别统计特征和有效载荷的融合;通过双路特征提取模块抽取每个数据包的有效载荷低阶的时序特征和全局统计特征,并用全局统计特征指导对有效载荷时序特征的进一步提取;改善了特征提取的效果,具有更好的分类效果。更好的分类效果。更好的分类效果。

【技术实现步骤摘要】
一种基于跨模态特征融合的多任务加密网络流量分类方法


[0001]本专利技术涉及深度学习、网络流量分析和网络空间安全应用的
,尤其涉及一种基于跨模态特征融合的多任务加密网络流量分类方法。

技术介绍

[0002]流量分类是一种根据任务和网络流量特征将流量划分到对应类别中的任务。流量分类是网络安全、服务质量(Quality of Service,QoS)以及网络管理的前置需求,因为这些应用都需要通过流量分类来理解网络中发生的进程,在不同的任务中,同一个流量可能被划分到不同的分类中,这也被称为多任务(多标签)流量分类任务。近年来,接入网络的设备数量迅速增加、网络规模和网络吞吐量的扩大,加密协议(如TLS和QUIC)和混淆技术的广泛使用,新型网络的出现如软件定义网络(software

defined network,SDN),工业互联网(Industrial Internet of Things,IIoT)的出现对流量分类带来了更大的挑战。
[0003]由于流量分类的重要意义,流量分类算法的发展非常迅速。可以将流量分类算法划分为传统流量分类算法,基于机器学习(“traditional”Machine Learning,ML)的流量分类算法和基于深度学习(Deep Learning,DL)的流量分类算法三类;总体来说,早期的传统机器学习算法尝试直接匹配端口号或者特定关键词,基于ML的算法依赖于handcraft(domain

export driven)特征,并利用类似数据挖掘的技术实现流量分类,而基于DL的算法可以自动的从结构化的高维输入中学习到复杂和高度抽象的特征。
[0004]基于端口号的流量分类算法和基于有效载荷的流量是两种典型的传统流量分类算法。基于端口号的流量分类算法尝试将协议字段的端口号与IANA注册的端口号匹配,由于动态端口和网络地址转换技术的广泛使用,这种方法现在只能达到很低的精度;以深度报文探测(DPI)为代表的基于有效载荷的方法尝试匹配报文中的关键字或是模式,这种方式无法处理加密的流量。相比之下,基于传统机器学习的流量分类算法则可以分类经过加密的流量,因为它不一定依赖于特定的端口或是关键字,而是通过人类专家手工提取的特征。这些特征往往是和数据包序列有关联的统计信息,因此加密算法对这些特征影响有限。然而,这种方法的准确率非常依赖手工提取的特征,且在网络流量特征发生变化的时候难以及时更新。和传统机器学习不同,和传统机器学习方式不同,深度学习不需要人类专家进行特征选择,因为深度学习可以自动的从输入的训练数据中学习到复杂而结构化的特征表达,这使得深度学习是一种流量分类的非常理想的解决方案,近来很多加密流量分类的相关工作也证实了这一点。
[0005]最近的研究显示,从(加密)流量的多个方面提取复杂的特征,即发现不同模态输入和不同分类任务的内在联系可以使模型达到更高的分类精度,这种多模态多任务模型结构最早由Aceto等人提出的DISTILLER模型实现,典型的多模态输入由元组形式的每个包的统计信息和字节形式的有效载荷构成,异构多模态输入为模型结构的设计带来了困难,目前,有两种处理这种异构多模态输入的方式,一种是使用两个独立的模块分别处理统计信息和有效载荷,另一种是忽视每个包有效载荷长度,将每个包的统计信息和经过零填充或
是裁剪后的有效载荷编码为单个固定长度向量。

技术实现思路

[0006]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0007]鉴于上述现有存在的问题,提出了本专利技术。
[0008]因此,本专利技术解决的技术问题是:综上所述,当前工作中对于加密流量分类的研究仍存在以下不足:随着加密技术和混淆技术的普及,网络流量迅速发生变化,基于传统方式(人类手工设计特征)的流量识别方法难以及时有效的处理这些流量,需要基于深度学习的流量分类方式自动从数据中学习新流量的识别模式;以往单任务单模态的加密流量分类方法在准确率和能力上均不如基于多模态多任务的流量识别算法(因为多模态流量识别算法可以抽取不同模态的信息,而且一次可以给出对多个任务的分类预测);现有多模态多任务流量分类模型,一种是使用两个独立的模块分别处理统计信息和有效载荷,另一种是忽视每个包有效载荷长度,将每个包的统计信息和经过零填充或是裁剪后的有效载荷编码为单个固定长度向量。其中前一种方式不同模态输入的处理是完全分离没有任何关联的,因此同一个包不同模态间的信息可能会被忽视。后一种方式忽视了每个包有效载荷的长度,对于上下传数据量不均衡的流,或是有效载荷较短的流会带来额外的计算开销。这两种方式并没有充分挖掘不同模态输入间信息的关联性,特别是每个包不同模态间信息有很强的内在联系,这种信息没有被利用。
[0009]为解决上述技术问题,本专利技术提供如下技术方案:获取待识别的原始流量;预处理所述原始流量,并获得预处理后的格式化样本;将所述格式化样本输入至训练完成后的基于特征融合技术的多模态多任务深度神经网络,得到对于每个任务对应的预测向量;基于每个任务对应预测向量,取其中最大的值对应的分类作为加密流量在该任务上最终的分类标签。
[0010]作为本专利技术所述的基于跨模态特征融合的多任务加密网络流量分类方法的一种优选方案,其中:所述待识别的原始流量包括,一组具有相同5元组的数据包,所述5元组包括源端口、IP地址、目的端口、IP地址和协议,以及掉换方向的数据包,即交换源、目的端口的IP地址和端口号。
[0011]作为本专利技术所述的基于跨模态特征融合的多任务加密网络流量分类方法的一种优选方案,其中:预处理所述原始流量包括采样、无偏化预处理、数据格式转换和标准化。
[0012]作为本专利技术所述的基于跨模态特征融合的多任务加密网络流量分类方法的一种优选方案,其中:所述采样和无偏化预处理:从所述原始流量中采样最多784字节的有效载荷和至多32个包的统计信息,采样时丢弃流量中会导致分类性能被夸大的有偏信息,即无偏化预处理。
[0013]作为本专利技术所述的基于跨模态特征融合的多任务加密网络流量分类方法的一种优选方案,其中:所述数据格式转换指采样获得的信息不适合作为深度神经网络的输入,需要将采集到的每个有效载荷的每个字节视为[0,255]之间的值,每个包对应的统计信息四元组中的数据包的到达时间加1后取对数,再将整个四元组变为四维向量。
[0014]作为本专利技术所述的基于跨模态特征融合的多任务加密网络流量分类方法的一种优选方案,其中:所述标准化指将每个有效载荷的每个字节对应的[0,255]之间的值除以255,使其变为[0,1]之间的值,则所述每个有效载荷变为一个不超过128维的向量。
[0015]作为本专利技术所述的基于跨模态特征融合的多任务加密网络流量分类方法的一种优选方案,其中:所述预处理后的格式化样本结构包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态特征融合的多任务加密网络流量分类方法,其特征在于,包括:获取待识别的原始流量;预处理所述原始流量,并获得预处理后的格式化样本;将所述格式化样本输入至训练完成后的基于特征融合技术的多模态多任务深度神经网络,得到对于每个任务对应的预测向量;基于每个任务对应预测向量,取其中最大的值对应的分类作为加密流量在该任务上最终的分类标签。2.如权利要求1所述的基于跨模态特征融合的多任务加密网络流量分类方法,其特征在于:所述待识别的原始流量包括,一组具有相同5元组的数据包,所述5元组包括源端口、IP地址、目的端口、IP地址和协议,以及掉换方向的数据包,即交换源、目的端口的IP地址和端口号。3.如权利要求2所述的基于跨模态特征融合的多任务加密网络流量分类方法,其特征在于:预处理所述原始流量包括采样、无偏化预处理、数据格式转换和标准化。4.如权利要求1~3任一所述的基于跨模态特征融合的多任务加密网络流量分类方法,其特征在于:所述采样和无偏化预处理:从所述原始流量中采样最多784字节的有效载荷和至多32个包的统计信息,采样时丢弃流量中会导致分类性能被夸大的有偏信息,即无偏化预处理。5.如权利要求1~3任一所述的基于跨模态特征融合的多任务加密网络流量分类方法,其特征在于:所述数据格式转换指采样获得的信息不适合作为深度神经网络的输入,需要将采集到的每个有效载荷的每个字节视为[0,255]之间的值,每个包对应的统计信息四元组中的数据包的到达时间加1后取对数,再将整个四元组变为四维向量。6.如权利要求1~3任一所述的基于跨模态特征融合的多任务加密网络流量分类方法,其特征在于:所述标准化指将每个有效载荷的每个字节对应的[0,255]之间的值除以255,使其变为[0,1]之间的值,则所述每个有效载荷变为一个不超过128维的向量。7.如权利要求1或3所述的基于跨模态特征融合的多任务加密网络流量分类方法,其特征在于:所述预处理后的格式化样本结构包括,每个格式化样本都包含N
p
个来自有效载荷的不超过128维的向量,定义该信息为有效载荷,和N
h
个来自统计信息的4维的向量,定义该信息为统计信息,所述N
p
和N
h
根据采样步骤获得,由于payload和header来源和数据形式不同,因此也称为多模态异构输入,基于所述原始流量第n个包的有效载荷和统计信息,分别用payload
n
和header
n
表示。8.如权利要求1所述的基于跨模态特征融合的多任务加密网络流量分类方法,其特征在于:所述基于特征融合技术的多模态多任务深度神经网络所包含的结构包括双路特征...

【专利技术属性】
技术研发人员:戴建邦徐小龙
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1