一种基于跨模态特征融合的多任务加密网络流量分类方法技术

技术编号：33122269 阅读：19 留言：0更新日期：2022-04-17 00:26

本发明专利技术公开了一种基于跨模态特征融合的多任务加密网络流量分类方法，包括：获取待识别的原始流量；预处理原始流量，并获得其格式化样本；将格式化样本输入至训练完成后的基于特征融合技术的多模态多任务深度神经网络，得到对于每个任务对应的预测向量；取其中最大的值对应的分类作为加密流量在该任务上最终的分类标签。本发明专利技术能实现对流量特征的自动提取、融合，并根据融合后的结果做出多任务预测；具有通用性；实现包级别和流级别统计特征和有效载荷的融合；通过双路特征提取模块抽取每个数据包的有效载荷低阶的时序特征和全局统计特征，并用全局统计特征指导对有效载荷时序特征的进一步提取；改善了特征提取的效果，具有更好的分类效果。更好的分类效果。更好的分类效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于跨模态特征融合的多任务加密网络流量分类方法

[0001]本专利技术涉及深度学习、网络流量分析和网络空间安全应用的
，尤其涉及一种基于跨模态特征融合的多任务加密网络流量分类方法。

技术介绍

[0002]流量分类是一种根据任务和网络流量特征将流量划分到对应类别中的任务。流量分类是网络安全、服务质量(Quality of Service，QoS)以及网络管理的前置需求，因为这些应用都需要通过流量分类来理解网络中发生的进程，在不同的任务中，同一个流量可能被划分到不同的分类中，这也被称为多任务(多标签)流量分类任务。近年来，接入网络的设备数量迅速增加、网络规模和网络吞吐量的扩大，加密协议(如TLS和QUIC)和混淆技术的广泛使用，新型网络的出现如软件定义网络(software
‑
defined network，SDN)，工业互联网(Industrial Internet of Things，IIoT)的出现对流量分类带来了更大的挑战。
[0003]由于流量分类的重要意义，流量分类算法的发展非常迅速。可以将流量分类算法划分为传统流量分类算法，基于机器学习(“traditional”Machine Learning，ML)的流量分类算法和基于深度学习(Deep Learning，DL)的流量分类算法三类；总体来说，早期的传统机器学习算法尝试直接匹配端口号或者特定关键词，基于ML的算法依赖于handcraft(domain
‑
export driven)特征，并利用类似数据挖...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态特征融合的多任务加密网络流量分类方法，其特征在于，包括：获取待识别的原始流量；预处理所述原始流量，并获得预处理后的格式化样本；将所述格式化样本输入至训练完成后的基于特征融合技术的多模态多任务深度神经网络，得到对于每个任务对应的预测向量；基于每个任务对应预测向量，取其中最大的值对应的分类作为加密流量在该任务上最终的分类标签。2.如权利要求1所述的基于跨模态特征融合的多任务加密网络流量分类方法，其特征在于：所述待识别的原始流量包括，一组具有相同5元组的数据包，所述5元组包括源端口、IP地址、目的端口、IP地址和协议，以及掉换方向的数据包，即交换源、目的端口的IP地址和端口号。3.如权利要求2所述的基于跨模态特征融合的多任务加密网络流量分类方法，其特征在于：预处理所述原始流量包括采样、无偏化预处理、数据格式转换和标准化。4.如权利要求1～3任一所述的基于跨模态特征融合的多任务加密网络流量分类方法，其特征在于：所述采样和无偏化预处理：从所述原始流量中采样最多784字节的有效载荷和至多32个包的统计信息，采样时丢弃流量中会导致分类性能被夸大的有偏信息，即无偏化预处理。5.如权利要求1～3任一所述的基于跨模态特征融合的多任务加密网络流量分类方法，其特征在于：所述数据格式转换指采样获得的信息不适合作为深度神经网络的输入，需要将采集到的每个有效载荷的每个字节视为[0，255]之间的值，每个包对应的统计信息四元组中的数据包的到达时间加1后取对数，再将整个四元组变为四维向量。6.如权利要求1～3任一所述的基于跨模态特征融合的多任务加密网络流量分类方法，其特征在于：所述标准化指将每个有效载荷的每个字节对应的[0，255]之间的值除以255，使其变为[0，1]之间的值，则所述每个有效载荷变为一个不超过128维的向量。7.如权利要求1或3所述的基于跨模态特征融合的多任务加密网络流量分类方法，其特征在于：所述预处理后的格式化样本结构包括，每个格式化样本都包含N
p
个来自有效载荷的不超过128维的向量，定义该信息为有效载荷，和N
h
个来自统计信息的4维的向量，定义该信息为统计信息，所述N
p
和N
h
根据采样步骤获得，由于payload和header来源和数据形式不同，因此也称为多模态异构输入，基于所述原始流量第n个包的有效载荷和统计信息，分别用payload
n
和header
n
表示。8.如权利要求1所述的基于跨模态特征融合的多任务加密网络流量分类方法，其特征在于：所述基于特征融合技术的多模态多任务深度神经网络所包含的结构包括双路特征...

【专利技术属性】
技术研发人员：戴建邦，徐小龙，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人