【技术实现步骤摘要】
一种快速、准确的加密流量分类方法及系统
[0001]本专利技术涉及根据加密流量的基础属性信息使用机器学习和深度学习技术相结合的方法对未标记的加密流量进行分类,具体涉及快速、准确的加密流量分类方法及系统。
技术介绍
[0002]网络流量分类作为网络管理的基础,对网络管理和网络安全都起着至关重要的作用。例如,保证网络服务质量(QoS)和检测网络异常,都要依赖于快速、准确的网络流量分类。具体而言,在网络管理中,为了给用户提供更好的服务质量和网络供应,网络运营商首先需要根据不同的应用将流量快速、准确地划分为不同的类别。另外,在网络安全中,网络流量分类是网络异常检测的第一步。由于这种应用需求,该领域的研究吸引着学术界和工业界的广泛关注。值得注意的是,随着通信技术和网络技术的不断发展,传统的网络流量分类方法面临着新的困难与挑战。具体地说,首先,5G通信技术的出现使移动通信数据传输速度大幅提升,网络流量呈现出爆炸式增长的态势。在5G移动通信的全新网络架构下,峰值速率超过了每秒20Gbit,相当于4G的20倍,网络时延从4G的50ms缩减到1ms,设备连接满足千亿量级。针对网络流量高速增长的现状,对网络流量进行快速分类是当今网络领域一个亟待解决的难题。其次,为了保护用户信息安全与隐私,网络数据加密技术得到了普遍的应用,从而导致网络环境中加密流量越来越多。根据市场分析公司NetMarketShare提供的数据显示,截止到2019年10月全球使用HTTPS(超文本传输安全协议)加密的WEB(全球广域网)流量比例已经超90%;同年12月, ...
【技术保护点】
【技术特征摘要】
1.一种快速、准确的加密流量分类方法,其特征在于,包括模型构建阶段和分类阶段;所述模型构建阶段包括两部分,即模型构建阶段1和模型构建阶段2:所述模型构建阶段1包括如下步骤:1)以已标记的流序列集合为输入,通过截取或填充的方式使每一条流序列的仅保留少数的、固定数量的几个早期数据报文,然后对每一个数据报文进行基础属性提取,并形成按报文出现顺序排列的定长特征短序列;2)以步骤1)得到的定长特征短序列作为输入,形成离线训练数据集,采用有监督学习的方式,构建能快速区分能早期分类流与不能早分类流的早期快速检测模型;所述模型构建阶段2包括如下步骤:3)以已标记的流序列集合为输入,通过截取或填充的方式使每一条流序列保留较多的、固定数量的数据报文,然后对每一个数据报文进行基础属性提取,并按照报文出现顺序排列成定长的特征长序列,最后采用独热编码将定长特征长序列转换为定长的独热表征长序列;4)以步骤3)得到的定长的独热表征长序列作为输入,形成离线训练数据集,采用有监督学习的方式,构建能够对加密流进行精细化分类的细粒度分类模型;所述分类阶段包括如下步骤:5)以未标记的流序列为输入,进行与模型构建阶段1中步骤1)相同的短序列预处理操作将待测流序列转换为定长特征短序列;6)根据模型构建阶段1中步骤2)得到的早期快速检测模型,判断该目标流量是能早期分类的流还是不能早期分类的流,并做不同的标记;7)根据每条目标流量在分类阶段中步骤6)生成的早期检测标记进行判断,对于能早期分类的流输出其对应的预测标签,对于不能早期分类的流传送到后续模块;8)对分类阶段中步骤7)中不能早期分类的流进行与模型构建阶段2中步骤3)相同的长序列预处理操作,生成定长的独热表征长序列;9)以分类阶段中步骤8)生成的定长独热表征长序列为输入,采用模型构建阶段2中步骤4)生成的细粒度分类模型对不能早期分类的目标流量进行精细化分类,并输出其预测标签。2.如权利要求1所述的一种快速、准确的加密流量分类方法,其特征在于,步骤1)进行短序列预处理的具体操作方法是:1
‑
1)根据短序列预处理模块指定的数据报文个数,通过截取或填充的方式对每条流序列中少数的早期数据报文个数进行调整,使每条流序列仅包含指定数量的几个早期数据包;丢弃流序列中超出指定数量的数据报文、对不足指定数量的流序列在尾部填充基础属性全为零的数据报文;1
‑
2)在指定数据报文数量的流中,提取流中每个数据报文的报文长度、窗口大小以及数据报文到达时间间隔,并对数据报文到达时间间隔进行分段处理;然后,对这些基础属性以每个数据包的三个基础属性(报文长度、窗口大小、时间间隔)为单位、按照报文出现的顺序进行排列,形成定长的特征短序列。3.如权利要求1所述的一种快速、准确的加密流量分类方法,其特征在于,步骤2)构建所述早期快速检测模型的方法是:
2
‑
1)以步骤1)得到的定长特征短序列集合为训练集作为输入,采用随机采样的方式对训练集合进行子集构建操作,从而构建出多个包含有固定数量样本的训练样本子集;2
‑
2)以步骤2
‑
1)得到的多个训练样本子集为输入,对每一个训练样本子集都采用基于CART(分类与回归树)算法的建树操作,从而得到多棵决策树;2
‑
3)以步骤2
‑
2)得到的多棵决策树为输入,对每棵决策树中的Gini为零的叶子节点进行规则生成操作,得到用于判别流序列是否可以早期分类的规则集;2
‑
4)以步骤2
‑
3)得到的多个规则集为输入,进行规则融合操作,得到包含各个规则集的融合规则集,并输出由融合规则集构成的早期快速检测模型。4.如权利要求1所述的一种快速、准确的加密流量分类方法,其特征在于,步骤3)进行长序列预处理的具体操作方法是:3
‑
1)根据长序列预处理模块指定的数据报文个数,通过截取或填充的方式对每条流序列中较多的数据报文个数进行调整,使每条流序列包含指定数量的早期数据包;丢弃流序列中超出指定数量的数据报文、对不足指定数量的流序列在尾部填充基础属性全为零的数据报文;3
‑
2)在指定数据报文数量的流中,仅提取流中每个数据报文的报文长度,并对这些报文长度属性按照报文出现的顺序排列形成定长的特征长序列;3
‑
2)在定长的特征长序列中,设流序列中每个报文长度可能的取值构成一个集合...
【专利技术属性】
技术研发人员:王一鹏,贺慧杰,赖英旭,云晓春,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。