一种快速、准确的加密流量分类方法及系统技术方案

技术编号:33079483 阅读:41 留言:0更新日期:2022-04-15 10:29
本发明专利技术公开了一种快速、准确的加密流量分类方法及系统,该方法包括模型构建阶段1、模型构建阶段2以及分类阶段。模型构建阶段1包括:对流序列进行短序列预处理;对短序列训练数据进行模型构建,生成早期快速检测模型。模型构建阶段2包括:对流序列进行长序列预处理;对长序列训练数据进行模型构建,生成细粒度分类模型。根据模型构建阶段2生成的细粒度分类模型对不能早期分类的流进行精细化分类,并输出其预测标签。本发明专利技术使用较多的数据报文将不能早期分类的流进行精细化分类,在网络流量分类过程既保证了高精度的同时又极大的减少了所有流等待数据报文所花费的时间,因此,能够同时满足高速与高精度的分类需求。满足高速与高精度的分类需求。满足高速与高精度的分类需求。

【技术实现步骤摘要】
一种快速、准确的加密流量分类方法及系统


[0001]本专利技术涉及根据加密流量的基础属性信息使用机器学习和深度学习技术相结合的方法对未标记的加密流量进行分类,具体涉及快速、准确的加密流量分类方法及系统。

技术介绍

[0002]网络流量分类作为网络管理的基础,对网络管理和网络安全都起着至关重要的作用。例如,保证网络服务质量(QoS)和检测网络异常,都要依赖于快速、准确的网络流量分类。具体而言,在网络管理中,为了给用户提供更好的服务质量和网络供应,网络运营商首先需要根据不同的应用将流量快速、准确地划分为不同的类别。另外,在网络安全中,网络流量分类是网络异常检测的第一步。由于这种应用需求,该领域的研究吸引着学术界和工业界的广泛关注。值得注意的是,随着通信技术和网络技术的不断发展,传统的网络流量分类方法面临着新的困难与挑战。具体地说,首先,5G通信技术的出现使移动通信数据传输速度大幅提升,网络流量呈现出爆炸式增长的态势。在5G移动通信的全新网络架构下,峰值速率超过了每秒20Gbit,相当于4G的20倍,网络时延从4G的50ms缩减到1ms,设备连接满足千亿量级。针对网络流量高速增长的现状,对网络流量进行快速分类是当今网络领域一个亟待解决的难题。其次,为了保护用户信息安全与隐私,网络数据加密技术得到了普遍的应用,从而导致网络环境中加密流量越来越多。根据市场分析公司NetMarketShare提供的数据显示,截止到2019年10月全球使用HTTPS(超文本传输安全协议)加密的WEB(全球广域网)流量比例已经超90%;同年12月,谷歌宣称80%的安卓应用程序默认使用TLS(传输层安全)加密了绝大部分移动终端设备的流量,且这一比例随着时间的推移而持续增大。由此可见,加密技术在网络传输过程中已经被普遍应用。值得注意的是,使用加密技术虽然保护了互联网用户的隐私与信息安全,但是,也给网络管理者对网络流量的进行准确分类带来了新的挑战。因为在加密过程中数据包的有效载荷变得随机化或规范化,使得在网络流量分类过程中无法利用内容特有的特征,如语义信息的相关性。面对这些难题与挑战,迫切地需要一种既快速又准确的加密流量分类解决方案。
[0003]本专利技术设计并实现了一种快速、准确的加密流量分类方法及系统。本专利技术通过提取加密流量的基础属性信息,并采用多阶段处理操作的系统框架,实现一种同时具备高速与高精度分类需求的方法和系统。
[0004]近年来,针对加密流量的研究工作主要分为两类:基于流统计行为特征的研究和基于流序列行为特征的研究。然而,现有的研究工作很难达到同时具备高速与高精度的分类要求。
[0005]基于流统计行为特征的研究:首先,对每一条流提取该流的一些基础属性(例如,报文长度、报文个数、报文间隔时间等),然后将这些基础属性与其统计量(例如,最大值、最小值、平均值等)进行组合使用,从而将每一条流抽象为由一组属性统计量构成的特征向量,最后使用该特征向量构建流分类模型来对网络流进行分类。该研究不需要考虑流的有效载荷中的内容,因此,不涉及用户的隐私。此外,基于流序列行为特征的研究:首先,对每
一条流中的数据包同样地提取其基础属性,然后将这些数据包的基础属性按时间顺序进行排列,从而形成属性序列来描述该流,并进一步地使用该属性序列形成分类特征,最终实现网络流分类。
[0006]值得注意的是,传统加密流分类方法受限于将所有的流进行一致化的分类处理操作,导致很难去满足同时具备高速与高精度的分类需求。具体地说,一些方法为了达到快速分类的目的,仅对每一条流进行极短时间的信息观测,以此来减少信息观测所花费的时间,从而实现网络流的快速分类。然而,这种以快速分类为目的,将所有流进行一致化分类处理操作的方法会极大的降低分类的准确性。这是因为对于很多流来说,需要观测足够完整的信息才能实现准确分类。另外一些方法为了达到准确分类的目的,需要对每一条流进行长时间的信息观测,从而获得该流的较完整信息。然而,这种以准确分类的目的,将所有流进行一致化分类处理操作方法又会产生大量、不必要的时间开销。这是因为对于大部分流来说,通常并不需要对其进行长时间的信息观测就可以实现准确分类。因此,传统加密流分类方法受限于将所有的流进行一致化处理操作,所以很难去实现同时具备高速与高精度的分类需求。

技术实现思路

[0007]本专利技术的目的在于设计并实现一种快速、准确的加密流量分类方法及系统,使得其在网络流量分类过程中,可以使用极少的早期数据报文将大多数加密流进行快速的早期分类,使用较多的数据报文将不能早期分类的流进行精细化分类,以实现同时满足高速与高精度的分类需求。
[0008]为实现上述目的,本专利技术采用的技术方案如下:
[0009]本专利技术涉及一种快速、准确的加密流量分类方法及系统。该方法包括模型构建阶段1、模型构建阶段2以及分类阶段;
[0010]所述模型构建阶段1包括如下步骤:
[0011]1)以已标记流序列的集合为输入,通过截取或填充的方式使每一条流序列的仅保留少数的、固定数量的几个早期数据报文,然后对每一个数据报文进行基础属性提取,并顺序排列成定长的特征短序列;
[0012]2)以步骤1)得到的定长的特征短序列作为输入,形成离线训练数据集,采用有监督学习的方式,构建能快速识别能早期分类流与不能早分类流的早期快速检测模型;
[0013]所述模型构建阶段2包括如下步骤:
[0014]3)以已标记流序列的集合为输入,通过截取或填充的方式使每一条流序列的保留较多的、固定数量的数据报文,然后对每一个数据报文进行基础属性提取,并顺序排列成定长的特征长序列,最后采用独热编码将定长特征长序列转换为定长的独热表征长序列;
[0015]4)以步骤3)得到的定长的独热表征长序列作为输入,形成离线训练数据集,采用有监督学习的方式,构建能够对加密流进行精细化分类的细粒度分类模型;
[0016]所述分类阶段包括如下步骤:
[0017]5)以未标记的流序列为输入,进行与模型构建阶段1中步骤1)相同的短序列预处理操作将待测流序列转换为定长特征短序列;
[0018]6)根据模型构建阶段1中步骤2)得到的早期快速检测模型,判断该目标流量是能
早期分类的流还是不能早期分类的流,并做不同的标记。
[0019]7)根据每条目标流量在分类阶段中步骤6)生成的早期检测标记进行判断,对于能早期分类的流输出其对应的预测标签,对于不能早期分类的流传送到后续模块。
[0020]8)根据分类阶段中步骤7)所传送的不能早期分类的目标流量的进行与模型构建阶段2中步骤3)相同的长序列预处理操作,生成定长的独热表征长序列。
[0021]9)以分类阶段中步骤8)生成的定长独热表征长序列为输入,采用模型构建阶段2中步骤4)生成的细粒度分类模型对不能早期分类的目标流量进行精细化分类,并输出其预测标签。
[0022]一种快速、准确的加密流量分类系统,包括用于模型构建阶段的模型构建阶段1和模型构建阶段2,以及用于分类阶段的早期本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种快速、准确的加密流量分类方法,其特征在于,包括模型构建阶段和分类阶段;所述模型构建阶段包括两部分,即模型构建阶段1和模型构建阶段2:所述模型构建阶段1包括如下步骤:1)以已标记的流序列集合为输入,通过截取或填充的方式使每一条流序列的仅保留少数的、固定数量的几个早期数据报文,然后对每一个数据报文进行基础属性提取,并形成按报文出现顺序排列的定长特征短序列;2)以步骤1)得到的定长特征短序列作为输入,形成离线训练数据集,采用有监督学习的方式,构建能快速区分能早期分类流与不能早分类流的早期快速检测模型;所述模型构建阶段2包括如下步骤:3)以已标记的流序列集合为输入,通过截取或填充的方式使每一条流序列保留较多的、固定数量的数据报文,然后对每一个数据报文进行基础属性提取,并按照报文出现顺序排列成定长的特征长序列,最后采用独热编码将定长特征长序列转换为定长的独热表征长序列;4)以步骤3)得到的定长的独热表征长序列作为输入,形成离线训练数据集,采用有监督学习的方式,构建能够对加密流进行精细化分类的细粒度分类模型;所述分类阶段包括如下步骤:5)以未标记的流序列为输入,进行与模型构建阶段1中步骤1)相同的短序列预处理操作将待测流序列转换为定长特征短序列;6)根据模型构建阶段1中步骤2)得到的早期快速检测模型,判断该目标流量是能早期分类的流还是不能早期分类的流,并做不同的标记;7)根据每条目标流量在分类阶段中步骤6)生成的早期检测标记进行判断,对于能早期分类的流输出其对应的预测标签,对于不能早期分类的流传送到后续模块;8)对分类阶段中步骤7)中不能早期分类的流进行与模型构建阶段2中步骤3)相同的长序列预处理操作,生成定长的独热表征长序列;9)以分类阶段中步骤8)生成的定长独热表征长序列为输入,采用模型构建阶段2中步骤4)生成的细粒度分类模型对不能早期分类的目标流量进行精细化分类,并输出其预测标签。2.如权利要求1所述的一种快速、准确的加密流量分类方法,其特征在于,步骤1)进行短序列预处理的具体操作方法是:1

1)根据短序列预处理模块指定的数据报文个数,通过截取或填充的方式对每条流序列中少数的早期数据报文个数进行调整,使每条流序列仅包含指定数量的几个早期数据包;丢弃流序列中超出指定数量的数据报文、对不足指定数量的流序列在尾部填充基础属性全为零的数据报文;1

2)在指定数据报文数量的流中,提取流中每个数据报文的报文长度、窗口大小以及数据报文到达时间间隔,并对数据报文到达时间间隔进行分段处理;然后,对这些基础属性以每个数据包的三个基础属性(报文长度、窗口大小、时间间隔)为单位、按照报文出现的顺序进行排列,形成定长的特征短序列。3.如权利要求1所述的一种快速、准确的加密流量分类方法,其特征在于,步骤2)构建所述早期快速检测模型的方法是:
2

1)以步骤1)得到的定长特征短序列集合为训练集作为输入,采用随机采样的方式对训练集合进行子集构建操作,从而构建出多个包含有固定数量样本的训练样本子集;2

2)以步骤2

1)得到的多个训练样本子集为输入,对每一个训练样本子集都采用基于CART(分类与回归树)算法的建树操作,从而得到多棵决策树;2

3)以步骤2

2)得到的多棵决策树为输入,对每棵决策树中的Gini为零的叶子节点进行规则生成操作,得到用于判别流序列是否可以早期分类的规则集;2

4)以步骤2

3)得到的多个规则集为输入,进行规则融合操作,得到包含各个规则集的融合规则集,并输出由融合规则集构成的早期快速检测模型。4.如权利要求1所述的一种快速、准确的加密流量分类方法,其特征在于,步骤3)进行长序列预处理的具体操作方法是:3

1)根据长序列预处理模块指定的数据报文个数,通过截取或填充的方式对每条流序列中较多的数据报文个数进行调整,使每条流序列包含指定数量的早期数据包;丢弃流序列中超出指定数量的数据报文、对不足指定数量的流序列在尾部填充基础属性全为零的数据报文;3

2)在指定数据报文数量的流中,仅提取流中每个数据报文的报文长度,并对这些报文长度属性按照报文出现的顺序排列形成定长的特征长序列;3

2)在定长的特征长序列中,设流序列中每个报文长度可能的取值构成一个集合...

【专利技术属性】
技术研发人员:王一鹏贺慧杰赖英旭云晓春
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1