一种深度学习的网络流量分类方法技术

技术编号:16783515 阅读:31 留言:0更新日期:2017-12-13 02:09
本发明专利技术为一种基于深度学习的网络流量分类方法,包括(1)网络流量样本数据的获取;(2)网络流量属性的确定,包括:a.网络流量中客户端端口号统计分析;b.网络流量中数据包平均到达时间统计分析;c.网络流量中包含数据包个数统计分析;(3)网络流量样本标记;(4)连续数据的离散化;(5)样本的训练;本发明专利技术能够对纷繁复杂的网络流量资源,能够满足高精度的分类要求。

【技术实现步骤摘要】
一种深度学习的网络流量分类方法
本专利技术属于网络信息安全
,特别涉及一种基于深度学习的网络流量分类方法。
技术介绍
随着信息技术的蓬勃发展,种类繁多的互联网应用产生的大量流量占用了很多网络资源,在给服务质量带来巨大挑战的同时也给互联网安全产生负面影响。为了高效地利用网络资源并为网络管理者提供有效的管控手段,以辨别应用层协议为目的的网络流量分类技术成为近年来的研究热点问题。在网络流量分类的传统方法中,应用最广的是基于知名端口号(knownports)的流量分类算法、基于特征字匹配的流量分类算法、基于传输层行为模式的流量分类算法。但是随着端口伪造、明文加密等技术的使用以及网络类别环境差别的增大,上述三种分类方法在现阶段已经无法满足对分类的精度要求。机器学习方法不需要对端口进行匹配,也不需要解析流量的有效载荷内容,同时不受网络环境等影响就可以对网络流量进行高精度的分类,故基于机器学习算法的网络流量分类技术成为近年来的研究热点问题。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术的缺陷,提供一种基于深度学习的网络流量分类方法。本专利技术的技术方案是,一种基于深度学习的网络流量分类方法,包括如下步骤:(1)网络流量样本数据的获取;采用Libpcap库对网络流量进行捕获;(2)网络流量属性的确定,包括a.网络流量中客户端端口号统计分析;b.网络流量中数据包平均到达时间统计分析;c.网络流量中包含数据包个数统计分析;(3)网络流量样本标记;采用一种基于端口号及特征字匹配的网络流量样本标记算法,该算法先利用IANA的知名端口库判断训练样本中流量的端口号是否为知名端口,再利用特征字匹配技术将非知名端口的流量样本进行深度解析匹配,对未知流样本进行标记;(4)连续数据的离散化;利用基于粗糙集的方法对网络流量样本中连续的数据进行离散化;(5)样本的训练;采用深度学习中的受限玻尔兹曼机,在原始输入特征中抽取低维高度可区分的低维特征作为训练模型的输入,对样本进行训练,使用支持向量机作为回归模型。本专利技术的有益效果在于:对纷繁复杂的网络流量资源,能够满足高精度的分类要求。附图说明图1为本专利技术的方法流程图具体实施方式下面,结合附图对于本专利技术进行如下详细说明:流程图如图1所示,描述了利用深度学习算法对网络流进行分类的过程。首先从外部网络中获取数据,之后将数据进行处理得到用流的属性向量表示的流数据集合,再对流的属性特征进行选择得到待训练数据,利用深度学习算法进行训练得到分类模型,最后利用分类模型对未知样本进行分类。本专利技术主要包括以下步骤:一是网络流量样本数据的获取。常使用普通的PC机,利用Libpcap库对网络流量进行捕获。二是流量属性的确定。样本数据对学习模型的稳定性、精确性有着至关重要的作用,而样本是由网络流的各项属性计算而来,所以流属性的确定也就决定了流分类的结果精度。本专利技术采用三种方法进行流量属性确定:1.网络流中客户端端口号统计分析;2.网络流中数据包平均到达时间统计分析;3.网络流中包含数据包个数统计分析。三是网络流样本的标记。本专利技术的深度学习算法均是有监督的学习算法,所以机器学习的训练样本中需要包含样本的类别信息,即训练时算法需要事先知道该样本的类别,在对未知样本进行分类时可以增大分类模型的精度。本专利技术设计了一种基于端口号及特征字匹配的网络流样本标记算法,该算法先利用IANA的知名端口库判断训练样本中流的端口号是否为知名端口,再利用特征字匹配技术将非知名端口的流样本进行深度解析匹配,对未知流样本进行标记。四是连续数据的离散化。利用基于粗糙集的方法对网络流样本中连续的数据进行离散化。五是样本的训练。本专利技术采用了深度学习中的受限玻尔兹曼机进行样本的监督学习。在深度学习中,大多数的模型仅使用了少量特征作为输入,因此可能没有足够的信息来对网络流量进行准确分类。如果输入更多的特征,将可能发生所谓的维数灾难,导致模型的训练时间大幅度增加,其泛化能力也可能会恶化。因此,在原始高维的输入特征中抽取出高度可区分的低维特征,并将其作为相应模型的输入对改善模型的泛化性能会有很大的帮助。受限玻尔兹曼机(RestrictedBoltzmannMachine)是一种新型的机器学习工具,因为其强大的学习能力,受限玻尔兹曼机已经被广泛应用于各种机器学习问题。在本专利技术中,使用受限玻尔兹曼机从原始输入特征中抽取低维高度可区分的低维特征,并且使用支持向量机(SupportVectorMachine)作为回归模型。所述仅是本专利技术的具体实例,任何基于本专利技术方法基础的等效变换,均属于本专利技术保护范围之内。本文档来自技高网...
一种深度学习的网络流量分类方法

【技术保护点】
一种基于深度学习的网络流量分类方法,其特征在于,包括如下步骤:(1)网络流量样本数据的获取;采用Libpcap库对网络流量进行捕获;(2)网络流量属性的确定,包括a.网络流量中客户端端口号统计分析;b.网络流量中数据包平均到达时间统计分析;c.网络流量中包含数据包个数统计分析;(3)网络流量样本标记;采用一种基于端口号及特征字匹配的网络流量样本标记算法,该算法先利用IANA的知名端口库判断训练样本中流量的端口号是否为知名端口,再利用特征字匹配技术将非知名端口的流量样本进行深度解析匹配,对未知流样本进行标记;(4)连续数据的离散化;利用基于粗糙集的方法对网络流量样本中连续的数据进行离散化;(5)样本的训练;采用深度学习中的受限玻尔兹曼机,在原始输入特征中抽取低维高度可区分的低维特征作为训练模型的输入,对样本进行训练,使用支持向量机作为回归模型。

【技术特征摘要】
1.一种基于深度学习的网络流量分类方法,其特征在于,包括如下步骤:(1)网络流量样本数据的获取;采用Libpcap库对网络流量进行捕获;(2)网络流量属性的确定,包括a.网络流量中客户端端口号统计分析;b.网络流量中数据包平均到达时间统计分析;c.网络流量中包含数据包个数统计分析;(3)网络流量样本标记;采用一种基于端口号及特征字匹配的网络流量样本标记算法,该算法先利用IAN...

【专利技术属性】
技术研发人员:徐杰陈训逊王博崔佳王东安包秀国
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1