当前位置: 首页 > 专利查询>山东大学专利>正文

基于支持向量机的实时多应用网络流量识别方法技术

技术编号:10435901 阅读:193 留言:0更新日期:2014-09-17 12:51
针对现有网络流量识别方法存在的问题,提供一种基于支持向量机的低复杂度、高识别准确率、可实时的网络流量识别方法。此方法采用“时间窗口法”只从网络流的数据包头获取简单有效的特征,并选用算法复杂度低、运算量小的支持向量机算法,使其不仅能够快速建模生成分类器,而且在小样本情况下就能达到很高的识别准确率,还可以在任何时间点对网络流的多种应用进行测量识别,满足实时多应用的需求。

【技术实现步骤摘要】
基于支持向量机的实时多应用网络流量识别方法
本专利技术涉及一种网络流量识别方法,属于网络测量

技术介绍
随着计算机网络技术的飞速发展和信息时代的到来,互联网的不断普及也引发了网络拥塞、P2P应用大肆抢占带宽和网络安全等问题,网络运营商和网络服务提供商需要采用一种合适的网络测量方法对网络进行管理。近年来在学术和应用领域越来越关注网络流量识别方法的研究,也越来越关注流量识别的可行性和有效性,即如何快速地处理海量的数据和如何正确地识别网络中的各种应用。因此,流量识别方法应该既要简单有效,又要灵活且应用面广。现有的网络流量识别方法主要分为四大类:基于端口映射的流量识别方法、基于深度报文检测的流量识别方法、基于行为特征的流量识别方法和基于机器学习的流量识别方法。随着网络技术的不断发展和网络应用的不断推陈出新,基于端口映射、深度报文检测、行为特征的流量识别方法存在越来越多的限制和缺陷。如今学术界将重点放在了基于机器学习的流量识别方法上,这种方法利用机器学习的数据挖掘能力,从网络流量庞大、复杂的数据中提取隐含的、潜在的有效特征信息。此类方法的关键是选择合理的流量特征和选择合适的机器学习算法。然而,研究主要集中在非实时性的流量识别上,即先收集很长一段时间的网络流数据,再对其进行分类识别,这无法识别出当前用户对网络的使用情况。目前,实时网络流量识别方法中,有些方案将网络流开始建立时的前若干个数据包作为特征进行识别,此类方法虽然简单快捷,但需要捕捉网络流开始建立的时间点,如果错过就很难再识别出结果。还有些方案将从网络流生命周期的不同时间点选择若干个连续的数据包组(如25个数据包为一组)作为特征进行识别,此类方法需要考虑网络流的生命周期,如果生命周期很长则识别所需的时间也会增长。这些方案都过于依赖网络流的本身,灵活性差,有一定的限制。
技术实现思路
本专利技术针对现有网络流量识别方法存在的不足,提供一种基于支持向量机(SVM)的可实时识别网络环境中多种应用类型的方法,此方法采用“时间窗口法”只从网络流的数据包头获取简单有效的特征,并选用算法复杂度低、运算量小的支持向量机算法,使其不仅能够快速建模生成分类器,而且在小样本情况下就能达到很高的识别准确率,还可以在任何时间点对网络流的多种应用进行测量识别,满足实时多应用的需求。“时间窗口法”是指对网络流连续统计一段时间,并根据此时间段内的网络流量与平均值偏离程度大小划分为“峰值区”和“稳定区”,由时间窗口内的数据生成识别所需的特征。本专利技术提出的基于支持向量机的网络流量识别方法,包括支持向量机的离线训练和支持向量机的在线实时分类步骤:支持向量机的离线训练步骤包括:(1)利用抓包工具从网络线路中抓取数据包;(2)对数据包进行统计,得到网络流的包数、包长、源地址、目的地址、传输层协议和上行或下行的流向;(3)从获取的数据中抽样,选择网络应用正常运行时的样本,分别对样本的应用类别进行标注;(4)根据“时间窗口法”,从任意的时间点开始,设定一段时间,根据该段时间内连续采集的网络流量与平均值的偏离程度,将高于平均值1.6倍的流量称为“峰值区”,处于平均值0.6~1.4倍区间的流量称为“稳定区”,由此时间段内的网络流量生成多种特征值;(5)采用支持向量机方法对样本特征值进行训练学习,生成分类规则,构建分类器模型。支持向量机的在线实时分类步骤包括:(1)利用抓包工具从网络线路中抓取数据包;(2)对数据包进行统计,得到网络流的包数、包长、源地址、目的地址、传输层协议和上行或下行的流向;(3)采用支持向量机的离线训练步骤的步骤(4)相同的方法生成多种特征值;(4)采用支持向量机的离线训练步骤的步骤(5)已经生成的分类规则和分类器模型,对网络流的特征值进行分类识别,得出识别结果。所述离线训练步骤中第(4)步和在线实时分类步骤中第(3)步中的多种特征值包括下行包数,上行包数,下行数据量,上行数据量,下、上行包数比,下、上行数据量比,下、上行包数方差比,下、上行数据量方差比,下行中大数据量的IP数目,峰值区内数据量的比重,稳定区内样本数目的比重。所述支持向量机的离线训练步骤中的步骤(5)中采用交叉验证法获得支持向量机的核函数参数和惩罚参数。本专利技术首先采用“时间窗口法”从网络流的数据包头获取多种特征,然后通过支持向量机算法对多种网络应用类型的特征值进行训练和识别。“时间窗口法”获取网络流特征的过程简单;而且可以在任何时间点对网络流进行特征提取。支持向量机是一种针对小样本的机器学习方法,并且通过内积核函数实现非线性分类,其得到的最优决策函数是只由少数支持向量构成的分类超平面;此算法简单、运算量少,还具有泛化能力和鲁棒性。本专利技术满足实时多应用网络流量识别的需求。附图说明图1是实时网络流量识别系统的原理示意框图。图2(a)是时间窗口示意图;(b)是窗口内流量区间的划分示意图。图3是调用libpcap函数库的流程示意图。图4是基于支持向量机的网络流量识别方法的示意图。图5是网络流量识别方法准确率的展示示意图。图6是网络流量识别方法生成分类器模型所需时间的展示示意图。具体实施方式针对现有网络流量识别方法存在的问题,提供一种基于支持向量机的低复杂度、可实时的网络流量识别方法,此方法所需训练样本少,计算复杂度比较低,非常适合解决网络流量识别这种大数据、多样性的非线性多分类问题。图1给出了本专利技术的网络流量识别系统离线训练和在线实时分类的原理步骤。图4给出了基于支持向量机的网络流量识别方法的原理。下面结合附图和实施例对本专利技术进行进一步的说明,但不限于此例。考虑该实时网络流量识别系统存在于家庭局域网中,并将网络流量识别作为家庭网关的一项功能。网络流数据包的上行或下行是根据源地址确定的。假设以家庭内部局域网作为本地,外部互联网作为远端,如果源地址是本地的IP则认为数据流向是上行,即上传;如果源地址是远端的IP则认为数据流向是下行,即下载。针对家庭局域网中使用频繁的m=6种应用类型:P2P的多媒体或下载、非P2P的多媒体或下载、WWW(Web浏览)、网络游戏(客户端游戏)、视频通话/会议和文件共享(局域网内)。从任意时间点开始,以1秒为时间单位,对每一秒内抓取的网络流进行统计,得到网络流的包数、包长、源地址、目的地址、传输层协议和流向(上行或下行)。连续统计τ=n(设n=15)秒后得到图2(a)图中一个时间窗口内网络流的变化情况。在图2(b)图中,根据时间窗口内的流量平均值,将τ时间段内的流量划分为稳定区和峰值区。因此在这个窗口中既能获取每一秒流量的包数、包长等基本数据,又能分析流量在τ时间段内的爆发性、平稳性。由τ时间段内统计的网络流数据生成d=11种特征:下行包数,上行包数,下行数据量,上行数据量,下、上行包数比,下、上行数据量比,下、上行包数方差比,下、上行数据量方差比,下行中大数据量的IP数目,峰值区内数据量的比重,稳定区内样本数目的比重。支持向量机的离线训练步骤如下:(1)利用Linux系统下的libpcap函数库从网络线路中抓取数据包,调用libpcap各个函数的流程如图3所示;通过解析各层的数据包头得到开放系统互连参考模型(OSI/RM)的各层信息,如数据链路层的MAC地址、IP层的源IP与目的IP、传输本文档来自技高网
...
基于支持向量机的实时多应用网络流量识别方法

【技术保护点】
一种基于支持向量机的网络流量识别方法,包括支持向量机的离线训练和支持向量机的在线实时分类步骤:支持向量机的离线训练步骤包括:(1)利用抓包工具从网络线路中抓取数据包;(2)对数据包进行统计,得到网络流的包数、包长、源地址、目的地址、传输层协议和上行或下行的流向;(3)从获取的数据中抽样,选择网络应用正常运行时的样本,分别对样本的应用类别进行标注;(4)根据“时间窗口法”,从任意的时间点开始,设定一段时间,根据该段时间内连续采集的网络流量与平均值的偏离程度,将高于平均值1.6倍的流量称为“峰值区”,处于平均值0.6~1.4倍区间的流量称为“稳定区”,由此时间段内的网络流量生成多种特征值;(5)采用支持向量机方法对样本特征值进行训练学习,生成分类规则,构建分类器模型;支持向量机的在线实时分类步骤包括:(1)利用抓包工具从网络线路中抓取数据包;(2)对数据包进行统计,得到网络流的包数、包长、源地址、目的地址、传输层协议和上行或下行的流向;(3)采用支持向量机的离线训练步骤的步骤(4)相同的方法生成多种特征值;(4)采用支持向量机的离线训练步骤的步骤(5)已经生成的分类规则和分类器模型,对网络流的特征值进行分类识别,得出识别结果。...

【技术特征摘要】
1.一种基于支持向量机的网络流量识别方法,包括支持向量机的离线训练和支持向量机的在线实时分类步骤:支持向量机的离线训练步骤包括:(1)利用抓包工具从网络线路中抓取数据包;(2)对数据包进行统计,得到网络流的包数、包长、源地址、目的地址、传输层协议和上行或下行的流向;(3)从获取的数据中抽样,选择网络应用正常运行时的样本,分别对样本的应用类别进行标注;(4)根据“时间窗口法”,从任意的时间点开始,设定一段时间,根据该段时间内连续采集的网络流量与平均值的偏离程度,将高于平均值1.6倍的流量称为“峰值区”,处于平均值0.6~1.4倍区间的流量称为“稳定区”,由此时间段内的网络流量生成多种特征值;(5)采用支持向量机方法对样本特征值进行训练学习,生成分类规则,构建分类器模型;支持向量机的在...

【专利技术属性】
技术研发人员:刘琚马衍庆乔美华于智源郭志鑫
申请(专利权)人:山东大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1