本申请属于网络流量管理技术领域,特别是涉及一种网络流量分类方法。随着未知流量的多变化和复杂化,已存在的分类方法在特征提取模块和分类算法模块却不能达到很好的分类效果;不能精确检测和识别出未知流量。本申请提供了一种网络流量分类方法,采集网络流量样本数据;对样本数据进行预处理,得到样本数据集;对样本数据打标签,得到标签数据集;将有标签的数据集和未知标签的数据集整合,得到混合训练数据集;对标签数据集的网络流进行分层协议特征提取,得到特征流数据集;采用聚类算法对混合训练数据集和特征流数据集进行训练建模和测试验证;输出分类结果。能充分利用网络流间关联信息,经过训练,对未知流量进行精准的分类和识别。
【技术实现步骤摘要】
一种网络流量分类方法
本申请属于网络流量管理
,特别是涉及一种网络流量分类方法。
技术介绍
随着互联网技术的高速发展,网络环境随之也变得非常复杂和多样化,因此对网络的正常运行、网络服务、资源实时分配和流量管理有更高的要求,此时有效的监管网络活动的方法非常重要。诸如,对于企业管理者来说,做到对流量精确的分类和识别,可以对网络资源进行精准管理、资源有效再利用和提供个性化服务起到很好的作用。同时对于企业,能节省网络资源不必要的开支也是非常的重要。流量分类也是网络安全和流量工程的重要一环。如果能准确的把流量进行分类和识别,不仅对网络安全和网络管理服务效率有很大提升,也可以降低系统时间和内存开销。由于大量的网络应用涌现,使得网络环境变得复杂和多样。流量分类和应用识别在网络管理、资源分配、按需服务和安全系统等中发挥着重要作用,如服务质量和入侵检测系统等。如何能准确的对未知流量进行精准的分类,来提高系统资源利用率、网络资源再分配和给客户提供个性化服务是一大挑战。现有的网络流量分类方法大都是基于传统的机器学习技术,分类性能大部分依赖于基于包特征或者基于流统计的设计。由于大量未知应用流量的产生,对网络资源和系统环境产生一定的影响,目前,随着未知流量的多变化和复杂化,已存在的分类方法在特征提取模块和分类算法模块却不能达到很好的分类效果;不能精确检测和识别出未知流量。
技术实现思路
1.要解决的技术问题基于现有的网络流量分类方法大都是基于传统的机器学习技术,分类性能大部分依赖于基于包特征或者基于流统计的设计。由于大量未知应用流量的产生,对网络资源和系统环境产生一定的影响,目前,随着未知流量的多变化和复杂化,已存在的分类方法在特征提取模块和分类算法模块却不能达到很好的分类效果;不能精确检测和识别出未知流量的问题,本申请提供了一种网络流量分类方法。2.技术方案为了达到上述的目的,本申请提供了一种网络流量分类方法,所述方法包括如下步骤:步骤1、采集网络流量样本数据;步骤2、对样本数据进行预处理,得到样本数据集;步骤3、对所述样本数据集中的样本数据打标签,得到标签数据集;步骤4、将所述标签数据集和未知标签数据集整合,得到混合训练数据集;步骤5、对所述标签数据集的网络流进行分层协议特征提取,得到特征流数据集;步骤6、采用聚类算法对所述混合训练数据集和所述特征流数据集进行训练建模和测试验证;步骤7、输出分类结果。可选地,所述步骤1包括如下步骤:101、选择数据库;102、监控所述数据库中的已知网络应用流量和未知网络应用流量;103、捕捉所有应用流量信息,采集样本数据。可选地,所述步骤1中样本数据包括已知网络数据包和网络日志,所述样本数据包括未知网络数据包和网络日志。可选地,所述步骤2对样本数据进行预处理包括清洗样本数据流量,去除不规则的数据包。可选地,所述步骤3对样本数据打标签包括找出已知网络应用流量的IP地址、端口号和传输协议;通过查找网络日志中与已知网络应用关联的IP地址和端口号,完成标签匹配,得到扩充流标签数据集。可选地,所述步骤4将有标签的数据集和未知标签的数据集整合包括采用标签传播算法从未知网络包里抽取实例,通过提取已打标签数据集和未打标签数据集的目的IP、目的端口号和传输协议,进行同源匹配;得到混合训练数据集。可选地,所述步骤5对标签数据集的网络流进行分层协议特征提取包括输入标签数据集,对每个标签数据进行分层协议特征提取,得到特征流数据集。可选地,所述步骤6包括对所述混合训练数据集和所述特征流数据集进行聚类,然后不断迭代训练,测试训练好的分类模型。可选地,所述步骤2中样本数据包括未知流量和已知流量。可选地,所述步骤3对样本数据打标签包括对已知应用流量样本数据打标签。3.有益效果与现有技术相比,本申请提供的一种网络流量分类方法的有益效果在于:本申请提供的网络流量分类方法,采用少量的标签数据集却能达到更好的分类效果,采用协议特征集和混合数据集训练建模,进行聚类训练,有很好的聚类效果;本申请涉及的方法可以准确地利用已知流和未知流之间的相似性和拥有有效的特征集,确保在网络流量分类过程中,能充分利用网络流间关联信息,经过训练,对未知流量进行精准的分类和识别。分类模型明显有很高的分类精度。用这种方法可以在大数据集下,可保证较高分类准确率,且有较好的伸缩性。附图说明图1是本申请的一种网络流量分类方法流程图。具体实施方式在下文中,将参考附图对本申请的具体实施例进行详细地描述,依照这些详细的描述,所属领域技术人员能够清楚地理解本申请,并能够实施本申请。在不违背本申请原理的情况下,各个不同的实施例中的特征可以进行组合以获得新的实施方式,或者替代某些实施例中的某些特征,获得其它优选的实施方式。聚类分析算法很多,比较经典的有k-means和层次聚类法。k-means的k就是最终聚集的簇数,这个需要事先自己指定。k-means在常见的机器学习算法中算是相当简单的,基本过程如下:首先任取(你没看错,就是任取)k个样本点作为k个簇的初始中心;对每一个样本点,计算它们与k个中心的距离,把它归入距离最小的中心所在的簇;等到所有的样本点归类完毕,重新计算k个簇的中心;重复以上过程直至样本点归入的簇不再变动。参见图1,本申请提供一种网络流量分类方法,所述方法包括如下步骤:步骤1、采集网络流量样本数据;步骤2、对所述样本数据进行预处理,得到样本数据集;步骤3、对所述样本数据集中的样本数据打标签,得到标签数据集;为聚类算法模型训练做输入准备;这里少量样本打标签却能达到更好的分类效果;与未标签的样本结合规则得到扩充流标签数据集;步骤4、将有标签的数据集和未知标签的数据集整合,得到混合训练数据集;步骤5、对标签数据集的网络流进行分层协议特征提取,得到特征流数据集;步骤6、采用聚类算法对混合训练数据集和特征流数据集进行训练建模和测试验证;此阶段是用来测试分类模型鲁棒性;用聚类算法不断迭代训练,来达到更好的聚类精度;此验证阶段的测试数据集来测试已经训练好的分类模型。模型分类效率和鲁棒性明显提高;步骤7、输出分类结果。进一步地,101、选择一个大型网络数据中心,准备采集样本数据;利用相似的流样本数据来自同一个网络应用机制,可得到很好的数据标记效果,会提高标记精度。102、采用高性能网络监控软件监控已知和未知网络应用流量;103、采用Wireshark软件采集网络数据,捕捉所有流量包信息,获得样本数据。进一步地,所述样本数据包括已知网络数据包和网络日志,该样本数据也包括未知网络数据包和网络日志。进一步地,步骤2包括清洗样本数据流量,去除不规则的数据包。进一步地,步骤3包括找出已知网络应用流量的IP地址、端口号和传输协议;通过查找网络日志中与已知网络应用关联的IP地址和端口字段,完成标签匹配,得到标签数据集。进一步地,所述步骤4包括采用标签传播算法(LabelPropagationAlgorithm,LPA)从未知网络包里抽取定量的实例,通过提取已打标签数据集和未打标签数据集的目的IP、目的端口号和传输协议,进行同源匹配;得到混合训练数据集。如果在一段时间内,客户端用一样的传输协议和固定的端口号给同样目的IP发送请求,那么此段流量可以认为是同一个应用产生的流量,本文档来自技高网...
【技术保护点】
1.一种网络流量分类方法,其特征在于:所述方法包括如下步骤:步骤1、采集网络流量样本数据;步骤2、对样本数据进行预处理,得到样本数据集;步骤3、对所述样本数据集中的样本数据打标签,得到标签数据集;步骤4、将所述标签数据集和未知标签数据集整合,得到混合训练数据集;步骤5、对所述标签数据集的网络流进行分层协议特征提取,得到特征流数据集;步骤6、采用聚类算法对所述混合训练数据集和所述特征流数据集进行训练建模和测试验证;步骤7、输出分类结果。
【技术特征摘要】
1.一种网络流量分类方法,其特征在于:所述方法包括如下步骤:步骤1、采集网络流量样本数据;步骤2、对样本数据进行预处理,得到样本数据集;步骤3、对所述样本数据集中的样本数据打标签,得到标签数据集;步骤4、将所述标签数据集和未知标签数据集整合,得到混合训练数据集;步骤5、对所述标签数据集的网络流进行分层协议特征提取,得到特征流数据集;步骤6、采用聚类算法对所述混合训练数据集和所述特征流数据集进行训练建模和测试验证;步骤7、输出分类结果。2.如权利要求1所述的网络流量分类方法,其特征在于:所述步骤1包括如下步骤:101、选择数据库;102、监控所述数据库中的已知网络应用流量和未知网络应用流量;103、捕捉所有应用流量信息,采集样本数据。3.如权利要求1所述的网络流量分类方法,其特征在于:所述步骤1中样本数据包括已知网络数据包和网络日志,所述样本数据包括未知网络数据包和网络日志。4.如权利要求1所述的网络流量分类方法,其特征在于:所述步骤2对样本数据进行预处理包括清洗样本数据流量,去除不规则的数据包。5.如权利要求1所述的网络流量分类方法,其特征在于:所述步...
【专利技术属性】
技术研发人员:赵世林,叶可江,须成忠,
申请(专利权)人:深圳先进技术研究院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。