一种网络数据流分类的方法及系统技术方案

技术编号：17601115 阅读：132 留言：0更新日期：2018-03-31 13:09

本申请公开了一种网络数据流分类的方法及系统，方法包括：采集待处理的数据流的包含有多个维度信息的信息集合；建立信息集合中每个维度信息的静态行为模型及动态行为模型，静态行为模型表征维度信息的取值规律，动态行为模型表征维度信息在前后时刻之间的关联关系；利用静态行为模型及动态行为模型，分别获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离；基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，确定所述待处理的数据流的应用类型。

全部详细技术资料下载

【技术实现步骤摘要】
一种网络数据流分类的方法及系统
本申请涉及数据处理
，特别涉及一种网络数据流分类的方法及系统。
技术介绍
随着互联网技术的日益普遍，特别是移动终端的普及，通信网络涌现出越来越多的应用类型的数据流，如交互类型、巨量数据传输类型、流应用的类型及异常流类型，等等。不同的应用类型的数据流对网络服务的要求不尽相同，因此，通常针对不同的应用类型的数据流需要提供不同的服务质量。例如，交互类型的数据，如远程登录等数据，对网络的延迟性要求较高，具有较高的实时性需求；巨量数据传输类型的数据，如文件、视频的下载等，虽然对实时性的需求不高，但需要足够的吞吐量保证；而流应用类型的数据，如在线视频观看、多媒体会议等，对实时性的需求较高，且对网络传输的抖动及丢包率等参数也有较高的要求；或者，异常的数据，而异常的数据可能属于恶意攻击并企图瘫痪网络，需要采取措施限制甚至禁止；等等。为了实现对不同应用类型的数据流提供不同的服务质量，需要在提供服务之前准确的将网络中的数据流进行应用类型的准确分类。现有技术中通常采用以下两种方案实现：一种方案中，根据数据流的服务器端口号或客户端端口号对数据流进行应用类型的分类。但是，这种方案需要预先基于IRNA(InternetAssignedNumberAuthority，网络分配数量权威)将端口号和数据流的应用类型进行关联，而IRNA无法定义所有应用类型的数据流，很多应用并不遵从IRNA的规则而是随机的分配端口号，因此，对应用类型的分类具有局限性；另一种方案中，通过对数据流的报文内容进行深度的报文解析，以实现区分出异常数据流。但这种方案中，不能适用于对...
一种网络数据流分类的方法及系统

【技术保护点】
一种网络数据流分类的方法，其特征在于，包括：采集待处理的数据流的信息集合，所述信息集合包括有多个维度信息；建立所述信息集合中每个维度信息的静态行为模型及动态行为模型，所述静态行为模型表征所述维度信息的取值规律，所述动态行为模型表征所述维度信息在前后时刻之间的关联关系；利用所述静态行为模型及所述动态行为模型，分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离；基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，确定所述待处理的数据流的应用类型。

【技术特征摘要】
1.一种网络数据流分类的方法，其特征在于，包括：采集待处理的数据流的信息集合，所述信息集合包括有多个维度信息；建立所述信息集合中每个维度信息的静态行为模型及动态行为模型，所述静态行为模型表征所述维度信息的取值规律，所述动态行为模型表征所述维度信息在前后时刻之间的关联关系；利用所述静态行为模型及所述动态行为模型，分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离；基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，确定所述待处理的数据流的应用类型。2.根据权利要求1所述的方法，其特征在于，所述信息集合包括流层面的第一信息集合及链接层面的第二信息集合；所述第一信息集合至少包括以下维度信息：报文长度、报文到达时间间隔；所述第二信息集合至少包括以下维度信息：数据流长度、数据流中的报文数目、数据流持续时间、数据流到达时间间隔。3.根据权利要求2所述的方法，其特征在于，所述建立所述信息集合中每个维度信息的静态行为模型及动态行为模型，包括：获得所述第一信息集合中每个维度信息的边缘概率分布，所述边缘概率分布表征所述维度信息的取值规律，并基于所述第一信息集合中每个维度信息的边缘概率分布，生成所述第一信息集合中每个维度信息的静态行为模型；获得所述第一信息集合中每个维度信息的条件概率分布，所述条件概率分布表征所述维度信息在前后时刻之间的关联关系，并基于所述第一信息集合中每个维度信息的条件概率分布，生成所述第一息集合中每个维度信息的动态行为模型；获得所述第二信息集合中每个维度信息的边缘概率分布，所述边缘概率分布表征所述维度信息的取值规律，并基于所述第二信息集合中每个维度信息的边缘概率分布，生成所述第二信息集合中每个维度信息的静态行为模型；获得所述第二信息集合中每个维度信息的条件概率分布，所述条件概率分布表征所述维度信息在前后时刻之间的关联关系，并基于所述第二信息集合中每个维度信息的条件概率分布，生成所述第二信息集合中每个维度信息的动态行为模型。4.根据权利要求2所述的方法，其特征在于，所述建立所述信息集合中每个维度信息的静态行为模型及动态行为模型，包括：利用获得第一信息集合中每个维度信息的静态行为模型，其中，xi为第一信息集合中的第i个维度信息，n为第一信息集合中维度信息的个数，为核函数k(x,y)的特征函数向量；利用获得第一信息集合中每个维度信息前后两个时刻的动态行为模型，其中，t为时刻，且Ktt为所述第一信息集合中维度信息所组成的矩阵，[Ktt]ij为矩阵中第i行第j个矩阵元素，[Ktt]ij＝k(xi,xj)，xi为第一信息集合中的第i个维度信息，n为第一信息集合中维度信息的个数，为核函数k(x,y)的特征函数向量，λ为预设参数，I为单位矩阵；利用获得第二信息集合中每个维度信息的静态行为模型，其中，xi为第二信息集合中的第i个维度信息，n为第二信息集合中维度信息的个数；利用获得第二信息集合中每个维度信息前后两个时刻的动态行为模型，其中，t为时刻，且Ktt为所述第二信息集合中维度信息所组成的矩阵，[Ktt]ij为矩阵中第i行第j个矩阵元素，[Ktt]ij＝k(xi,xj)，xi为第二信息集合中的第i个维度信息，n为第二信息集合中维度信息的个数，为核函数k(x,y)的特征函数向量。5.根据权利要求2所述的方法，其特征在于，利用所述静态行为模型及所述动态行为模型，分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，包括：利用获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的静态模型距离，其中，为待处理的数据流A的第一信息集合的静态行为模型，为目标应用类型所属的数据流B的流层面的静态行为模型，i表示信息集合中的第i个维度信息；利用获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的静态模型距离，其中，为待处理的数据流A的第二信息集合的静态行为模型，为目标应用类型所属的数据流B的链接层面的静态行为模型；利用获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的动态模型距离，其中，为待处理的数据流A的第一信息集合的静态行为模型，为目标应用类型所属的数据流B的流层面的静态行为模型；利用获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的动态模型距离，其中，为待处理的数据流A的第二信息集合的动态行为模型，为目标应用类型所属的数据流B的链接层面的动态行为模型。6.根据权利要求1至5任一项所述的方法，其特征在于，基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离，确定所述待处理的数据流的应用类型，包括：对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理，得到所述待处理的数据流与各个所述目标数据流之间的特征距离；利用分类算法，基于所述特征距离，确定所述待处理的数据流的应用类型。7.根据权利要求6所述的方法，其特征在于，对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理，得到所述待处理的数据流与各个所述目标数据流之间的特征距离，包括：基于各个目标应用类型的数据流的静态行为模型及动态行为模型，获得权重矩阵，所述权重矩阵使得从属于同一应用类型的数据流之间的特征距离最小，从属于不同应用类型的数据流之间的特征距离最大；利用所述权重矩阵，对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理，得到所述待处理的数据流与各个所述目标数据流之间的特征距离。8.根据权利要求6所述的方法，其特征在于，所述分类算法包括：K近邻分类算法或NaiveBayesian分类算法；利用分类算法，基于所述特征距离，确定述待处理的数据流的应用类型，包括：基于K近邻分类算法或NaiveBayesian分类算法，将最小的特征距离所对应的目标应用类型确定为所述待处理的数据流的应用类型。9.一种网络数据流分类的系统，其特征在于，包括：从服务器及主服务器；所述从服务器，包括信息采集模块，所述信息采集模块用于采集终端传输的待处理的数据流的信息集合，所述信息集合...

【专利技术属性】
技术研发人员：陈志堂，耿彦辉，简波尼亚斯·乔治，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人