一种网络数据流分类的方法及系统技术方案

技术编号:17601115 阅读:132 留言:0更新日期:2018-03-31 13:09
本申请公开了一种网络数据流分类的方法及系统,方法包括:采集待处理的数据流的包含有多个维度信息的信息集合;建立信息集合中每个维度信息的静态行为模型及动态行为模型,静态行为模型表征维度信息的取值规律,动态行为模型表征维度信息在前后时刻之间的关联关系;利用静态行为模型及动态行为模型,分别获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离;基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定所述待处理的数据流的应用类型。

【技术实现步骤摘要】
一种网络数据流分类的方法及系统
本申请涉及数据处理
,特别涉及一种网络数据流分类的方法及系统。
技术介绍
随着互联网技术的日益普遍,特别是移动终端的普及,通信网络涌现出越来越多的应用类型的数据流,如交互类型、巨量数据传输类型、流应用的类型及异常流类型,等等。不同的应用类型的数据流对网络服务的要求不尽相同,因此,通常针对不同的应用类型的数据流需要提供不同的服务质量。例如,交互类型的数据,如远程登录等数据,对网络的延迟性要求较高,具有较高的实时性需求;巨量数据传输类型的数据,如文件、视频的下载等,虽然对实时性的需求不高,但需要足够的吞吐量保证;而流应用类型的数据,如在线视频观看、多媒体会议等,对实时性的需求较高,且对网络传输的抖动及丢包率等参数也有较高的要求;或者,异常的数据,而异常的数据可能属于恶意攻击并企图瘫痪网络,需要采取措施限制甚至禁止;等等。为了实现对不同应用类型的数据流提供不同的服务质量,需要在提供服务之前准确的将网络中的数据流进行应用类型的准确分类。现有技术中通常采用以下两种方案实现:一种方案中,根据数据流的服务器端口号或客户端端口号对数据流进行应用类型的分类。但是,这种方案需要预先基于IRNA(InternetAssignedNumberAuthority,网络分配数量权威)将端口号和数据流的应用类型进行关联,而IRNA无法定义所有应用类型的数据流,很多应用并不遵从IRNA的规则而是随机的分配端口号,因此,对应用类型的分类具有局限性;另一种方案中,通过对数据流的报文内容进行深度的报文解析,以实现区分出异常数据流。但这种方案中,不能适用于对数据流报文加密的网络场景中,仍然存在局限性。还有一种方案中,通过对数据流进行特征提取,然后利用机器学习根据特征学习出分类器,再对数据流进行应用类型的分类。但这种方案中需要预先进行特征工程,比如对数据流的数据包长度进行简单的统计,计算数据包长度的平均值、方差、最大值及最小值等作为特征,然而这些特征并不能完全的刻画整个数据流的行为,例如,两个不同应用类型的数据流可能具有相同的平均值和方差,因此,对数据流进行应用类型分类并不准确。因此,亟需一种能够准确的将网络中的数据流进行应用类型分类的技术方案,以实现对不同应用类型的数据流提供不同的服务质量。
技术实现思路
有鉴于此,本申请的目的是提供一种网络数据流分类的方法及系统,用以解决现有技术中对数据流进行应用类型分类不准确的技术问题。本专利技术的第一方面提供了一种网络数据流分类的方法,其中包括以下步骤:采集待处理的数据流的包含有多个维度信息的信息集合,并建立信息集合中每个维度信息的静态行为模型及动态行为模型,再利用静态行为模型及动态行为模型,分别获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,最后再基于这些静态模型距离及动态模型距离,确定待处理的数据流的应用类型。可见,在对数据流进行应用类型的分类时,基于数据流的信息集合中每个维度信息,建立表征取值规律的静态行为模型及表征前后时刻之间的关联关系的动态行为模型,以此更加准确的反映数据流的本质区别,再与目标应用类型的数据流的相应的行为模型进行距离比较,实现数据流的分类,由此提高对数据流的应用类型进行分类的准确性。本专利技术的第二方面提供了一种网络数据流分类的系统,其中包括以下结构:包含用于采集终端传输的待处理的数据流的信息集合的信息采集模块的从服务器,以及,包含用于获得信息采集模块采集到的信息集合的数据接口、存储应用程序及应用程序运行所产生的数据的存储器及处理器的主服务器,处理器通过运行应用程序,建立信息集合中每个维度信息的静态行为模型及动态行为模型,再利用静态行为模型及动态行为模型,分别获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,最后再基于这些静态模型距离及动态模型距离,确定待处理的数据流的应用类型。由此可知,系统在对数据流进行应用类型的分类时,首先由从服务器中的各个信息采集模块采集待处理的数据流的信息集合,再由主服务器基于数据流的信息集合中每个维度信息,建立表征取值规律的静态行为模型及表征前后时刻之间的关联关系的动态行为模型,以此准确的反映数据流的本质区别,再与目标应用类型的数据流的相应的行为模型进行距离比较,实现数据流的分类,由此提高对数据流的应用类型进行分类的准确性。在一个实现方式中,信息集合中包括流层面的第一信息集合及链接层面的第二信息集合,而第一信息集合中至少包括以下维度信息:报文长度、报文到达时间间隔,第二信息集合中至少包括以下维度信息:数据流长度、数据流中的报文数目、数据流持续时间、数据流到达时间间隔。由此,基于报文长度、报文到达时间间隔,以及,数据流长度、数据流中的报文数目、数据流持续时间、数据流到达时间间隔所建立的静态行为模型及动态行为模型能够更加准确的反映数据流的本质区别,再与目标应用类型的数据流的相应的行为模型进行距离比较后,能够更加准确的对数据流的应用类型进行分类。在一个实现方式中,处理器建立信息集合中每个维度信息的静态行为模型及动态行为模型,包括:获得第一信息集合中每个维度信息的表征维度信息的取值规律的边缘概率分布,并基于第一信息集合中每个维度信息的边缘概率分布生成第一信息集合中每个维度信息的静态行为模型;获得第一信息集合中每个维度信息的表征维度信息在前后时刻之间的关联关系的条件概率分布,并基于第一信息集合中每个维度信息的条件概率分布生成第一信息集合中每个维度信息的动态行为模型;获得第二信息集合中每个维度信息的表征维度信息的取值规律的边缘概率分布,并基于第二信息集合中每个维度信息的边缘概率分布生成第二信息集合中每个维度信息的静态行为模型;获得第二信息集合中每个维度信息的表征维度信息在前后时刻之间的关联关系的条件概率分布,并基于第二信息集合中每个维度信息的条件概率分布,生成第二信息集合中每个维度信息的动态行为模型。可见,通过计算概率分布来对数据流的应用类型进行分类,使得刻画应用类型不同的行为模型准确性更高,进一步准确的对数据流的应用类型进行分类。在一种实现方式中,处理器建立信息集合中每个维度信息的静态行为模型及动态行为模型,具体为:利用获得第一信息集合中每个维度信息的静态行为模型,其中,xi为第一信息集合中的第i个维度信息,n为第一信息集合中维度信息的个数,为核函数k(x,y)的特征函数向量;利用获得第一信息集合中每个维度信息前后两个时刻的动态行为模型,其中,t为时刻,且[Ktt]为第一信息集合中维度信息所组成的矩阵,[Ktt]ij为矩阵中第i行第j个矩阵元素,[Ktt]ij=k(xi,xj),xi为第一信息集合中的第i个维度信息,n为第一信息集合中维度信息的个数,为核函数k(x,y)的特征函数向量,λ为预设参数,I为单位矩阵;利用获得第二信息集合中每个维度信息的静态行为模型,其中,xi为第二信息集合中的第i个维度信息,n为第二信息集合中维度信息的个数;利用获得第二信息集合中每个维度信息前后两个时刻的动态行为模型,其中,t为时刻,且[Ktt]为所述第二信息集合中维度信息所组成的矩阵,[Ktt]ij为矩阵中第i行第j个矩阵元素,[Ktt]ij=k(xi,xj),xi为第二本文档来自技高网
...
一种网络数据流分类的方法及系统

【技术保护点】
一种网络数据流分类的方法,其特征在于,包括:采集待处理的数据流的信息集合,所述信息集合包括有多个维度信息;建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,所述静态行为模型表征所述维度信息的取值规律,所述动态行为模型表征所述维度信息在前后时刻之间的关联关系;利用所述静态行为模型及所述动态行为模型,分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离;基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定所述待处理的数据流的应用类型。

【技术特征摘要】
1.一种网络数据流分类的方法,其特征在于,包括:采集待处理的数据流的信息集合,所述信息集合包括有多个维度信息;建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,所述静态行为模型表征所述维度信息的取值规律,所述动态行为模型表征所述维度信息在前后时刻之间的关联关系;利用所述静态行为模型及所述动态行为模型,分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离;基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定所述待处理的数据流的应用类型。2.根据权利要求1所述的方法,其特征在于,所述信息集合包括流层面的第一信息集合及链接层面的第二信息集合;所述第一信息集合至少包括以下维度信息:报文长度、报文到达时间间隔;所述第二信息集合至少包括以下维度信息:数据流长度、数据流中的报文数目、数据流持续时间、数据流到达时间间隔。3.根据权利要求2所述的方法,其特征在于,所述建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,包括:获得所述第一信息集合中每个维度信息的边缘概率分布,所述边缘概率分布表征所述维度信息的取值规律,并基于所述第一信息集合中每个维度信息的边缘概率分布,生成所述第一信息集合中每个维度信息的静态行为模型;获得所述第一信息集合中每个维度信息的条件概率分布,所述条件概率分布表征所述维度信息在前后时刻之间的关联关系,并基于所述第一信息集合中每个维度信息的条件概率分布,生成所述第一息集合中每个维度信息的动态行为模型;获得所述第二信息集合中每个维度信息的边缘概率分布,所述边缘概率分布表征所述维度信息的取值规律,并基于所述第二信息集合中每个维度信息的边缘概率分布,生成所述第二信息集合中每个维度信息的静态行为模型;获得所述第二信息集合中每个维度信息的条件概率分布,所述条件概率分布表征所述维度信息在前后时刻之间的关联关系,并基于所述第二信息集合中每个维度信息的条件概率分布,生成所述第二信息集合中每个维度信息的动态行为模型。4.根据权利要求2所述的方法,其特征在于,所述建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,包括:利用获得第一信息集合中每个维度信息的静态行为模型,其中,xi为第一信息集合中的第i个维度信息,n为第一信息集合中维度信息的个数,为核函数k(x,y)的特征函数向量;利用获得第一信息集合中每个维度信息前后两个时刻的动态行为模型,其中,t为时刻,且Ktt为所述第一信息集合中维度信息所组成的矩阵,[Ktt]ij为矩阵中第i行第j个矩阵元素,[Ktt]ij=k(xi,xj),xi为第一信息集合中的第i个维度信息,n为第一信息集合中维度信息的个数,为核函数k(x,y)的特征函数向量,λ为预设参数,I为单位矩阵;利用获得第二信息集合中每个维度信息的静态行为模型,其中,xi为第二信息集合中的第i个维度信息,n为第二信息集合中维度信息的个数;利用获得第二信息集合中每个维度信息前后两个时刻的动态行为模型,其中,t为时刻,且Ktt为所述第二信息集合中维度信息所组成的矩阵,[Ktt]ij为矩阵中第i行第j个矩阵元素,[Ktt]ij=k(xi,xj),xi为第二信息集合中的第i个维度信息,n为第二信息集合中维度信息的个数,为核函数k(x,y)的特征函数向量。5.根据权利要求2所述的方法,其特征在于,利用所述静态行为模型及所述动态行为模型,分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,包括:利用获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的静态模型距离,其中,为待处理的数据流A的第一信息集合的静态行为模型,为目标应用类型所属的数据流B的流层面的静态行为模型,i表示信息集合中的第i个维度信息;利用获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的静态模型距离,其中,为待处理的数据流A的第二信息集合的静态行为模型,为目标应用类型所属的数据流B的链接层面的静态行为模型;利用获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的动态模型距离,其中,为待处理的数据流A的第一信息集合的静态行为模型,为目标应用类型所属的数据流B的流层面的静态行为模型;利用获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的动态模型距离,其中,为待处理的数据流A的第二信息集合的动态行为模型,为目标应用类型所属的数据流B的链接层面的动态行为模型。6.根据权利要求1至5任一项所述的方法,其特征在于,基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定所述待处理的数据流的应用类型,包括:对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离;利用分类算法,基于所述特征距离,确定所述待处理的数据流的应用类型。7.根据权利要求6所述的方法,其特征在于,对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离,包括:基于各个目标应用类型的数据流的静态行为模型及动态行为模型,获得权重矩阵,所述权重矩阵使得从属于同一应用类型的数据流之间的特征距离最小,从属于不同应用类型的数据流之间的特征距离最大;利用所述权重矩阵,对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离。8.根据权利要求6所述的方法,其特征在于,所述分类算法包括:K近邻分类算法或NaiveBayesian分类算法;利用分类算法,基于所述特征距离,确定述待处理的数据流的应用类型,包括:基于K近邻分类算法或NaiveBayesian分类算法,将最小的特征距离所对应的目标应用类型确定为所述待处理的数据流的应用类型。9.一种网络数据流分类的系统,其特征在于,包括:从服务器及主服务器;所述从服务器,包括信息采集模块,所述信息采集模块用于采集终端传输的待处理的数据流的信息集合,所述信息集合...

【专利技术属性】
技术研发人员:陈志堂耿彦辉简波尼亚斯·乔治
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1