一种网络流量分析方法、装置、存储介质及设备制造方法及图纸

技术编号:23027496 阅读:22 留言:0更新日期:2020-01-03 17:48
本发明专利技术提供一种网络流量分析方法、装置、存储介质及设备。本发明专利技术技术方案首先基于流量时间序列数据之间的距离的计算,对流量时间序列数据进行聚类,并根据聚类结果,衡量时间序列的各个特征在聚类得到的各个类别中的分布的重叠程度,然后选择重叠程度较低的特征组成分析特征集,再利用分析特征集对流量时间序列数据提取特征并进行网络流量分析。与现有技术中的方案相比,本发明专利技术的技术方案具有特征选择更客观、分析结果可靠性高的优点。本发明专利技术技术方案可用于网络流量分类、预测、异常检测等,通用性强,用途广泛。

A network traffic analysis method, device, storage medium and equipment

【技术实现步骤摘要】
一种网络流量分析方法、装置、存储介质及设备
本专利技术涉及网络安全和数据处理
,具体涉及一种网络流量分析方法、装置、存储介质及设备。
技术介绍
网络流量分析对于网络资源的优化配置和网络的安全应用具有重要意义。实时、准确的网络流量分析,可以为网络的正常、稳定和可靠运行提供保障。对于流量时间序列数据进行分析,是网络流量分析的重要手段。流量时间序列数据分析,一方面可以直接对原始时间序列进行分析,另一方面,更多的分析方法是针对原始时间序列提取出一些特征,并利用提取出的特征做进一步的数据分析。在使用特征进行分析的情况下,特征的选择对分析结果往往有很大的影响。然而,网络流量分析往往是在无监督学习环境下,特征的选择没有先验知识的指导,对特征的价值的评价有较大的不确定性,得到的结果也常常难以解释和验证。现有技术中的无监督环境下特征选择方法,大多是直接对待选特征进行聚类,再从中选出有代表性的特征。对于流量时间序列数据分析来说,这样只从特征本身来考虑,就忽略了原始时间序列的重要参考价值,对特征的价值评价的客观性不足,从而会影响到流量分析的结果。而以原始时间序列为参考,筛选用于网络流量分析的特征,则可使特征的选择更具客观性,使流量分析结果更可靠。
技术实现思路
本专利技术的目的是针对网络流量分析,提供一种网络流量分析方法、装置、存储介质及设备,通过时间序列原始数据衡量特征的价值,筛选特征并进一步进行网络流量分析,以提高网络流量分析的可靠性。为了实现上述目的,本专利技术技术方案提供一种网络流量分析方法,所述方法包括以下步骤:S1、获取不同时间段和/或不同空间和/或不同地址和/或不同业务的多个流量时间序列数据;S2、基于所述多个流量时间序列数据之间的距离的计算,对所述多个流量时间序列数据进行聚类;S3、根据对所述多个流量时间序列数据聚类的结果,从时间序列待选特征集中筛选出一项或多项特征,组成分析特征集;其中筛选特征的原则是,通过衡量特征值或特征向量在聚类得到的各个类别中的分布的重叠程度,选择所述重叠程度较低的特征;S4、根据所述分析特征集,对流量时间序列数据提取特征并进行网络流量的分类和/或预测和/或异常检测。基于上述,所述的对所述多个流量时间序列数据进行聚类,包括:使用划分聚类方法或者层次聚类方法,对所述多个流量时间序列数据进行聚类。基于上述,步骤S3具体为:针对所述时间序列待选特征集中的每项特征Fk,计算所述多个流量时间序列数据的特征值或者特征向量,其中k=1,…,M;M是所述时间序列待选特征集中特征的项数;根据对所述多个流量时间序列数据聚类的结果,假设聚类得到N个类别,对于所述每项特征Fk:如果Fk的取值为离散型,则分别计算在聚类得到的每个类别中,Fk的概率函数Pki(x)(x=x1,x2,x3,……),i=1,…,N;对于Pk1(x),…,PkN(x),求其两两之间的差的绝对值并相对于x的所有取值求和,再将所有和值相加,得到其中x=x1,x2,x3,……;如果Fk的取值为连续型,则分别计算在聚类得到的每个类别中,Fk的概率密度函数fki(x);对于fk1(x),…,fkN(x),求其两两之间的差的绝对值的积分,再将所有积分值相加,得到然后取Gk值最大的一项或多项特征,组成分析特征集。基于上述,所述的对流量时间序列数据提取特征并进行网络流量的分类和/或预测和/或异常检测,包括:对流量时间序列数据提取特征,然后使用统计分析或者机器学习的方法,进行网络流量的分类和/或预测和/或异常检测。基于上述,所述时间序列待选特征集中的特征,包括时域统计特征、变换域统计特征、模型特征、分形特征中的一类或者多类特征。基于上述,所述距离包括欧几里得距离、闵科夫斯基距离、曼哈顿距离、切比雪夫距离、夹角余弦相似度、皮尔逊相关系数、马氏距离、汉明距离、弗雷歇距离、杰卡德相似度、相关距离、幂距离中的一种或者多种。基于上述,所述划分聚类方法包括K均值聚类算法、K中心点聚类算法、K中值聚类算法、K众数聚类算法中的一种或者多种。本专利技术的技术方案还提供一种网络流量分析装置,所述装置包括:数据获取模块、聚类模块、特征选择模块、分析模块,其中所述聚类模块分别与所述数据获取模块和所述特征选择模块连接,所述分析模块分别与所述特征选择模块和所述数据获取模块连接;所述数据获取模块用于获取不同时间段和/或不同空间和/或不同地址和/或不同业务的多个流量时间序列数据;所述聚类模块用于基于所述流量时间序列数据之间的距离的计算,对所述数据获取模块获取的所述多个流量时间序列数据进行聚类;所述特征选择模块用于根据所述聚类模块对所述多个流量时间序列数据聚类的结果,从时间序列待选特征集中筛选出一项或多项特征,组成分析特征集;其中筛选特征的原则是,通过衡量特征值或特征向量在聚类得到的各个类别中的分布的重叠程度,选择所述重叠程度较低的特征;所述分析模块用于根据所述特征选择模块选择出的所述分析特征集,对所述数据获取模块获取到的流量时间序列数据,提取特征并进行网络流量的分类和/或预测和/或异常检测。本专利技术的技术方案还提供一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述的网络流量分析方法。本专利技术的技术方案还提供一种网络流量分析设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述的网络流量分析方法。本专利技术的技术方案通过对流量时间序列数据进行聚类,并根据聚类结果,衡量特征在聚类得到的各个类别中的分布的重叠程度,选择重叠程度较低的特征组成分析特征集,进行网络流量分析。与现有技术中的方案相比,本专利技术的技术方案具有特征选择更客观、分析结果可靠性高的优点。本专利技术相对现有技术具有突出的实质性特点和显著的进步,具体地说:1.本专利技术技术方案在筛选用于网络流量分析的特征时,以流量的原始时间序列数据为参考,通过流量时间序列数据聚类的结果,衡量特征对于数据区分或者分析的价值,筛选用于网络流量分析的特征,可以使特征的选择更客观有效,从而提高流量分析结果的可靠性。2.本专利技术技术方案适用于网络流量分析的各个方面,例如可用于网络流量分类、预测、异常检测等各种目的,通用性强,用途广泛。3.本专利技术技术方案中还给出了衡量特征在聚类得到的各个类别中的分布的重叠程度的一种度量方法的具体例子,该度量方法通过特征分布的概率函数或者概率密度来衡量特征的区分度,比现有技术中常用的重叠区域的衡量方法更精确有效,更有利于得到较好的特征选择结果。附图说明图1是根据本专利技术一个实施例的一种网络流量分析方法的示意图。图2是根据本专利技术另一个实施例的一种网络流量分析装置的结构示意图。具体实施方式本专利技术实施例提供了一种网络流量分析方法,如图1所示,所述方法包括以下步骤:S1、获取不同时间本文档来自技高网...

【技术保护点】
1.一种网络流量分析方法,其特征在于,包括以下步骤:/nS1、获取不同时间段和/或不同空间和/或不同地址和/或不同业务的多个流量时间序列数据;/nS2、基于所述多个流量时间序列数据之间的距离的计算,对所述多个流量时间序列数据进行聚类;/nS3、根据对所述多个流量时间序列数据聚类的结果,从时间序列待选特征集中筛选出一项或多项特征,组成分析特征集;其中筛选特征的原则是,通过衡量特征值或特征向量在聚类得到的各个类别中的分布的重叠程度,选择所述重叠程度较低的特征;/nS4、根据所述分析特征集,对流量时间序列数据提取特征并进行网络流量的分类和/或预测和/或异常检测。/n

【技术特征摘要】
1.一种网络流量分析方法,其特征在于,包括以下步骤:
S1、获取不同时间段和/或不同空间和/或不同地址和/或不同业务的多个流量时间序列数据;
S2、基于所述多个流量时间序列数据之间的距离的计算,对所述多个流量时间序列数据进行聚类;
S3、根据对所述多个流量时间序列数据聚类的结果,从时间序列待选特征集中筛选出一项或多项特征,组成分析特征集;其中筛选特征的原则是,通过衡量特征值或特征向量在聚类得到的各个类别中的分布的重叠程度,选择所述重叠程度较低的特征;
S4、根据所述分析特征集,对流量时间序列数据提取特征并进行网络流量的分类和/或预测和/或异常检测。


2.根据权利要求1所述的网络流量分析方法,其特征在于,所述的对所述多个流量时间序列数据进行聚类,包括:使用划分聚类方法或者层次聚类方法,对所述多个流量时间序列数据进行聚类。


3.根据权利要求1所述的网络流量分析方法,其特征在于,步骤S3具体为:
针对所述时间序列待选特征集中的每项特征Fk,计算所述多个流量时间序列数据的特征值或者特征向量,其中k=1,…,M;M是所述时间序列待选特征集中特征的项数;
根据对所述多个流量时间序列数据聚类的结果,假设聚类得到N个类别,对于所述每项特征Fk:
如果Fk的取值为离散型,则分别计算在聚类得到的每个类别中,Fk的概率函数Pki(x)(x=x1,x2,x3,……),i=1,…,N;对于Pk1(x),…,PkN(x),求其两两之间的差的绝对值并相对于x的所有取值求和,再将所有和值相加,得到,其中x=x1,x2,x3,……;
如果Fk的取值为连续型,则分别计算在聚类得到的每个类别中,Fk的概率密度函数fki(x);对于fk1(x),…,fkN(x),求其两两之间的差的绝对值的积分,再将所有积分值相加,得到;
然后取Gk值最大的一项或多项特征,组成分析特征集。


4.根据权利要求1所述的网络流量分析方法,其特征在于,所述的对流量时间序列数据提取特征并进行网络流量的分类和/或预测和/或异常检测,包括:对流量时间序列数据提取特征,然后使用统计分析或者机器学习的方法,进行网络流量的分类和/或预测和/或异常检测。...

【专利技术属性】
技术研发人员:丁琦梁松涛李鑫卫志刚李顶占李旭升陈允刘金辉杨振赢张珂飞
申请(专利权)人:河南省云安大数据安全防护产业技术研究院有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1