基于主成分分析和线性判别分析的网络流量特征提取方法技术

技术编号:25051109 阅读:87 留言:0更新日期:2020-07-29 05:39
本发明专利技术公开了基于主成分分析和线性判别分析的流量特征提取方法,利用主成分分析方法删除高维训练集的冗余特征和不相关特征,然后叠加线性判别分析算法进行降维,将原始流量数据集转换到新的特征空间中。在解决主成分分析缺乏类别信息和线性判别分析计算成本高、类内离散度矩阵常常不可逆等缺陷的同时将它们的优势结合。使所提取出的特征模型能够使得后续分类过程达到更好的效果。在经典的Moore数据集上的实验结果验证本发明专利技术能够使分类器在更短的时间内得出更精确的分类结果。

【技术实现步骤摘要】
基于主成分分析和线性判别分析的网络流量特征提取方法
本专利技术属于流量分类领域,涉及一种大数据背景下网络流量特征提取方法,具体涉及一种基于主成分分析和线性判别分析的网络流量特征提取方法。
技术介绍
随着移动通信技术由4G向5G的演变,无线通信网络日益高速和稳定,为丰富的互联网业务的发展提供了坚实的基础。为了使移动通信网络和互联网技术协同发展,运营商正在努力实现由流量运营向能力运营的转变,形成对内协调统一,对外开放共享的网络能力开放平台。要提供恰当的网络能力,就需要能力平台对网络数据流具有准确的识别能力。然而,高维度的数据流所携带的巨大信息量给计算机的处理带来了很大的困难。同时,由于数据流特征间存在相关性和冗余性,特征量大的数据不仅造成不必要的计算时间和资源开销,还会导致分类精度的下降。因此,对数据流特征进行提取是使用机器学习方法进行流量分类过程的必要步骤。主成分分析(PCA)和线性判别分析(LDA)是两种经典的特征提取方法,与分类器结合,能够实现优于传统流量识别方法的识别能力和效果。然而在实际处理高维的流量数据时仍存在着一些困难。例如:PCA仅从特征的方差角度进行分析,无法顾及到特征在均值方面的特性;同时,由于PCA缺乏类别信息,降维后的数据虽然信息损失降到最低,但可能会使分类过程变得更加困难。而LDA的计算复杂度较高而且经常存在类内离散度矩阵不可逆等问题,造成实际运用时的困难。
技术实现思路
本专利技术的目的在于基于主成分分析和线性判别分析的网络流量特征提取方法,采用该方法能够克服PCA和LDA原有的缺陷,并将二者的优势充分结合,对网络数据流特征进行全面的分析和精确的提取,帮助分类器达到更好的分类效果。为达到上述目的,本专利技术采用如下技术方案:基于主成分分析和线性判别分析的网络流量特征提取方法,包括以下步骤:1)采用主成分分析法构造包含判别信息的投影矩阵WPCA;2)将数据集X投影到特征矩阵WPCA,删除冗余特征不相关特征,得到特征集Y;3)采用线性判别分析构造特征矩阵WLDA;4)通过投影矩阵WLDA将特征集Y转换到特征空间WLDA,得到特征集Z。本专利技术进一步的改进在于,步骤1)的具体过程如下:a)将一条具有n个属性的数据流表示为大小为1×n的向量,全部的m条数据流构成大小为m×n的数据集X;b)按照下列公式计算数据集X的协方差矩阵C;φ=xi-μ(2)A=[φ1,...,φm]T(3)其中,μ表示整个数据集的平均值,是每条数据和平均值的差值,A为差别矩阵,C为协方差矩阵;c)计算协方差矩阵C的特征值和特征向量,并将特征值由大到小进行排序;d)取前k个最大的特征值对应的特征向量构成投影矩阵WPCA;其中,k为PCA特征空间中数据的维数。本专利技术进一步的改进在于,步骤d)中,投影矩阵WPCA=[w1,...,wk],其中,w1为第一个最大的特征值对应的特征向量,wk为第k个最大的特征值对应的特征向量。本专利技术进一步的改进在于,步骤d)中,投影矩阵WPCA中数据的维数为225。本专利技术进一步的改进在于,步骤a)中,m的值为377526,n的值为248。本专利技术进一步的改进在于,步骤2)中,特征集Y如下:Y=WPCATX(5)。本专利技术进一步的改进在于,步骤3)的具体过程如下:3.1)计算特征集Y的类内离散度矩阵Sw和类间离散度矩阵Sb;其中,i表示类别编号,N表示总类别数,yi表示经PCA变换后的每条流量数据,μi表示第i类的均值向量,mi表示第i类样本的数量,μ表示总均值向量;3.2)利用广义瑞利商计算Sw-1Sb的特征值和特征向量;其中,ω表示为LDA特征空间的基向量,J(ω)表示广义瑞利商;3.3)将特征值由大到小进行排序,取前p个最大的特征值对应的特征向量构成投影矩阵WLDA;其中,p为LDA特征空间中数据的维数。本专利技术进一步的改进在于,投影矩阵WLDA如下所示:WLDA=[w1,...,wp]其中,ω1表示第1个最大的特征值对应的特征向量,ωp表示第p个最大的特征值对应的特征向量。本专利技术进一步的改进在于,步骤4)中,特征集Z如下:Z=WLDATY(9)。与现有技术相比,本专利技术具有以下有益的技术效果:本专利技术利用主成分分析方法删除高维训练集的冗余特征和不相关特征,然后叠加线性判别分析算法进行降维,将原始流量数据集转换到新的特征空间中。本专利技术能够在弥补主成分分析法和线性判别分析法原有的不足的情况下,保持二者的优势。首先,使用主成分分析法将原始数据降低到小于数据类内离散度矩阵的秩的维度,使类内离散度矩阵可逆,可以保证线性判别分析法的顺利执行;其次主成分分析法只关注数据在方差方面的特征,而线性判别分析法可以同时考虑数据在均值和方差两方面的特性,使得本专利技术能够对数据特征进行更为全面的分析。因此,本专利技术能够达到更好的特征提取效果,使分类器达到更高的分类效率,符合大数据背景下流量分类的需求。附图说明图1为基于主成分分析和线性判别分析的流量特征提取方法的工作流程图;图2为朴素贝叶斯(NaiveBayes,NB)分类器在原始特征、经PCA方法提取后的特征及经本专利技术所述方法PCA+LDA提取后的特征三种特征空间中分类精确度和召回率的变化;图3为朴素贝叶斯分类器在原始特征、经PCA方法提取后的特征及经本专利技术所述方法PCA+LDA提取后的特征三种特征空间中所需的训练时间和测试时间的影响的对比。具体实施方式下面结合附图和实施例对本专利技术作进一步详细描述:参见图1,本专利技术包括以下步骤:1)采用主成分分析(PCA)法构造包含判别信息的投影矩阵WPCA;投影矩阵WPCA中数据的维数为225。将原始数据集投影到特征空间中,具体步骤包括:a)输入流量数据集:将一条具有n个属性的数据流表示为大小为1×n的向量,全部的m条数据流构成大小为m×n的数据集X;根据所使用的数据集,在本专利技术中,m的值为377526,n的值为248。b)按照下列公式计算数据集X的协方差矩阵C;φ=xi-μ(2)A=[φ1,...,φm]T(3)其中,μ表示整个数据集的平均值,是每条数据和平均值的差值,A为差别矩阵,C为协方差矩阵,由A计算出数据集的协方差矩阵C;c)计算协方差矩阵C的特征值和特征向量,并将特征值由大到小进行排序;d)取前k个最大的特征值对应的特征向量构成投影矩阵WPCA;其中,k为PCA特征空间中数据的维数,在本专利技术中值为225。WPCA=[w1,...,wk]其中,w1为第一个最大的特征值对应的特征向量,wk为第k个最大的特征值对应的特征向量。2)将数据集X投影到特征矩阵WPCA,删除冗余特征不相关特征本文档来自技高网...

【技术保护点】
1.基于主成分分析和线性判别分析的网络流量特征提取方法,其特征在于,包括以下步骤:/n1)采用主成分分析法构造包含判别信息的投影矩阵W

【技术特征摘要】
1.基于主成分分析和线性判别分析的网络流量特征提取方法,其特征在于,包括以下步骤:
1)采用主成分分析法构造包含判别信息的投影矩阵WPCA;
2)将数据集X投影到特征矩阵WPCA,删除冗余特征不相关特征,得到特征集Y;
3)采用线性判别分析构造特征矩阵WLDA;
4)通过投影矩阵WLDA将特征集Y转换到特征空间WLDA,得到特征集Z。


2.根据权利要求1所述的基于主成分分析和线性判别分析的网络流量特征提取方法,其特征在于,步骤1)的具体过程如下:
a)将一条具有n个属性的数据流表示为大小为1×n的向量,全部的m条数据流构成大小为m×n的数据集X;
b)按照下列公式计算数据集X的协方差矩阵C;



φ=xi-μ(2)
A=[φ1,...,φm]T(3)



其中,μ表示整个数据集的平均值,是每条数据和平均值的差值,A为差别矩阵,C为协方差矩阵;
c)计算协方差矩阵C的特征值和特征向量,并将特征值由大到小进行排序;
d)取前k个最大的特征值对应的特征向量构成投影矩阵WPCA;其中,k为PCA特征空间中数据的维数。


3.根据权利要求2所述的基于主成分分析和线性判别分析的网络流量特征提取方法,其特征在于,步骤d)中,投影矩阵WPCA=[w1,...,wk],其中,w1为第一个最大的特征值对应的特征向量,wk为第k个最大的特征值对应的特征向量。


4.根据权利要求2所述的基于主成分分析和线性判别分析的网络流量特征提取方法,其特征在于,步骤d)中,投影矩阵WPCA中数据的维数为225。
...

【专利技术属性】
技术研发人员:曲桦刘宇钦赵季红张艳鹏
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1