基于数据块集成分类的网络流量异常检测方法、设备及存储介质技术

技术编号:34371041 阅读:73 留言:0更新日期:2022-07-31 11:10
本发明专利技术涉及一种基于数据块集成分类的网络流量异常检测方法、设备及存储介质。本发明专利技术首先等大小划分数据块,使用基于数据块划分的混合重采样机制获得数据子块,混合重采样技术可以有效地缓解过采样中的过拟合问题以及欠采样中的信息丢失问题。然后使用基于马氏距离的相似度评估方法进行选择性重采样,可以得到一系列类别分布平衡的数据子块。数据块的大小是适应性调整的,通过逐步增加数据块的大小,对比每个数据块上训练出来模型性能均值,从而得到合适的数据块大小。最后使用每个类别分布平衡的网络流量数据训练得到一个基础分类器,从而得到用于网络流量异常检测的集成分类模型,该模型对异常类网络流量数据具有较高的识别率。别率。别率。

Network traffic anomaly detection method, equipment and storage medium based on data block integrated classification

【技术实现步骤摘要】
基于数据块集成分类的网络流量异常检测方法、设备及存储介质


[0001]本专利技术涉及一种基于数据块集成分类的网络流量异常检测方法、设备及存储介质。

技术介绍

[0002]随着互联网的飞快发展,全球的信息化建设不断扩充,网络安全事件频发发生,因此网络安全也越来越受重视。因此,必须采用有效的措施及时发现网络流量的异常现象,从而维护网络的安全性。通过分析网络流量,能够及时发现网络中存在的问题,从而提高网络的安全性。
[0003]网络流量数据实时高速产生,且数据量庞大,其中的数据分布是动态变化的,因此可将网络流量数据看作流数据。首先,网络流量数据是时序型数据,每个数据项都具有一个时间戳。其次,网络流量数据的数据量十分大,无法采用传统批处理的方式训练模型,需要使用增量学习或在线学习的方式来训练网络流量异常检测模型。最后,网络流量数据的数据分布是不稳定的,这种现象被称为概念漂移。使用过去时刻的网络流量数据项训练得到的模型通常不适合处理最新的网络流量数据。因此,模型需要实时更新以适应新的网络流量数据环境。
[0004]统计学、信息论、分类、聚类等技术已经用于网络流量异常检测中。使用分类技术可以有效地识别异常类网络数据,通常地,属于异常类的网络流量数据量是远远少于正常类的网络流量数据量,其中异常类网络流量数据被称为小样本,正常类网络流量数据被称为大样本。若使用传统的分类模型对网络流量数据进行分类,则模型的性能会偏向于正常类网络流量数据,因此提高分类模型对异常类网络流量样本的识别率是网络流量异常检测中的亟需解决的任务。在分类模型训练时需要增加类别不平衡处理机制,可使用滑动窗口机制保留最新的异常类网络流量数据,该部分数据可用以平衡最新的类别分布。由于网络流量数据的数据分布是动态的,因此滑动窗口中的异常类网络流量数据可能不符合当前的数据分布。需要评估滑动窗口中的数据与当前小类集网络流量数据的相似度,从而避免在候选数据块中引入不符合当前数据分布的异常类网络流量样本。
[0005]相比于单分类器模型,流数据集成分类模型通常使用多个基础分类器进行样本分类,具有更好的泛化性能。基于每次处理的网络流量数据项的数量,流数据集成分类模型分为在线集成分类模型与数据块集成分类模型。相比于在线集成分类模型,数据块集成分类模型每次使用一个数据块的网络流量数据进行基础分类器的训练,因此性能更加稳定。

技术实现思路

[0006]本专利技术针对现有技术的不足,提供了一种基于数据块集成分类的网络流量异常检测方法、设备及存储介质。
[0007]本专利技术的一方面提供了一种基于数据块集成分类的网络流量异常检测方法,包括
以下步骤:
[0008]步骤1)输入网络流量数据,形成数据块D
t
,将数据块D
t
分为异常类P
t
与正常类N
t
两大类,并得到类别不平衡率IR
t
。其中,t是当前的时间戳,数据块D
t
的大小设定为S,并将N
t
记为大样本集,P
t
记为小样本集。
[0009]步骤2)使用滑动窗口机制,得到反馈网络流量数据集M
t
。M
t
中保留了t时刻之前最新的W个异常类网络流量数据。
[0010]步骤3)依据基础分类器个数C
max
和类别不平衡率IR
t
对数据块D
t
进行划分,来得到多个数据子块D
t,i

[0011]步骤4)对于划分得到的每个网络流量数据子块D
t,i
,基于其类别不平衡率IR
t,i
和反馈网络流量数据集M
t
,进行选择性重采样,得到类别分布平衡的数据子块D

t,i

[0012]步骤5)基于步骤4)得到的类别分布平衡数据子块D

t,i
,训练得到一个基础分类器C
t,i
,并评估基础分类器性能的方差V
t,i
,计算所有基础分类器性能方差的均值V。
[0013]步骤6)更新数据块大小为S+

,重复步骤1)

5),得到数据块大小为S+

时构建得到的基础分类器方差的均值V

,若|V

V

|<ε,则使用C
t,i
构成网络流量数据集成分类模型C,否则,更新数据块大小为S+

,返回步骤1)。其中,ε为设定的阈值。
[0014]步骤7)使用步骤6)得到的网络流量数据集成分类模型C对新来的网络流量样本的类别进行预测,若预测类别为异常类,从而实现了网络流量异常的检测。
[0015]进一步说,所述的类别不平衡率IR
t
=|P
t
|/|N
t
|,其中|P
t
|和|N
t
|分别为P
t
与N
t
中样本的个数。
[0016]进一步说,步骤3)中若IR
t
<1/C
max
,则将步骤1获得的D
t
划分为C
max
个数据子块;若IR
t
≥1/C
max
,则将步骤1获得的D
t
划分为1/IR
t
个数据子块。
[0017]进一步说,在IR
t
<1/C
max
情况下,划分的过程为:将D
t
中的大样本集N
t
分成互不重叠的C
max
等大小的子集,形成C
max
个数据子块;将P
t
所有的样本放入每个数据子块中。
[0018]进一步说,在IR
t
≥1/C
max
情况下,划分的过程为:将D
t
中的大样本集N
t
分成互不重叠的1/IR
t
等大小的子集,形成1/IR
t
个数据子块;将P
t
所有的样本放入每个数据子块中。
[0019]进一步说,步骤4)中基于M
t
中样本进行选择性重采样,即使用马氏距离评估M
t
中的每个网络流量样本与数据子块D
t,i
的小类集P
t,i
的相似度,选择相似度最高的设定量样本平衡D
t,i
的样本过采样P
t,i

[0020]进一步说,被选择的设定量样本数为|N
t,i
|

|P
t,i
|,其中|N
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据块集成分类的网络流量异常检测方法,其特征在于该方法包括以下步骤:步骤1)输入网络流量数据,形成数据块D
t
,将数据块D
t
分为异常类P
t
与正常类N
t
两大类,并得到类别不平衡率IR
t
;其中,t是当前的时间戳,数据块D
t
的大小设定为S,并将N
t
记为大样本集,P
t
记为小样本集;步骤2)使用滑动窗口机制,得到反馈网络流量数据集M
t
;M
t
中保留了t时刻之前最新的W个异常类网络流量数据;步骤3)依据基础分类器个数C
max
和类别不平衡率IR
t
对数据块D
t
进行划分,来得到多个数据子块D
t,i
;步骤4)对于划分得到的每个网络流量数据子块D
t,i
,基于其类别不平衡率IR
t,i
和反馈网络流量数据集M
t
,进行选择性重采样,得到类别分布平衡的数据子块D

t,i
;步骤5)基于步骤4)得到的类别分布平衡数据子块D

t,i
,训练得到一个基础分类器C
t,i
,并评估基础分类器性能的方差V
t,i
,计算所有基础分类器性能方差的均值V;步骤6)更新数据块大小为S+

,重复步骤1)

5),得到数据块大小为S+

时构建得到的基础分类器方差的均值V

,若|V

V

|<ε,则使用C
t,i
构成网络流量数据集成分类模型C,否则,更新数据块大小为S+

,返回步骤1);其中,ε为设定的阈值;步骤7)使用步骤6)得到的网络流量数据集成分类模型C对新来的网络流量样本的类别进行预测,若预测类别为异常类,从而实现了网络流量异常的检测。2.根据权利要求1所述的一种基于数据块集成分类的网络流量异常检测方法,其特征在于:所述的类别不平衡率IR
t
=|P
t
|/|N
t
|,其中|P
t
|和|N
t
|分别为P
t
与N
t
中样本的个数。3.根据权利要求1所述的一种基于数据块集成分类的网络流量异常检测方法,其特征在于:步骤3)中若IR
t
<1/C
max
,则将步骤1获得的D
t
划分为C
max

【专利技术属性】
技术研发人员:邵羽詹士潇曾磊匡立中张帅
申请(专利权)人:杭州趣链科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1