基于MapReduce并行AP聚类的网络入侵检测方法技术

技术编号:11071067 阅读:107 留言:0更新日期:2015-02-25 10:42
一种基于MapReduce并行AP聚类的网络入侵检测方法,所述检测方法包括如下步骤:第一步,入侵检测样本数据预处理,完成特征数据的数值化和归一化;第二步,利用基于MapReduce的并行AP聚类压缩入侵检测样本数;第三步,利用压缩后的数据样本,通过KNN或SVM分类器实现高效检测。本发明专利技术提供一种基于MapReduce并行AP聚类的网络入侵检测方法,对数据样本处理具备良好的扩展性,可实现对海量数据样本的有效压缩,提高检测速度和检测精度。

【技术实现步骤摘要】

本专利技术涉及网络安全
,尤其是一种网络入侵检测方法。
技术介绍
网络流量的急剧膨胀,海量数据处理和计算已是入侵检测的常见问题,许多传统的入侵检测方法往往只适用于小规模数据的处理,当数据量增大时,它们往往因计算量的增大而速度减慢甚至无法运行。
技术实现思路
为了克服已有网络入侵检测方法在数据量增大时检测速度较慢、检测精度较低的不足,本专利技术提供一种在海量数据时提高检测速度、检测精度较高的基于MapReduce并行AP聚类的网络入侵检测方法。本专利技术解决其技术问题所采用的技术方案是:一种基于MapReduce并行AP聚类的网络入侵检测方法,所述检测方法包括如下步骤:第一步,入侵检测样本的常规预处理,即完成特征数据的数值化和归一化处理;第二步,利用基于MapReduce的并行AP聚类压缩入侵检测样本数,过程如下:(2.1)相似度矩阵计算的MapReduce并行化AP聚类采用欧式距离的负值来衡量数据点间的相似度,欧式距离的计算公式:s(x,y)=Σk=1nxk2+Σk=1nyk2-2Σk=1nxkyk]]>并行化计算的输入可以看成是每行保存一个数据点的矩阵A,公式的前两项和第三项可以分开算,前两项计算时每个节点不依赖其它节点上的数据,每个节点都可以单独计算存储在自身节点上数据点的各个维度的平方和,而第三项实际就是输入矩阵A与其转置矩阵AT相乘得到的矩阵T的第i行第j列的值,假设x是第i个点,而y是第j个点,因此第三项的计算采用类似于并行化计算矩阵相乘的方法。第三项的计算过程如下:Aa11,a12a21,a22-->ATa11,a21a12,a22-->1a11×a11a11×a2120a21×a211a12×a12a12×a2220a22×a22-->1a11×a11+a12×a12a11×a21+a12×a2220a21×a21+a22×22]]>先对输入矩阵A转置,然后求每行中各项与其后面各项的乘积,并以各项所在的列作为行键,最后对相同行键的行进行纵向求和汇总即可得到欧式距离计算公式中第三项的值;(2.2)吸引度矩阵和归属度矩阵计算的MapReduce并行化用MapReduce并行化计算吸引度值时在Map中将相似度值s(i,k)和归属度值a(i,k)以其所在行作为键输出,使同一行的a(i,k)和s(i,k)洗牌到(Shuffle)同一reduce的节点进行计算,而计算归属度值时可以在Map中将吸引度值r(i,k)以其所在列作为键输出,使同一列的r(i,k)洗牌到同一reduce节点进行计算。为了计算时能够同时获得相似度值、吸引度值和归属度值,使用Point结构来保存s(i,k)、r(i,k)和a(i,k);在Map阶段以Point所在列为键输出,Reduce阶段计算同一列的归属度值;(2.3)聚类中心计算的MapReduce并行化计算聚类中心时只用到a(k,k)和r(k,k)的值,而使用Point同时保存了这两个值,所以各个节点独立计算本节点上的数据点有哪些是聚类中心,并行化计算聚类中心时在Map阶段判断本节点上有哪些数据点是聚类中心,输出是聚类中心的点,而在reduce阶段汇总各个节点的计算结果,得到最终的聚类中心以此完成数据样本压缩;第三步,基于MapReduce的AP并行化聚类处理获得压缩后的数据样本,再利用KNN或SVM分类器实现入侵检测。本专利技术的技术构思为:AP聚类算法是2007年由加拿大多伦大大学的Frey等人发表在《科学》杂志上的一种全新的聚类算法,全称为Affinity Propagation,近年来在学术界和工业界均获得了极大的关注和应用。与K-Means等算法相比,AP聚类的基本思想是通过数据点之间传递消息,自动发现聚类中心,并实现数据点的自动聚类,相比于传统的聚类有一个明显的优点是,它并不在初始化阶段指定类的数目及初始的聚类中心,相反,它把每个数据点都同等地看作是潜在的聚类中心,这样能大大减少假定初始聚类对聚类结果的影响。AP算法定义两个数据点i和k之间传递两类消息,分别称为吸引度(responsibility)和归属度(availability)。吸引度(responsibility)是从数据点i传递到其候选聚类中心数据点k的信息,称为点k对于点i的吸引度值,记为r(i,k)。吸引度r(i,k)反映的是点k通过与其它的点k’竞争,作为适合点i的聚类中心的程度。r(i,k)的计算需要引入点i对于其它潜在的候选聚类中心点k’的归属度a(i,k')来作参考比较,基本过程如图1所示。归属度(availability)是从候选聚类中心数据点k传递到数据点i的信息,称为点i对于点k的归属度值,记为a(i,k)。归属度a(i,k)反应的是点i选择点k作为其聚类中心的适合程度。同样,a(i,k)的计算需引入作为候选聚类中心的点k对其它数据点i’的吸引度作为参考比较,如图2所示。AP聚类算法的基本执行流程描述如下:Step 1:初始化吸引度矩阵r(i,k)和归属度矩阵a(k,i)分别为0Step 2:先计算N个点相似度矩阵s(i,k);(N表示数据样本点的总数)Step 3:根据公式r(i,k)=(1-λ)×r(i,k)+λ×(s(i,k)-maxk′≠k{a(i,k′)+s(i,k′)本文档来自技高网...

【技术保护点】
一种基于MapReduce并行AP聚类的网络入侵检测方法,其特征在于:所述检测方法包括如下步骤:第一步,入侵检测样本的预处理,即完成特征数据的数值化和归一化处理;第二步,利用基于MapReduce的并行AP聚类压缩入侵检测样本数,过程如下:(2.1)相似度矩阵计算的MapReduce并行化AP聚类采用欧式距离的负值来衡量数据点间的相似度,欧式距离的计算公式:s(x,y)=Σk=1nxk2+Σk=1nyk2-2Σk=1nxkyk]]>并行化计算的输入可以看成是每行保存一个数据点的矩阵A,公式的前两项和第三项可以分开算,前两项计算时每个节点不依赖其它节点上的数据,每个节点都可以单独计算存储在自身节点上数据点的各个维度的平方和,而第三项实际就是输入矩阵A与其转置矩阵AT相乘得到的矩阵T的第i行第j列的值,假设x是第i个点,而y是第j个点,因此第三项的计算采用类似于并行化计算矩阵相乘的方法;第三项的计算过程如下:Aa11,a12a21,a22-->ATa11,a21a12,a22-->1a11×a11a11×a2120a21×a211a12×a12a12×a2220a22×a22-->1a11×a11+a12×a12a11×a21+a12×a2220a21×a21+a22×22]]>先对输入矩阵A转置,然后求每行中各项与其后面各项的乘积,并以各项所在的列作为行键,最后对相同行键的行进行纵向求和汇总即可得到欧式距离计算公式中第三项的值;(2.2)吸引度矩阵和归属度矩阵计算的MapReduce并行化用MapReduce并行化计算吸引度值时在Map中将相似度值s(i,k)和归属度值a(i,k)以其所在行作为键输出,使同一行的a(i,k)和s(i,k)洗牌到(Shuffle)同一reduce的节点进行计算,而计算归属度值时可以在Map中将吸引度值r(i,k)以其所在列作为键输出,使同一列的r(i,k)洗牌到同一reduce节点进行计算,使用了Point结构来保存s(i,k)、r(i,k)和a(i,k);在Map阶段以Point所在列为键输出,Reduce阶段计算同一列的归属度值;(2.3)聚类中心计算的MapReduce并行化计算聚类中心时只用到a(k,k)和r(k,k)的值,而使用Point同时保存了这两个值,所以各个节点独立计算本节点上的数据点有哪些是聚类中心,并行化计算聚类中心时在Map阶段判断本节点上有哪些数据点是聚类中心,输出是聚类中心的点,而在reduce阶段汇总各个节点的计算结果,得到最终的聚类中心,以此完成数据样本压缩;第三步,基于MapReduce的AP并行化聚类处理获得压缩后的数据样本,再利用KNN或SVM分类器实现入侵检测。...

【技术特征摘要】
1.一种基于MapReduce并行AP聚类的网络入侵检测方法,其特征在于:所述
检测方法包括如下步骤:
第一步,入侵检测样本的预处理,即完成特征数据的数值化和归一化处理;
第二步,利用基于MapReduce的并行AP聚类压缩入侵检测样本数,过程如下:
(2.1)相似度矩阵计算的MapReduce并行化
AP聚类采用欧式距离的负值来衡量数据点间的相似度,欧式距离的计算公式:
s(x,y)=Σk=1nxk2+Σk=1nyk2-2Σk=1nxkyk]]>并行化计算的输入可以看成是每行保存一个数据点的矩阵A,公式的前两项和
第三项可以分开算,前两项计算时每个节点不依赖其它节点上的数据,每个节点
都可以单独计算存储在自身节点上数据点的各个维度的平方和,而第三项实际就
是输入矩阵A与其转置矩阵AT相乘得到的矩阵T的第i行第j列的值,假设x
是第i个点,而y是第j个点,因此第三项的计算采用类似于并行化计算矩阵相
乘的方法;
第三项的计算过程如下:
Aa11,a12a21,a22ATa11,a21a12,a221a11×a11a11×a2120a21×a211a12×a12a12×a2220a22×a221a11×a11+a12×a12a11×a21+a12×a2220a21×a21+a22&time...

【专利技术属性】
技术研发人员:陈铁明张旭
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1