本发明专利技术公开了一种基于改进PAM聚类算法的网络流量异常检测方法,包括:流量采集阶段:通过网络分析工具监听网络获取网络数据包;特征提取阶段:提取网络数据包的属性,对一时间段内的网络数据包的属性分别进行信息熵值计算,得到多条多维数据记录;中心选择阶段:根据多维数据记录采用PAM聚类方法对网络数据包的数据点进行聚类,获取近似聚类中心后,通过近似聚类中心选择精确聚类中心;离群点判定阶段:设定阈值,筛选出精确聚类中心距离和局部利群因子均高于阈值的数据点得到离群的异常数据。该方法将改进的PAM聚类算法运用到异常流量检测中去,在继承了聚类无需标记的优势的同时,也降低算法需要的运行时间,具备处理更多数据的能力。
【技术实现步骤摘要】
本专利技术涉及网络异常检测技术,尤其涉及一种基于PAM聚类算法的网络异常流量检测方法。
技术介绍
当窥探、入侵等恶意行为发生时,网络上传输的流量在某些特性,如流量大小、数据包长以及数据包特定区域的内容等特性会表现出与正常流量的相异性,若能够尽早检测这些异常流量,就可以提前采取行动来保护网络安全。研究对这些异常流量的检测、定位造成异常的主机,进而对异常主机进行处理,对于避免网络拥塞、保证网络性能、避免网络资源的滥用以及保护网络信息安全,具有重要意义。聚类是一种普遍的无监督学习方法,旨在将物体分类的有意义的组别。同一个簇中的成员看作相似的,而不同组别中的成员看作不同的。因此产生于不同机制的网络数据会被分到不同的组别中去。k均值(K‐Means)算法属于基于距离的算法,由于该算法的效率较高,所以在科学和工业领域中得到广泛使用。该算法通过初始选择k个中心,然后通过不断的分配非中心并计算新的中心点,直到中心点不再变化。该算法的优点是使确定的K个划分达到平方和误差最小。当类与类之间区别明显时,效果较好。当然该算法也有很多缺点,特别是该方法对所选择出来的聚类中心易受离群点影响,进行均值计算时,若存在一些离群点,则很容易将聚类中心偏离得很远。若将K‐Means算法运用于离群点检测,其选择出来的聚类中心与离群点之间的距离并不明显,导致离群点检测较为困难。为了克服上述聚类算法所存在的缺陷,本专利技术提出了一种基于PAM(Partitioning Around Medoids)聚类算法的网络异常流量检测方法。该方法基于一个假设,如果能够获得较为优良的初始划分,则可以有效降低迭代次数。
技术实现思路
本专利技术根据其PAM算法特效,采用改进的基于抽样机制以及半径划定的PAM聚类算法,对其聚类中心选择阶段进行了一定比例抽样,先找出近似中心,再通过在近似中心周围寻找精确中心,使得收敛到最优解的速度得到较大提高且保持了原有的检测精度。本专利技术的目的在于克服现有技术的缺点与不足,提供一种基于抽样机制以及半径划定改进的PAM聚类异常流量检测方法,在继承了聚类无需标记的优势的同时,也具备快速处理数据的能力。本专利技术提出了一种基于PAM聚类算法的网络异常流量检测方法,包括如下阶段:流量采集阶段:通过网络分析工具监听网络获取网络数据包;特征提取阶段:提取所述网络数据包的属性,对一时间段内的网络数据包的属性分别进行信息熵值计算,得到多条多维数据记录;中心选择阶段:根据多维数据记录采用PAM聚类方法对所述网络数据包的数据点进行聚类,获取近似聚类中心后,通过所述近似聚类中心选择精确聚类中心;离群点判定阶段:设定阈值,筛选出所述精确聚类中心距离和局部利群因子均高于所述阈值的数据点,得到离群的异常数据。本专利技术提出的所述基于PAM聚类算法的网络异常流量检测方法中,所述方法的流量采集阶段包括下述步骤:a1.在操作系统下安装流量抓取分析软件;a2.利用所述流量抓取分析软件开始抓取网络数据包;a3.将所述网络数据包的显示格式转换为自捕获开始经过的秒数,导出所述网络数据包。本专利技术提出的所述基于PAM聚类算法的网络异常流量检测方法中,所述特征提取阶段中,所述网络数据包的属性包括包协议类型、包长度、源IP地址、目的IP地址、源端口和目的端口。本专利技术提出的所述基于PAM聚类算法的网络异常流量检测方法中,所述方法的中心选择阶段包括下述步骤:c1.将所述多维数据记录及所述网络数据包导入系统中用于聚类分析;c2.对所述网络数据包进行抽样,并根据抽出的数据点对其他所有数据点进行邻域内密度值计算,得到数据点的密度值;c3.对数据点按密度值进行排序,依次挑出密度最高且离更高密度样本之间距离超过距离阈值的多个数据点;根据密度排序的第一个数据点作为第一个近似聚类中心,依次计算选择密度次高的样本与所述近似聚类中心的距离值;c4.根据已获取近似聚类中心,为其选择半径并从半径里的数据点里选择候选聚类中心。本专利技术的有益效果在于:通过数据挖掘方法进行异常流量检测,可以检测出以往未知的、潜在的异常流量,从而避免将这些流量数据划分到已知的类别中去;通过应用最大信息系数对特征之间的相关性进行估计,避免了对连续型特征进行离散化而造成的结果不精确;再利用特征之间的相关度,对特征进行聚类,将存在冗余的特征聚到一个簇中,并最后取簇中相关度最高的一个属性,加入到最终特征子集;通过对聚类中心选择阶段进行抽样优化,避免对所有的数据记录进行欧式距离的两两运算与保存,极大地降低了这个过程用到的数据量,且仅带来微量检测准确率的下降。附图说明图1为本专利技术基于PAM聚类算法的网络异常流量检测方法的流程图。图2为实施例中使用Wireshark捕获的流量示意图。图3为实施例中以120s为单位统计的信息熵。图4为中心选择阶段步骤中计算数据点密度和距离并在坐标轴上的显示。具体实施方式结合以下具体实施例和附图,对本专利技术作进一步的详细说明。实施本专利技术的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本专利技术没有特别限制内容。本专利技术基于特征选择以及密度峰值聚类的网络流量异常检测方法包括如下四个阶段:流量采集阶段,通过wireshark监听网络,并将监听到数据包采集到本地,调整时间格式用于下一步;特征提取阶段,将流量几大特征在一定时间范围内进行信息熵值的计算,形成新的数据记录;中心选择阶段,对数据样本进行抽样,从样本中选择出近似聚类中心,再从近似中心的邻域内选择精确中心;离群点判定阶段,设定阈值,筛选出所述精确聚类中心距离和局部利群因子均高于所述阈值的数据点,得到离群的异常数据,以此达到高效、精确的异常流量检测。在本专利技术具体实施例中,将每个簇中的数据根据其与中心点之间在距离进行排序,选择距离最远的前3%的数据点,并且对这些远距离的点进行局部离群因子的计算,根据下文定义在局部离群因子值。流量采集阶段包括以下步骤:a1.在操作系统下安装抓包软件wireshark;a2.对网络流量数据进行抓取,将一段时间内的网络数据包(如图2所示)保存到本地,格式为tcpdump;a3.用wireshark打开该以tcpdump为后缀的文件进行查看,wireshark软件默认显示的时间格式为‘yyyy‐mm‐ddhh:mm:ss’的格式,因此需要将时间转为自捕获开始经过的秒数,方便后续的操作。wireshark软件本身提供了流量导出功能,这里可以选择导出为csv格式的文件,方便程序读取。特征提取阶段包括以下步骤:b1.对数据进行预处理之后,将第二周的流量以120秒为单位,对各流量要素,分别为包协议类型,包长度,源IP地址,目的IP地址,源端口,目的端口等重要属性特征统计并进行信息熵的计算,形成多维数据记录;以120s为单位统计的信息熵如图3所示。b2.一些数据特征的熵会在某个时间点形成突变,这种急剧增加或者急剧降低的信息熵可能意味着发生了一些特殊的网络事件,导致网络空间特征分布发生了变化,这种信息熵可能就是要关注的离群点。中心选择阶段包括以下步骤:c1.将上述已经计算好各个特征熵值的数据集合导入的数据集合导入系统用于聚类分析;c2.这一阶段先是进行抽样,对抽出的样本数对其他所有数据成员进行邻域内密度值计算,因此该部分是一个二重循环本文档来自技高网...
【技术保护点】
一种基于PAM聚类算法的网络异常流量检测方法,其特征在于,包括如下阶段:流量采集阶段:通过网络分析工具监听网络获取网络数据包;特征提取阶段:提取所述网络数据包的属性,对一时间段内的网络数据包的属性分别进行信息熵值计算,得到多条多维数据记录;中心选择阶段:根据多维数据记录采用PAM聚类方法对所述网络数据包的数据点进行聚类,获取近似聚类中心后,通过所述近似聚类中心选择精确聚类中心;离群点判定阶段:设定阈值,筛选出所述精确聚类中心距离和局部利群因子均高于所述阈值的数据点,得到离群的异常数据。
【技术特征摘要】
1.一种基于PAM聚类算法的网络异常流量检测方法,其特征在于,包括如下阶段:流量采集阶段:通过网络分析工具监听网络获取网络数据包;特征提取阶段:提取所述网络数据包的属性,对一时间段内的网络数据包的属性分别进行信息熵值计算,得到多条多维数据记录;中心选择阶段:根据多维数据记录采用PAM聚类方法对所述网络数据包的数据点进行聚类,获取近似聚类中心后,通过所述近似聚类中心选择精确聚类中心;离群点判定阶段:设定阈值,筛选出所述精确聚类中心距离和局部利群因子均高于所述阈值的数据点,得到离群的异常数据。2.根据权利要求1所述的基于PAM聚类算法的网络异常流量检测方法,其特征在于,所述方法的流量采集阶段包括下述步骤:a1.在操作系统下安装流量抓取分析软件;a2.利用所述流量抓取分析软件开始抓取tcp网络数据包;a3.将所述网络数据包的显示格式转换为自捕获开始经过的秒数,导出...
【专利技术属性】
技术研发人员:何道敬,倪谢俊,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。