基于逆习惯化机制的流聚类异常检测方法及系统技术方案

技术编号:35268416 阅读:27 留言:0更新日期:2022-10-19 10:34
本发明专利技术涉及一种基于逆习惯化机制的流聚类异常检测方法及系统,该方法包括以下步骤:(1)对数据进行逆习惯化处理;(2)初始化学习模型;(3)寻找最佳微簇;(4)更新微集群;(5)移除异常微簇;(6)构建宏簇集群。该方法有利于提高流聚类异常检测的速度和有效性。流聚类异常检测的速度和有效性。流聚类异常检测的速度和有效性。

【技术实现步骤摘要】
基于逆习惯化机制的流聚类异常检测方法及系统


[0001]本专利技术属于数据流异常检测
,具体涉及一种基于逆习惯化机制的流聚类异常检测方法及系统。

技术介绍

[0002]对具有海量、高维、高速传输特性的数据进行异常检测主要面临着两个挑战。第一个就是在有限的内存空间无法存储无限数据问题,这是因为数据流的传输是无限传输,在有限内存中无法存储全部数据。第二个就是正常数据与异常数据本身之间不形成显著的区分问题。面对上述问题,目前已有的数据流异常检测方法总体可以分为三类,分别为基于密度的异常检测方法、基于距离的异常检测方法、基于流聚类的异常检测方法。
[0003]基于密度的方法主要原理就是通过假设正常数据是分布在密集区域当中,而异常数据是分布在低密度区域当中。慕尼黑大学的MarkusM.等人提出了局部异常值因子(简称LOF)算法,它是第一个基于密度的异常值检测算法之一。该方法的主要重点是观察数据点的离群程度,也就是计算LOF分数。但是这种方法需要谨慎地应用有效的索引,如果没有有效的索引,应用程序的搜索时间复杂度将会达到O(n2)。因为这些缺点,ErichSchubert等人提出了一个简化版本的LOF算法(简称SimplifiedLOF)。该算法利用KNN距离代替LOF的可达距离,虽然该算法显示出改进的性能,但是它的计算复杂度与LOF是相似的。中国香港大学的Tang等人在前两者的基础上,提出了基于连接的离群因子(简称COF),该方法使用链接距离作为最短路径来估计近邻点的局部密度,而LOF使用欧氏距离来选择K

最近邻。但是这种方法的缺点是对数据分布的间接性假设会导致不正确的密度估计。
[0004]基于距离的异常检测方法通过计算点与点之间的距离来检测异常值。韩国科学技术先进学院贝尔科技公司的SridharRamaswamy等人提出了一种基于单元的异常检测算法,该算法是最早提出在大数据集中检测异常值的技术之一。该方法采用第K个最近邻的方法找到每个候选空间索引结构的最近邻,使用了KD树、X树和R树,通过查询每个示例中最近K个点的索引结构来完成;但是该方法面临的问题是索引结构随着维数的增加而分解。北达科他州立大学的DongmeiRen等人提出了的改进版本,该算法应用修剪方法和“近邻”标记技术来检测大数据集中的异常值。卡拉布里亚大学的FabrizioAngiulli等人提出一种新颖性想法,数据流中基于距离的离群值查询,它用于对数据流中的异常值进行一次性查询。该方法与其它方法不同的是Fabrizio等人提出了三种流数据异常挖掘(简称STORM)算法来使用基于距离的方法检测数据流中的异常值。第一个基于计算精确的异常查询,另外两个专注于检索查询的近似结果。精确查询算法使用流管理器和合适的数据结构。但是该算法的一个缺点是存储所有窗口样本的成本十分昂贵,因此不适合大规模数据,因为它无法放入内存当中。
[0005]基于流聚类的异常检测算法使用特殊的数据结构来保持输入数据的概要,可以解决无限存储问题。并且使用时间窗口模型来解决流数据中以前数据实例的过时处理问题。
威斯康星大学麦迪逊分校的TianZhang所提出的平衡式简化聚类层次结构(简称BIRCH)算法是最早应用于流聚类的算法之一。它将维护的有关集群的信息减少为仅存储在所谓的集群特征(简称CF)中的几个汇总统计信息。IBM公司的CharuC.Aggarwal从BIRCH中扩展了CF,提出了一种集群进化数据流的框架(简称CluStream)算法,它允许在不同的时间范围进行聚类,而不是在整个数据流上进行。美国华盛顿大学的YixinChen等人提出了基于密度的实时流数据聚类分析(简称D

Stream)算法,该算法使用了固定的网格结构区分了三种类型的单元:密度单元、稀疏单元和权重介于其它两种类型之间的过度单元。该算法采用密度衰减技术来捕获数据流的动态变化。利用衰减因子、数据密度和聚类结构之间复杂的关系,该算法能够高效、有效地实时生成和调整聚类。
[0006]流聚类技术被证明是一种十分有效的流数据异常检测算法,并且已经成功应用。它通过特殊的数据结构解决了在有限内存中存储无限数据问题,并且通过滑动窗口以及微聚类形式解决了高速传输数据流的实时响应问题。
[0007]近年已有很多学者提出了许多很好流聚类异常检测技术。这些算法并不需要任何先验知识,对于不同的数据类型具有鲁棒性,并且采用微聚类形式使得它具有增量特性以及在有限空间中存储无限数据,这对于异常检测来说是一种非常有用的技术。例如CluStream、DenStream、HDenStream、DBSTREAM等等。这些算法很好的解决了数据流异常检测以下几个问题:(1)在有限的内存空间存储无限数据问题;(2)利用微集群结构的聚类进一步的放大了异常与正常数据之间的区别,解决了正常数据与异常数据本身之间不形成显著的聚类问题。但是流聚类异常检测模型仍然面临着以下三个挑战:
[0008](1)聚类的目标就是同一集群的高聚合性,不同集群之间的低耦合性,但是有些异常数据在不显著情况下会被强制分为一个大的正常集群中,因此当前流聚类检测模型没有对这部分异常检测进行优化。
[0009](2)目前大多数的流聚类算法中,新的数据点找到所属微簇的过程都是与当前所有微集群的已有微簇进行逐个搜索,并且大量的数据进行了这样的冗余计算,这种O(N^2)的计算复杂度无法实时有效的表示出当前流中观察到的模式,因此计算效率是一个很大的挑战。
[0010](3)由于数据流的高维特性,“维度诅咒”的问题在影响聚类质量的同时,有些与正常行为毫不相关的特征却影响着正常数据的正常归类。

技术实现思路

[0011]本专利技术的目的在于提供一种基于逆习惯化机制的流聚类异常检测方法,该方法有利于提高流聚类异常检测的速度和有效性。
[0012]为实现上述目的,本专利技术采用的技术方案是:一种基于逆习惯化机制的流聚类异常检测方法,包括以下步骤:
[0013](1)对数据进行逆习惯化处理;
[0014](2)初始化学习模型;
[0015](3)寻找最佳微簇;
[0016](4)更新微集群;
[0017](5)移除异常微簇;
[0018](6)构建宏簇集群。
[0019]进一步地,步骤(1)的具体实现方法为:
[0020]当数据流传入数据时,采用滑动窗口对数据进行分块处理,每一块数据用D
block
表示;
[0021]将数据块D
block
进行均值归一化处理;
[0022]为了让相似性数据得到增强,采用相似性数据增强函数对数据进行处理;
[0023]在数据得到增强之后,通过赢者通吃策略稀疏化数据值,以提升计算效率;
[0024]输出增强数据块D
enblock

[0025]进一步地,步骤(2)的具体实现方法为:
[0026]输入增强数据块;
[0027]判断潜在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于逆习惯化机制的流聚类异常检测方法,其特征在于,包括以下步骤:(1)对数据进行逆习惯化处理;(2)初始化学习模型;(3)寻找最佳微簇;(4)更新微集群;(5)移除异常微簇;(6)构建宏簇集群。2.根据权利要求1所述的基于逆习惯化机制的流聚类异常检测方法,其特征在于,步骤(1)的具体实现方法为:当数据流传入数据时,采用滑动窗口对数据进行分块处理,每一块数据用D
block
表示;将数据块D
block
进行均值归一化处理;为了让相似性数据得到增强,采用相似性数据增强函数对数据进行处理;在数据得到增强之后,通过赢者通吃策略稀疏化数据值,以提升计算效率;输出增强数据块D
enblock
。3.根据权利要求2所述的基于逆习惯化机制的流聚类异常检测方法,其特征在于,步骤(2)的具体实现方法为:输入增强数据块;判断潜在微集群是否为空,是则使用K

means++算法创建初始微集群,并转下一步,否则直接转下一步;遍历初始微集群,初始化每个微簇结构,将每个初始化完成的微簇移入微集群当中;返回构建好的新的微集群。4.根据权利要求3所述的基于逆习惯化机制的流聚类异常检测方法,其特征在于,步骤(3)的具体实现方法为:初始化一个临时微簇结构;在潜在微集群为新数据寻找所属最佳微簇;如果潜在微集群不为空,则将新数据点映射到最佳所属潜在微簇中,并返回临时微簇;否则在缓冲微集群为新数据寻找所属最佳微簇,并转下一步;如果缓冲微集群不为空,则将新数据点映射到最佳所属缓冲微簇中,并返回临时微簇;否则在核心微集群为新数据寻找所属最佳微簇,并转下一步;如果核心微集群不为空,则将新数据点映射到最佳所属核心微簇中,并返回临时微簇。5.根据权利要求4所述的基于逆习惯化机制的流聚类异常检测方法,其特征在于,步骤(4)的具体实现方法为:如果临时微簇属于潜在微集群,判断数据点...

【专利技术属性】
技术研发人员:肖如良朱维富邹利琼张仕
申请(专利权)人:福建师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1