基于逆习惯化机制的流聚类异常检测方法及系统技术方案

技术编号：35268416 阅读：27 留言：0更新日期：2022-10-19 10:34

本发明专利技术涉及一种基于逆习惯化机制的流聚类异常检测方法及系统，该方法包括以下步骤：（1）对数据进行逆习惯化处理；（2）初始化学习模型；（3）寻找最佳微簇；（4）更新微集群；（5）移除异常微簇；（6）构建宏簇集群。该方法有利于提高流聚类异常检测的速度和有效性。流聚类异常检测的速度和有效性。流聚类异常检测的速度和有效性。

全部详细技术资料下载

【技术实现步骤摘要】
基于逆习惯化机制的流聚类异常检测方法及系统

[0001]本专利技术属于数据流异常检测
，具体涉及一种基于逆习惯化机制的流聚类异常检测方法及系统。

技术介绍

[0002]对具有海量、高维、高速传输特性的数据进行异常检测主要面临着两个挑战。第一个就是在有限的内存空间无法存储无限数据问题，这是因为数据流的传输是无限传输，在有限内存中无法存储全部数据。第二个就是正常数据与异常数据本身之间不形成显著的区分问题。面对上述问题，目前已有的数据流异常检测方法总体可以分为三类，分别为基于密度的异常检测方法、基于距离的异常检测方法、基于流聚类的异常检测方法。
[0003]基于密度的方法主要原理就是通过假设正常数据是分布在密集区域当中，而异常数据是分布在低密度区域当中。慕尼黑大学的MarkusM.等人提出了局部异常值因子(简称LOF)算法，它是第一个基于密度的异常值检测算法之一。该方法的主要重点是观察数据点的离群程度，也就是计算LOF分数。但是这种方法需要谨慎地应用有效的索引，如果没有有效的索引，应用程序的搜索时间复杂度将会达到O(n2)。因为这些缺点，ErichSchubert等人提出了一个简化版本的LOF算法(简称SimplifiedLOF)。该算法利用KNN距离代替LOF的可达距离，虽然该算法显示出改进的性能，但是它的计算复杂度与LOF是相似的。中国香港大学的Tang等人在前两者的基础上，提出了基于连接的离群因子(简称COF)，该方法使用链接距离作为最短路径来估计近邻点的局部密度，而LOF使用欧氏距离来选择K
...

【技术保护点】

【技术特征摘要】
1.一种基于逆习惯化机制的流聚类异常检测方法，其特征在于，包括以下步骤：(1)对数据进行逆习惯化处理；(2)初始化学习模型；(3)寻找最佳微簇；(4)更新微集群；(5)移除异常微簇；(6)构建宏簇集群。2.根据权利要求1所述的基于逆习惯化机制的流聚类异常检测方法，其特征在于，步骤(1)的具体实现方法为：当数据流传入数据时，采用滑动窗口对数据进行分块处理，每一块数据用D
block
表示；将数据块D
block
进行均值归一化处理；为了让相似性数据得到增强，采用相似性数据增强函数对数据进行处理；在数据得到增强之后，通过赢者通吃策略稀疏化数据值，以提升计算效率；输出增强数据块D
enblock
。3.根据权利要求2所述的基于逆习惯化机制的流聚类异常检测方法，其特征在于，步骤(2)的具体实现方法为：输入增强数据块；判断潜在微集群是否为空，是则使用K
‑
means++算法创建初始微集群，并转下一步，否则直接转下一步；遍历初始微集群，初始化每个微簇结构，将每个初始化完成的微簇移入微集群当中；返回构建好的新的微集群。4.根据权利要求3所述的基于逆习惯化机制的流聚类异常检测方法，其特征在于，步骤(3)的具体实现方法为：初始化一个临时微簇结构；在潜在微集群为新数据寻找所属最佳微簇；如果潜在微集群不为空，则将新数据点映射到最佳所属潜在微簇中，并返回临时微簇；否则在缓冲微集群为新数据寻找所属最佳微簇，并转下一步；如果缓冲微集群不为空，则将新数据点映射到最佳所属缓冲微簇中，并返回临时微簇；否则在核心微集群为新数据寻找所属最佳微簇，并转下一步；如果核心微集群不为空，则将新数据点映射到最佳所属核心微簇中，并返回临时微簇。5.根据权利要求4所述的基于逆习惯化机制的流聚类异常检测方法，其特征在于，步骤(4)的具体实现方法为：如果临时微簇属于潜在微集群，判断数据点...

【专利技术属性】
技术研发人员：肖如良，朱维富，邹利琼，张仕，
申请(专利权)人：福建师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人