本发明专利技术提供一种同构环境下计算节点异常检测方法,包括以下步骤:步骤1,将节点数据转换为标准形式;步骤2,提取特征数据;步骤3,采用cell-based算法自动检测异常点。本发明专利技术提供计算节点异常检测方法,能够采用无指导的学习方法自动获取动态变化的异常检测阈值,能更好地适应异常频繁改变的场景,能够迅速地处理和分析从大型系统中采集到的节点信息,从而可以迅速地检测到同构环境下异常的计算节点。
【技术实现步骤摘要】
本专利技术涉及异常检测技术,特别是一种基于数据挖掘技术的同构环境下异常节点 的检测方法。
技术介绍
-个计算节点的数据信息可以由一个多维矩阵表示,其度量维度包括CPU信息, I/O信息,网络信息等。由于度量维度较多,导致处理时会因为各种数据单位以及数量级的 不同出现错误检测,所以首要的就是将数据进行预处理。 预处理的方法包括归一化,零均值法、白化处理等。对观测信号去均值的处理过程 是从观测中减去信号的均值向量,使得观测信号成为零均值变量。同时还要对数据进行白 化处理,白化处理可去除各观测信号之间的相关性,从而简化后续独立分量的提取过程。通 常情况下,数据进行白化处理与不对数据进行白化处理相比,算法的收敛性较好,有更好的 稳定性。 数据的特征抽取就是将数据矩阵进行简化和降维。由于表示计算节点数据的种类 复杂导致了该矩阵的高维度,以及后续计算处理的复杂。所以数据的特征抽取则非常有必 要。基于FastICA(Principal ComponentAnalysis)算法的特征抽取技术是一种基于独立 分量的分析的识别算法。该算法是基于定点递推算法得到的,它对任何类型的数据都适用, 同时它的存在对运用ICA分析高维的数据成为可能。又称固定点(Fixe d-Point)算法,是 由芬兰赫尔辛基大学Hyvä ;rinen等人提出来的。FastICA算法本质上是一种最小化 估计分量互信息的神经网络方法,是利用最大熵原理来近似负熵,并通过一个合适的非线 性函数使其达到最优。这个算法具有很多神经算法里的优点:并行的、分布的、计算简单、要 求内存小。 现有的数据流异常检测方法大致可以划分为基于密度的异常检测,基于网格的数 据流异常检测和基于距离的异常检测。 基于密度的异常检测的基本思想是利用某一邻域内样本的密度来确定异 常。L0F算法是基于密度的异常检测的代表性算法(Breunig M M,Kriegel H P,Ng R T, et al. LOF:identifying density-based local outliers//ACM Sigmod Record. ACM,2000, 29 (2) : 93-104.)。该算法是一种基于局部密度的异常检测算法,能够较为准确的 在密度分布不均匀的数据集合中发现异常数据对象。但是L0F算法并不适合直接用于数 据流的异常检测,因为其时间复杂度较大,如果每得到一个新的数据对象都需要对所有数 据对象的异常度重新进行计算,其代价是不可容忍的。因此,Pokrajac和Lazarevic等人 对已有的静态L0F算法做出了改进,提出了动态的增量L0F算法(Pokrajac D, Lazarevic A,Latecki L J. Incremental local outlier detection for data streams// Computational Intelligence and Data Mining, 2007. CIDM 2007.IEEE Symposium on. IEEE, 2007:504-515.)。增量LOF算法的核心思想就是当一个新的数据对象到来的时 候,并不重新计算所有数据对象特征信息的值,而是只对受到新输入数据对象影响的那一 部分数据对象的各个特征信息值进行更新。增量LOF算法在接收到一个新输入的数据对象 时,其主要操作分为两个步骤:对于新输入的数据对象,计算其所需的特征信息值;对于受 到新输入对象影响密度发生变化的邻居结点,挨个更新其特征信息值,对于没有受到影响 的数据对象,不重新计算。采用这一策略之后,动态增量L0F算法在能够达到和重复执行 静态L0F算法相当效果的同时,却大大降低了算法执行的时间复杂度,使得其适用于针对 数据流的异常检测。然而,L0F算法并没有考虑不同维度值域的差异,可能导致部分维度的 影响力显著大于其他维度;另外,其时间复杂度对于离线检测来说是可以接受的,但对实时 检测来说还不实用。本专利技术针对L0F算法的上述两个局限性,提出的算法的时间复杂度为 〇(n),与数据流个数呈线性增加关系,能满足实时应用需要。 基于网格的数据流异常检测是把整个数据空间分割成为相互独立,大小一致的很 多网格,人为地设定一个支持度,当网格中所包含的数据元素的支持度超过或者等于了事 先设定的支持度大小时,就从所有的维度中选出一维,并按照这一维度将网格动态的分为 两个完全独立的子网格。当子网格的支持度也达到或超过阈值时,同样的分割操作也会在 子网格上进行。Park和Lee等在提出了一种实时的数据流异常检测方法,该网格聚类方 法不需要计算数据对象之间的距离,只需要按照事先确定的网格大小,直接把数据放入相 应的网格,因此可以实现实时的增量聚类。每次聚类完毕之后只需要保存每个类的特征信 息,并计算所有类的异常度,按照由大到小的顺序进行排序,把Top-k异常度最大的类划分 为最终的异常类。(Park N H, Lee W S. Statistical grid-based clustering over data streams . ACM SIGMOD Record, 2004, 33(1) : 32-37.)上述异常检测方法要么采用 top-p 方式把异常量化值最高的P个数据流作为异常,要么把异常量化值超过预定义阈值的数据 流作为异常。 上述方法在实际应用过程中存在问题:(1)阈值难于设定。阈值的合理设定需要 非常熟悉应用程序的底层机制,这对于一般应用者而言,难度太大;(2)异常的数目一直在 变化。某个时刻可能存在超过P个数据流是异常的,采用top-p方式会错过这些真实存在 的异常。因此,本专利技术中采用一种无指导的学习方法自动获取动态变化的异常检测阈值,能 更好地适应异常频繁改变的场景。
技术实现思路
为了克服现有技术存在的问题,本专利技术提供一种采用无指导的学习方法自动获取 动态变化的异常检测阈值,能更好地适应异常频繁改变的场景,能够迅速地处理和分析从 大型系统中采集到的节点信息,从而可以迅速地检测到同构环境下异常的计算节点。 实现本专利技术目的的解决方案为:利用构建特定数据形式,数据特征抽取以及自动 检测异常点等技术实现同构环境下的异常检测。主要分为以下几个步骤: 步骤1,将节点数据转换为标准形式,过程如下: 给定一个由n个同构的计算节点构成的分布式计算系统,每个计算节点有m个度 量维度,对于每一个计算机节点的每个度量维度每经过一段特定时间进行快照形成该度量 的k个快照。用矩阵0代表从第i个计算机节点采集到的信息数据矩阵,共形成n个矩阵。 在矩阵#中的每一个元素/t代表着特征h在第j次快照收集到的数据。 我们重新把每一个矩阵F重新组合进一个多维(m*k)的向量【主权项】1. ,其特征在于,包括以下步骤: 步骤1,将节点数据转换为标准形式; 步骤2,提取特征数据; 步骤3,米用cell-based算法自动检测异常点。2. 根据权利要求1所述的同构环境下计算节点异常检测方法,其特征在于,步骤1的具 体过程为: 步骤1. 1,采集每一个数据节点的m个度量维度的数据,并对每一个数据节点的m个度 量维度的数据每隔一段时间进行一次本文档来自技高网...
【技术保护点】
一种同构环境下计算节点异常检测方法,其特征在于,包括以下步骤:步骤1,将节点数据转换为标准形式;步骤2,提取特征数据;步骤3,采用cell‑based算法自动检测异常点。
【技术特征摘要】
【专利技术属性】
技术研发人员:徐建,黄东东,张宏,李涛,李千目,张琨,陈龙,范志凯,许福,
申请(专利权)人:南京理工大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。