一种异常数据检测中谱聚类算法并行化方法及系统技术方案

技术编号：28941747 阅读：24 留言：0更新日期：2021-06-18 21:47

本发明专利技术公开了一种异常数据检测中谱聚类算法并行化方法及系统，首先将待聚类分析的数据集样本进行数据分布式存储；然后并行化构建数据集样本的相似矩阵；并行化计算相似矩阵的拉普拉斯矩阵；并行化计算拉普拉斯矩阵的特征向量，获得维度为n×d的特征向量矩阵；最后并行化执行K‑mean聚类算法。经实验结果表明，本发明专利技术在面对海量日志数据的聚类分析时，在保证良好聚类效果的同时，算法的执行效率也得到显著提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种异常数据检测中谱聚类算法并行化方法及系统
本专利技术属于计算机软件
，涉及一种谱聚类算法并行化化方法及系统，具体涉及一种异常数据检测中谱聚类算法并行化方法及系统。
技术介绍
大型系统中的软件在实际运营过程中，处理和产生的数据十分庞大。这些数据有时能达到TB甚至PB级，有如此之多的数据需要处理和产生，大型系统出现故障就在所难免。而故障日志用来记录系统故障的相关信息，随着系统规模逐渐扩大，日志的规模呈指数型增长，日志种类也越来越复杂。一旦计算机系统出现性能故障，就必须要尽快且准确的进行故障的定位从而进行故障的修复。否则将会影响正常的社会生活并造成巨大的经济损失，严重的情况下还可能影响到社会安定。当大型计算机系统出现故障时，如何从多类别大规模的日志中区分故障日志和正常日志，并将故障诊断信息及时反馈给相应的开发人员并及时排除系统故障成为了一种挑战。并且面对海量数据，单机的存储能力受到限制，存储系统的稳定性和扩展性受到影响，也会使得数据管理与分析变的更加复杂。解决异常数据检测问题，通常的做法是使用聚类算法。常见的聚类算法有常见的聚类算法有K-means聚类、DBSCAN聚类、层次聚类等。但是当数据规模巨大时，串行执行的聚类算法存在多次迭代计算，计算复杂度会呈指数级增长，算法的执行效率会变得低下。因此为了走出海量数据带来得困境，本申请将聚类算法并行化，就能在正确执行异常日志检测的基础上解决算法时间复杂度的问题。
技术实现思路
为了解决单机储存系统无法满足对海量数据地储存要求，以及面对...

【技术保护点】
1.一种异常数据检测中谱聚类算法并行化方法，其特征在于，包括以下步骤：/n步骤1：将待聚类分析的数据集样本进行数据分布式存储；/n步骤2：并行化构建数据集样本的相似矩阵A；/n从HDFS中读取数据集样本，将数据集样本进行向量化，并利用开源并行计算框架Spark中的弹性分布式数据集RDD形式将向量化的数据集样本进行存储，然后构建数据向量空间，接着通过并行计算数据集样本之间的相似性，生成数据集样本的相似矩阵A；/n步骤3：并行化计算相似矩阵A的拉普拉斯矩阵；/n步骤4：并行化计算拉普拉斯矩阵的特征向量，获得维度为n×d的特征向量矩阵，其中n表示样本个数，d表示特征向量的维度；/n步骤5：并行化执行K-mean聚类算法。/n

【技术特征摘要】
1.一种异常数据检测中谱聚类算法并行化方法，其特征在于，包括以下步骤：
步骤1：将待聚类分析的数据集样本进行数据分布式存储；
步骤2：并行化构建数据集样本的相似矩阵A；
从HDFS中读取数据集样本，将数据集样本进行向量化，并利用开源并行计算框架Spark中的弹性分布式数据集RDD形式将向量化的数据集样本进行存储，然后构建数据向量空间，接着通过并行计算数据集样本之间的相似性，生成数据集样本的相似矩阵A；
步骤3：并行化计算相似矩阵A的拉普拉斯矩阵；
步骤4：并行化计算拉普拉斯矩阵的特征向量，获得维度为n×d的特征向量矩阵，其中n表示样本个数，d表示特征向量的维度；
步骤5：并行化执行K-mean聚类算法。

2.根据权利要求1所述的异常数据检测中谱聚类算法并行化方法，其特征在于：步骤1中，将待聚类分析的数据集样本，划分为若干数据块，并将这些数据块抽象为RDD对象，将这些RDD分配给Spark集群中的若干工作节点进行存储，存入开源分布式文件系统HDFS中。

3.根据权利要求1所述的异常数据检测中谱聚类算法并行化方法，其特征在于：步骤2中，利用TF-IDF和余弦相似度计算两数据元素之间的相似性，具体实现包括以下子步骤：
步骤2.1：使用TF-IDF算法的得到各数据元素的关键词；
步骤2.2：选取两个数据元素的关键词构成关键词集合，计算每个数据元素对于这个关键词集合的词频，根据词频生成各自词频向量；
步骤2.3：计算两个数据元素中词频向量的余弦相似度，获得两数据元素之间的相似性。

4.根据权利要求3所述的异常数据检测中谱聚类算法并行化方法，其特征在于：步骤2.3中，由向量化方法得到各元素的值并构建日志向量数据，对所有数据向量与自身做笛卡尔积得到，得到向量对(vi，vj)，构成日志向量空间，将向量对分配到多个节点上使用相似度计算方法来并行计算数据之间的相似度，最终得到相似矩阵A。

5.根据权利要求1-4任意一项所述的异常数据检测中谱聚类算法并行化方法，其特征在于：步骤2中，利用K最近邻图方法，完成对相似矩阵A的稀疏化；即对于每一个数据元素，只保存了与其最近的k个数据元素的相似性，而忽略其他数据元素的相似性；同时使用逆向合并的方法，即从邻接矩阵中得到邻接表，进而得知对于任意数据元素xi与其相邻点集合{xj}的边信息edges[i][j]，从{xj}集合中每个点出发找出到xi的边信息edges[j][i]，综合edges[i][j]和edges[j][i]，补充因使用k-近邻图所缺失的相似度数据，实现相似度矩阵的对称化。

6.根据权利要求1所述的异常数据检测中谱聚类算法并行化方法，其特征在于：步骤3中，利用相似矩阵A，构造出包含n个节点的图G，图中每个节点表示一个数据元素，每条边的值对应相似矩阵A的元素值；算出图G中每个节点的度，并用度矩阵D来保存计算结果；最后由相似矩阵A和度矩阵D经过并行化计算得到拉普拉斯矩阵L＝D-A。

7.根据权利要求1或6所述的异常数据检测中谱聚类算法并行化方法，其特征在于：步骤3中，对拉普拉斯矩阵进行标准归一化处理，获得标准归一化的拉普拉斯矩阵Lsym＝D-1/2LD-1/2＝I-D-1/2AD-1/2；<...

【专利技术属性】
技术研发人员：应时，周慧敏，成海龙，段晓宇，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人