当前位置: 首页 > 专利查询>武汉大学专利>正文

一种异常数据检测中谱聚类算法并行化方法及系统技术方案

技术编号:28941747 阅读:24 留言:0更新日期:2021-06-18 21:47
本发明专利技术公开了一种异常数据检测中谱聚类算法并行化方法及系统,首先将待聚类分析的数据集样本进行数据分布式存储;然后并行化构建数据集样本的相似矩阵;并行化计算相似矩阵的拉普拉斯矩阵;并行化计算拉普拉斯矩阵的特征向量,获得维度为n×d的特征向量矩阵;最后并行化执行K‑mean聚类算法。经实验结果表明,本发明专利技术在面对海量日志数据的聚类分析时,在保证良好聚类效果的同时,算法的执行效率也得到显著提升。

【技术实现步骤摘要】
一种异常数据检测中谱聚类算法并行化方法及系统
本专利技术属于计算机软件
,涉及一种谱聚类算法并行化化方法及系统,具体涉及一种异常数据检测中谱聚类算法并行化方法及系统。
技术介绍
大型系统中的软件在实际运营过程中,处理和产生的数据十分庞大。这些数据有时能达到TB甚至PB级,有如此之多的数据需要处理和产生,大型系统出现故障就在所难免。而故障日志用来记录系统故障的相关信息,随着系统规模逐渐扩大,日志的规模呈指数型增长,日志种类也越来越复杂。一旦计算机系统出现性能故障,就必须要尽快且准确的进行故障的定位从而进行故障的修复。否则将会影响正常的社会生活并造成巨大的经济损失,严重的情况下还可能影响到社会安定。当大型计算机系统出现故障时,如何从多类别大规模的日志中区分故障日志和正常日志,并将故障诊断信息及时反馈给相应的开发人员并及时排除系统故障成为了一种挑战。并且面对海量数据,单机的存储能力受到限制,存储系统的稳定性和扩展性受到影响,也会使得数据管理与分析变的更加复杂。解决异常数据检测问题,通常的做法是使用聚类算法。常见的聚类算法有常见的聚类算法有K-means聚类、DBSCAN聚类、层次聚类等。但是当数据规模巨大时,串行执行的聚类算法存在多次迭代计算,计算复杂度会呈指数级增长,算法的执行效率会变得低下。因此为了走出海量数据带来得困境,本申请将聚类算法并行化,就能在正确执行异常日志检测的基础上解决算法时间复杂度的问题。
技术实现思路
为了解决单机储存系统无法满足对海量数据地储存要求,以及面对海量数据,谱聚类算法执行效率较低的情况,本专利技术提出一种异常数据检测中谱聚类算法并行化方法及系统。本专利技术的方法所采用的技术方案是:一种异常数据检测中谱聚类算法并行化方法,包括以下步骤:步骤1:将待聚类分析的数据集样本进行数据分布式存储;步骤2:并行化构建数据集样本的相似矩阵A;从HDFS中读取数据集样本,将数据集样本进行向量化,并利用开源并行计算框架Spark中的弹性分布式数据集RDD形式将向量化的数据集样本进行存储,然后构建数据向量空间,接着通过并行计算数据集样本之间的相似性,生成数据集样本的相似矩阵A;步骤3:并行化计算相似矩阵A的拉普拉斯矩阵;步骤4:并行化计算拉普拉斯矩阵的特征向量,获得维度为n×d的特征向量矩阵,其中n表示样本个数,d表示特征向量的维度;步骤5:并行化执行K-mean聚类算法。本专利技术的系统所采用的技术方案是:一种异常数据检测中谱聚类算法并行化系统,包括以下模块:模块一,用于将待聚类分析的数据集样本进行数据分布式存储;模块二,用于并行化构建数据集样本的相似矩阵A;从HDFS中读取数据集样本,将数据集样本进行向量化,并利用开源并行计算框架Spark中的弹性分布式数据集RDD形式将向量化的数据集样本进行存储,然后构建数据向量空间,接着通过并行计算数据集样本之间的相似性,生成数据集样本的相似矩阵A;模块三,用于并行化计算相似矩阵A的拉普拉斯矩阵;模块四,用于并行化计算拉普拉斯矩阵的特征向量,获得维度为n×d的特征向量矩阵,其中n表示样本个数,d表示特征向量的维度;模块五,用于并行化执行K-mean聚类算法。相对于现有技术,本专利技术的有益效果为:(1)大型计算机系统产生的日志信息往往是海量的。利用单机来处理、分析这些海量数据往往达不到了存储的要求,并且对于存储系统的稳定性和拓展性也会带来巨大压力。利用开源分布式文件系统HDFS实现数据分布式存储可以很好的解决上述问题。利用HDFS实现数据分布式存储,大大提升了存储能力,是数据层面的并行。(2)数据进行分布式存储后,利用现有的Spark开源并行计算框架,将训练谱聚类算法任务划分为多个子任务去执行同时提供缓存操作来缓存计算的中间结果,避免在迭代式计算中反复进行I/O切换操作带来的时间消耗。为构建低延迟且稳定的算法模型提供底层基础。针对谱聚类算法应用于海量数据时运行效率较低的问题,在分析谱聚类算法的基本流程基础上,依托Spark并行计算框架,分离出四个可并行化实现的模块:并行化构建相似度矩阵、并行化计算拉普拉斯矩阵、并行化计算特征向量、和并行化实现K-means聚类;通过将计算任务分解为小的并行任务,减小计算任务的规模,降低计算的时间复杂度,大大提高了算法效率。(3)本专利技术的并行化谱聚类算法的第一步是并行化构建相似矩阵。首先从HDFS中读取数据集样本,将数据集样本进行向量化,并利用开源并行计算框架Spark中的弹性分布式数据集RDD形式将向量化的数据集样本进行存储,然后构建数据向量空间,接着通过并行计算数据样本之间的相似性,生成数据样本的相似矩阵A。为了更加节省存储空间,利用K最近邻图方法,完成对相似举证A的稀疏化。(4)本专利技术的并行化谱聚类算法的第二步是并行化计算拉普拉斯矩阵。利用相似矩阵A,构造出有n个节点的图G,其中相似矩阵A的元素值就是图G中边的值。算出图G中每个节点的度,并用度矩阵D来保存计算结果。最后由相似矩阵A和度矩阵D经过并行化计算得到拉普拉斯矩阵。并行化计算的过程中将矩阵相乘均转换为矩阵的行列变换,计算的时间复杂度从O(n3)下降为O(n),提高了计算效率。(5)本专利技术的并行化谱聚类算法的第三步为并行化计算特征向量。利用Lanczos算法对拉普拉斯矩阵进行降维,把实对称矩阵转换为三对角矩阵,从而降低使用SVD求解特征向量的难度。谱聚类算法一般选取前k个最大特征值对应的特征向量来进行分析,而Lanczos算法在迭代的过程中,较大的特征值总是先收敛,提高了计算效率。(6)本专利技术的并行化谱聚类算法的最后一步是实现并行化的K-mean聚类算法,将n个特征向量数据划分到k个簇中,每个数据被划分到距离其最近的簇类中心所代表的簇中。通过并行化计算各数据点到中心点的距离,可将时间复杂度由O(nk2)降低至O(nk2/m),m为集群中机器的个数,提高了计算效率。附图说明图1为本专利技术实施例的方法流程图;图2为本专利技术实施例的数据分布式存储的详细过程示意图;图3为本专利技术实施例的相似度矩阵对称化过程示意图;图4为本专利技术实施例的矩阵与向量相乘并行化计算过程示意图;图5为本专利技术实施例的K-means聚类并行化实现过程示意图。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。请见图1,本专利技术提供的一种异常数据检测中谱聚类算法并行化方法,包括以下步骤:步骤1:将待聚类分析的数据集样本进行数据分布式存储;本实施例中,将待聚类分析的数据集样本,划分为若干数据块,并将这些数据块抽象为RDD对象,将这些RDD分配给Spark集群中的若干工作节点进行存储,存入开源分布式文件系统HDFS中。请见图2,展示本文档来自技高网...

【技术保护点】
1.一种异常数据检测中谱聚类算法并行化方法,其特征在于,包括以下步骤:/n步骤1:将待聚类分析的数据集样本进行数据分布式存储;/n步骤2:并行化构建数据集样本的相似矩阵A;/n从HDFS中读取数据集样本,将数据集样本进行向量化,并利用开源并行计算框架Spark中的弹性分布式数据集RDD形式将向量化的数据集样本进行存储,然后构建数据向量空间,接着通过并行计算数据集样本之间的相似性,生成数据集样本的相似矩阵A;/n步骤3:并行化计算相似矩阵A的拉普拉斯矩阵;/n步骤4:并行化计算拉普拉斯矩阵的特征向量,获得维度为n×d的特征向量矩阵,其中n表示样本个数,d表示特征向量的维度;/n步骤5:并行化执行K-mean聚类算法。/n

【技术特征摘要】
1.一种异常数据检测中谱聚类算法并行化方法,其特征在于,包括以下步骤:
步骤1:将待聚类分析的数据集样本进行数据分布式存储;
步骤2:并行化构建数据集样本的相似矩阵A;
从HDFS中读取数据集样本,将数据集样本进行向量化,并利用开源并行计算框架Spark中的弹性分布式数据集RDD形式将向量化的数据集样本进行存储,然后构建数据向量空间,接着通过并行计算数据集样本之间的相似性,生成数据集样本的相似矩阵A;
步骤3:并行化计算相似矩阵A的拉普拉斯矩阵;
步骤4:并行化计算拉普拉斯矩阵的特征向量,获得维度为n×d的特征向量矩阵,其中n表示样本个数,d表示特征向量的维度;
步骤5:并行化执行K-mean聚类算法。


2.根据权利要求1所述的异常数据检测中谱聚类算法并行化方法,其特征在于:步骤1中,将待聚类分析的数据集样本,划分为若干数据块,并将这些数据块抽象为RDD对象,将这些RDD分配给Spark集群中的若干工作节点进行存储,存入开源分布式文件系统HDFS中。


3.根据权利要求1所述的异常数据检测中谱聚类算法并行化方法,其特征在于:步骤2中,利用TF-IDF和余弦相似度计算两数据元素之间的相似性,具体实现包括以下子步骤:
步骤2.1:使用TF-IDF算法的得到各数据元素的关键词;
步骤2.2:选取两个数据元素的关键词构成关键词集合,计算每个数据元素对于这个关键词集合的词频,根据词频生成各自词频向量;
步骤2.3:计算两个数据元素中词频向量的余弦相似度,获得两数据元素之间的相似性。


4.根据权利要求3所述的异常数据检测中谱聚类算法并行化方法,其特征在于:步骤2.3中,由向量化方法得到各元素的值并构建日志向量数据,对所有数据向量与自身做笛卡尔积得到,得到向量对(vi,vj),构成日志向量空间,将向量对分配到多个节点上使用相似度计算方法来并行计算数据之间的相似度,最终得到相似矩阵A。


5.根据权利要求1-4任意一项所述的异常数据检测中谱聚类算法并行化方法,其特征在于:步骤2中,利用K最近邻图方法,完成对相似矩阵A的稀疏化;即对于每一个数据元素,只保存了与其最近的k个数据元素的相似性,而忽略其他数据元素的相似性;同时使用逆向合并的方法,即从邻接矩阵中得到邻接表,进而得知对于任意数据元素xi与其相邻点集合{xj}的边信息edges[i][j],从{xj}集合中每个点出发找出到xi的边信息edges[j][i],综合edges[i][j]和edges[j][i],补充因使用k-近邻图所缺失的相似度数据,实现相似度矩阵的对称化。


6.根据权利要求1所述的异常数据检测中谱聚类算法并行化方法,其特征在于:步骤3中,利用相似矩阵A,构造出包含n个节点的图G,图中每个节点表示一个数据元素,每条边的值对应相似矩阵A的元素值;算出图G中每个节点的度,并用度矩阵D来保存计算结果;最后由相似矩阵A和度矩阵D经过并行化计算得到拉普拉斯矩阵L=D-A。


7.根据权利要求1或6所述的异常数据检测中谱聚类算法并行化方法,其特征在于:步骤3中,对拉普拉斯矩阵进行标准归一化处理,获得标准归一化的拉普拉斯矩阵Lsym=D-1/2LD-1/2=I-D-1/2AD-1/2;<...

【专利技术属性】
技术研发人员:应时周慧敏成海龙段晓宇
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1