基于分布式质心筛选与层次聚类的日志分类方法和装置制造方法及图纸

技术编号:38568636 阅读:10 留言:0更新日期:2023-08-22 21:05
本申请提供一种基于分布式质心筛选与层次聚类的日志分类方法和装置,涉及大数据领域。该方法包括:获取N个日志样本集合和对应的副本,确定出每个日志样本集合中的K个中心;根据每个日志样本集合中的K个中心,对该日志样本集合的副本中的日志样本进行簇划分,得到该副本的K个簇和每个簇的簇中心;根据该副本中每个簇包含的日志样本的数量,在该副本的所有簇中确定出优质簇和该优质簇的簇中心;将所有副本的优质簇的簇中心组成优质点集合;根据优质点集合中各个优质点的余弦距离,对各个优质点进行融合,得到目标优质点集合;将目标优质点集合中的优质点作为初始质心,进行Kmeans聚类。本方案提高了聚类算法的收敛速度和聚类效果。果。果。

【技术实现步骤摘要】
基于分布式质心筛选与层次聚类的日志分类方法和装置


[0001]本申请涉及大数据
,尤其涉及一种基于分布式质心筛选与层次聚类的日志分类方法和装置。

技术介绍

[0002]日志聚类的目的在于从海量的日志集合中找出相似度较高的日志,用户在使用应用程序的过程中出现的错误问题都会通过日志进行记录,而在进行错误问题分析时,就需要将错误类型相同的日志划分到一个组里,然后分门别类的去挖掘用户使用的习惯的可能存在的错误方法,对后续遇到类似针对方法给出建议。
[0003]目前,现有技术通常是采用k均值聚类算法(K

means clustering algorithm,简称kmeans聚类算法)进行文本聚类,在初始化阶段需要随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。
[0004]但是,现有的kmeans聚类算法在初始化阶段进行随机抽取初始质心,这样会导致抽取的质心过于分散或集中,不是特别均匀,从而使聚类收敛速度缓慢且聚类效果不好。

技术实现思路

[0005]本申请提供一种基于分布式质心筛选与层次聚类的日志分类方法和装置,用以解决目前聚类算法收敛速度缓慢且聚类效果不好的问题。
[0006]第一方面,本申请提供一种基于分布式质心筛选与层次聚类的日志分类方法,包括:
[0007]获取N个日志样本集合和副本,确定出每个日志样本集合中的K个中心,所述副本与对应的日志样本集合中的日志样本相同,N,K为正整数,不同日志样本集合中的K取值不相同;
[0008]根据每个日志样本集合中的K个中心,确定该日志样本集合的副本中的K个簇和每个簇的簇中心,不同副本中的K取值不相同;
[0009]根据该副本中每个簇包含的日志样本的数量,在该副本的所有簇中确定出优质簇和该优质簇的簇中心;
[0010]将所有副本的优质簇的簇中心组成优质点集合;
[0011]根据所述优质点集合中各个优质点的余弦距离,对各个优质点进行融合,得到目标优质点集合;
[0012]将目标优质点集合中的优质点作为初始质心,进行Kmeans聚类。
[0013]第二方面,本申请提供一种基于分布式质心筛选与层次聚类的日志分类装置,包括:
[0014]获取模块,用于获取N个日志样本集合和副本,确定出每个日志样本集合中的K个中心,所述副本与对应的日志样本集合中的日志样本相同,N,K为正整数,不同日志样本集
合中的K取值不相同;
[0015]簇划分模块,用于根据每个日志样本集合中的K个中心,确定该日志样本集合的副本中的K个簇和每个簇的簇中心,不同副本中的K取值不相同;
[0016]优质簇确定模块,用于根据该副本中每个簇包含的日志样本的数量,在该副本的所有簇中确定出优质簇和该优质簇的簇中心;
[0017]优质点集合模块,用于将所有副本的优质簇的簇中心组成优质点集合;
[0018]目标点集合模块,用于根据所述优质点集合中各个优质点的余弦距离,对各个优质点进行融合,得到目标优质点集合;
[0019]聚类模块,用于将目标优质点集合中的优质点作为初始质心,进行Kmeans聚类。
[0020]第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如上述的方法。
[0021]第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的方法。
[0022]第五方面,本申请提供一种计算机程序产品,该计算机程序产品被处理器执行时用于实现如上述的方法。
[0023]本申请提供的基于分布式质心筛选与层次聚类的日志分类方法和装置,通过对海量日志初始化方式进行了分布式并行化改进,减少初始化的时间,同时从副本中确定出优质簇和优质簇的簇中心,并进行融合,得到目标优质点集合,并从中选取出优质点作为初始质心,能够基于簇中心快速的得到更加均匀分散的初始质心,从而可以避免初始化阶段随机抽取初始质心,提高目前聚类的效果。
附图说明
[0024]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0025]图1为本申请实施例提供的Kmeans聚类算法的聚类效果示意图;
[0026]图2为本申请实施例提供的基于分布式质心筛选与层次聚类的日志分类方法的流程示意图;
[0027]图3为本申请实施例提供的日志样本簇划分示意图;
[0028]图4为本申请实施例提供的基于分布式质心筛选与层次聚类的日志分类方法的整体流程图;
[0029]图5为本申请实施例提供的基于分布式质心筛选与层次聚类的日志分类装置的结构示意图;
[0030]图6为本申请实施例提供的电子设备的结构示意图。
[0031]通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
[0032]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0033]需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
[0034]需要说明的是,本申请提供的基于分布式质心筛选与层次聚类的日志分类方法和装置可用于大数据领域,也可用于除大数据之外的任意领域,本申请提供的基于分布式质心筛选与层次聚类的日志分类方法和装置置的应用领域不作限定。
[0035]K均值聚类算法(k

means clustering algorithm):是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。
[0036]文本聚类是找到相似的文本,对于数据挖掘很有意义。传统的K均值聚类算法存在如下的缺点:(1)在初始化阶段选择质心具有随机性,初始质心选取过于邻近或分散,不够均匀,这会导致算法收敛速度缓慢。(2)初始质心选取到离散点或噪声数据都不利于后续聚类的收敛,造成算法聚类效本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分布式质心筛选与层次聚类的日志分类方法,其特征在于,包括:获取N个日志样本集合和副本,确定出每个日志样本集合中的K个中心,所述副本与对应的日志样本集合中的日志样本相同,N,K为正整数,不同日志样本集合中的K取值不相同;根据每个日志样本集合中的K个中心,确定该日志样本集合的副本中的K个簇和每个簇的簇中心,不同副本中的K个簇的取值不相同;根据该副本中每个簇包含的日志样本的数量,在该副本的所有簇中确定出优质簇和该优质簇的簇中心;将所有副本的优质簇的簇中心组成优质点集合;根据所述优质点集合中各个优质点的余弦距离,对各个优质点进行融合,得到目标优质点集合;将目标优质点集合中的优质点作为初始质心,进行Kmeans聚类。2.根据权利要求1所述的方法,其特征在于,还包括:根据日志样本集合的数量N,计算得到Kn的取值;根据所述Kn的取值,确定每个日志样本集合中的中心数量、每个副本中的簇数量。3.根据权利要求2所述的方法,其特征在于,确定每个日志样本的副本中的簇数量,包括:获取预先配置的图函数的总数量S和每个图函数对应处理的副本,每个图函数用于在该图函数对应处理的副本的所有簇中确定出优质簇和该优质簇的簇中心;根据所述总数量S和所述Kn的取值,确定每个图函数对应处理的副本中的簇数量。4.根据权利要求3所述的方法,其特征在于,所述根据所述总数量S和所述Kn的取值,确定每个图函数对应处理的副本中的簇数量,包括:Si=Kn

([S/2]+1

i)上式中,Si为第i个图函数对应的副本中的簇数量,[S/2]为配置的图函数的总数量S/2之后取整,i为正整数。5.根据权利要求1所述的方法,其特征在于,所述根据该副本中每个簇包含的日志样本的数量,在该副本的所有簇中确定出优质簇和该优质簇的簇中心,包括:将该副本中每个簇包含的日志样本的数量与第一预设阈值对比;若该簇中包含的日志样本的数量大于该第一预设阈值,则获取该簇的簇中心的密度;在该簇的簇中心的密度大于密度阈值时,确定该簇为优质簇。6.根据权利要求5所述的方法,其特征在于,所述获取该簇的簇中心的密度,包括:获取该簇中与该簇中心的余弦距离小于第二预设阈值的日志样本的个数,作为该簇中心的密度。7.根据权利要求1所述的方法,其特征在于,所述根据所述优质...

【专利技术属性】
技术研发人员:程永龙王钰范淑君王睿
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1