基于分布式质心筛选与层次聚类的日志分类方法和装置制造方法及图纸

技术编号：38568636 阅读：10 留言：0更新日期：2023-08-22 21:05

本申请提供一种基于分布式质心筛选与层次聚类的日志分类方法和装置，涉及大数据领域。该方法包括：获取N个日志样本集合和对应的副本，确定出每个日志样本集合中的K个中心；根据每个日志样本集合中的K个中心，对该日志样本集合的副本中的日志样本进行簇划分，得到该副本的K个簇和每个簇的簇中心；根据该副本中每个簇包含的日志样本的数量，在该副本的所有簇中确定出优质簇和该优质簇的簇中心；将所有副本的优质簇的簇中心组成优质点集合；根据优质点集合中各个优质点的余弦距离，对各个优质点进行融合，得到目标优质点集合；将目标优质点集合中的优质点作为初始质心，进行Kmeans聚类。本方案提高了聚类算法的收敛速度和聚类效果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
基于分布式质心筛选与层次聚类的日志分类方法和装置

[0001]本申请涉及大数据
，尤其涉及一种基于分布式质心筛选与层次聚类的日志分类方法和装置。

技术介绍

[0002]日志聚类的目的在于从海量的日志集合中找出相似度较高的日志，用户在使用应用程序的过程中出现的错误问题都会通过日志进行记录，而在进行错误问题分析时，就需要将错误类型相同的日志划分到一个组里，然后分门别类的去挖掘用户使用的习惯的可能存在的错误方法，对后续遇到类似针对方法给出建议。
[0003]目前，现有技术通常是采用k均值聚类算法(K
‑
means clustering algorithm，简称kmeans聚类算法)进行文本聚类，在初始化阶段需要随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。
[0004]但是，现有的kmeans聚类算法在初始化阶段进行随机抽取初始质心，这样会导致抽取的质心过于分散或集中，不是特别均匀，从而使聚类收敛速度缓慢且聚类效果不好。

技术实现思路

[0005]本申请提供一种基于分布式质心筛选与层次聚类的日志分类方法和装置，用以解决目前聚类算法收敛速度缓慢且聚类效果不好的问题。
[0006]第一方面，本申请提供一种基于分布式质心筛选与层次聚类的日志分类方法，包括：
[0007]获取N个日志样本集合和副本，确定出每个日志样本集合中的K个中心，所述副本与对应的日志样本集合中的日志样本相同，N，K为...

【技术保护点】

【技术特征摘要】
1.一种基于分布式质心筛选与层次聚类的日志分类方法，其特征在于，包括：获取N个日志样本集合和副本，确定出每个日志样本集合中的K个中心，所述副本与对应的日志样本集合中的日志样本相同，N，K为正整数，不同日志样本集合中的K取值不相同；根据每个日志样本集合中的K个中心，确定该日志样本集合的副本中的K个簇和每个簇的簇中心，不同副本中的K个簇的取值不相同；根据该副本中每个簇包含的日志样本的数量，在该副本的所有簇中确定出优质簇和该优质簇的簇中心；将所有副本的优质簇的簇中心组成优质点集合；根据所述优质点集合中各个优质点的余弦距离，对各个优质点进行融合，得到目标优质点集合；将目标优质点集合中的优质点作为初始质心，进行Kmeans聚类。2.根据权利要求1所述的方法，其特征在于，还包括：根据日志样本集合的数量N，计算得到Kn的取值；根据所述Kn的取值，确定每个日志样本集合中的中心数量、每个副本中的簇数量。3.根据权利要求2所述的方法，其特征在于，确定每个日志样本的副本中的簇数量，包括：获取预先配置的图函数的总数量S和每个图函数对应处理的副本，每个图函数用于在该图函数对应处理的副本的所有簇中确定出优质簇和该优质簇的簇中心；根据所述总数量S和所述Kn的取值，确定每个图函数对应处理的副本中的簇数量。4.根据权利要求3所述的方法，其特征在于，所述根据所述总数量S和所述Kn的取值，确定每个图函数对应处理的副本中的簇数量，包括：Si＝Kn
‑
([S/2]+1
‑
i)上式中，Si为第i个图函数对应的副本中的簇数量，[S/2]为配置的图函数的总数量S/2之后取整，i为正整数。5.根据权利要求1所述的方法，其特征在于，所述根据该副本中每个簇包含的日志样本的数量，在该副本的所有簇中确定出优质簇和该优质簇的簇中心，包括：将该副本中每个簇包含的日志样本的数量与第一预设阈值对比；若该簇中包含的日志样本的数量大于该第一预设阈值，则获取该簇的簇中心的密度；在该簇的簇中心的密度大于密度阈值时，确定该簇为优质簇。6.根据权利要求5所述的方法，其特征在于，所述获取该簇的簇中心的密度，包括：获取该簇中与该簇中心的余弦距离小于第二预设阈值的日志样本的个数，作为该簇中心的密度。7.根据权利要求1所述的方法，其特征在于，所述根据所述优质...

【专利技术属性】
技术研发人员：程永龙，王钰，范淑君，王睿，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人