一种日志的聚类解析方法、装置及设备制造方法及图纸

技术编号:35315624 阅读:16 留言:0更新日期:2022-10-22 13:08
本发明专利技术公开了一种日志的聚类解析方法、装置及设备。其中,所述方法包括:获取待解析日志数据的日志序列;根据所述日志序列,获得所述待解析日志数据的常量特征;根据所述常量特征,确定候选聚类簇;根据所述日志序列的元素在聚类簇中的出现频率,加权计算所述待解析日志数据与所述候选聚类簇的相似度;根据所述相似度和预设相似度阈值,在所述候选聚类簇中确定所述待解析日志数据所属的目标聚类簇。本发明专利技术的方案可以有效提高日志解析的准确率。明的方案可以有效提高日志解析的准确率。明的方案可以有效提高日志解析的准确率。

【技术实现步骤摘要】
一种日志的聚类解析方法、装置及设备


[0001]本专利技术涉及信息处理
,特别是指一种日志的聚类解析方法、装置及设备。

技术介绍

[0002]现有日志解析算法中,基于日志的聚类解析算法,常常遇见因为变量相同不同模式的日志聚在一个聚类簇中,导致日志解析错误。

技术实现思路

[0003]本专利技术要解决的技术问题是如何提供一种日志的聚类解析方法、装置及设备,有效缓解因为相同变量将不同日志模式聚在一起的情况,有效提高日志解析的准确率。
[0004]为解决上述技术问题,本专利技术的技术方案如下:一种日志的聚类解析方法,包括:获取待解析日志数据的日志序列;根据所述日志序列,获得所述待解析日志数据的常量特征;根据所述常量特征,确定候选聚类簇;根据所述日志序列的元素在聚类簇中的出现频率,加权计算所述待解析日志数据与所述候选聚类簇的相似度;根据所述相似度和预设相似度阈值,在所述候选聚类簇中确定所述待解析日志数据所属的目标聚类簇。
[0005]可选的,获取待解析日志数据的日志序列,包括:按照所述待解析日志数据对应的日志模式中的分隔符对所述待解析日志数据进行处理,获得所述日志序列,所述日志序列包括按顺序排列的多个元素。
[0006]可选的,根据所述日志序列,获得所述待解析日志数据的常量特征,包括:遍历所述日志序列,提取所述日志序列存在于常量字典中的多个目标元素,所述常量字典包括多个元素;将所述多个目标元素用预设连接符连接,得到所述待解析日志数据的常量特征。
[0007]可选的,根据所述常量特征,确定候选聚类簇,包括:在常量特征索引中,搜索所述常量特征,若搜索到所述常量特征,获取所述常量特征对应的多个候选聚类簇;若未搜索到所述常量特征,以所述常量特征为新的常量特征索引,并在该新的常量特征索引下建立新的聚类簇。
[0008]可选的,根据所述日志序列的元素在聚类簇中的出现频率,加权计算所述待解析日志数据与所述候选聚类簇的相似度,包括:通过公式:计算所述待解析日志数据与所述候选聚类簇的相似度;其中,为待解析日志数据;
c为候选聚类簇中的聚类簇;sim(l,c)为待解析日志数据与候选聚类簇c的相似度;l.token_set为待解析日志数据的token_set;c.token_set为聚类簇c的token_set;为l.token_set和c.token_set共有的元素;为元素的权重;c.log_num为聚类簇所包含日志的数量;c.token_fre[token]为候选聚类簇的字典结构中的元素;len(c.token_set)为所述字典结构中的元素的个数;token_set为进入该聚类簇的第一条日志数据对应的日志模式进行处理得到的元素集合。
[0009]可选的,根据所述相似度和预设相似度阈值,在所述候选聚类簇中确定所述待解析日志数据所属的目标聚类簇,包括:若所述相似度大于或者等于预设相似度阈值,则根据所述待解析日志数据的日志序列,更新所述待解析日志数据所属的第一目标聚类簇的属性信息;否则,在所述待解析日志数据的常量特征的索引下建立第二目标聚类簇,并根据所述待解析日志数据的日志序列,初始化所述第二目标聚类簇的属性信息。
[0010]可选的,还包括:获得所述目标聚类簇中的所有元素在所述目标聚类簇所包含日志数据中出现的频率;根据所述频率,计算所述目标聚类簇的置信度,并输出。
[0011]本专利技术还提供一种日志的聚类解析装置,包括:获取模块,用于获取待解析日志数据的日志序列;处理模块,用于根据所述日志序列,获得所述待解析日志数据的常量特征;根据所述常量特征,确定候选聚类簇;根据所述日志序列的元素在聚类簇中的出现频率,加权计算所述待解析日志数据与所述候选聚类簇的相似度;根据所述相似度和预设相似度阈值,在所述候选聚类簇中确定所述待解析日志数据所属的目标聚类簇。
[0012]本专利技术还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上所述的方法。
[0013]本专利技术还提供一种计算机可读存储介质,存储指令,当所述指令在计算机上运行时,使得计算机执行如上所述的方法。
[0014]本专利技术的上述方案至少包括以下有益效果:本专利技术的上述方案,通过获取待解析日志数据的日志序列;根据所述日志序列,获得所述待解析日志数据的常量特征;根据所述常量特征,确定候选聚类簇;根据所述日志序列的元素在聚类簇中的出现频率,加权计算所述待解析日志数据与所述候选聚类簇的相似度;根据所述相似度和预设相似度阈值,在所述候选聚类簇中确定所述待解析日志数据所
属的目标聚类簇。有效缓解现有聚类算法因为相同变量将不同模式聚在一起的情况,可对日志进行精确分类,有效提高日志解析的准确率。
附图说明
[0015]图1为本专利技术实施例提供的日志的聚类解析方法的流程示意图;图2为本专利技术实施例提供的所述聚类簇置信度评价流程图;图3为本专利技术实施例提供的日志1特征常量的获取过程示意图;图4为本专利技术实施例提供的日志2特征常量的获取过程示意图;图5为本专利技术实施例提供的候选聚类簇1的示意图;图6为本专利技术实施例提供的日志3特征常量的获取过程示意图;图7为本专利技术实施例提供的日志4特征常量的获取过程示意图;图8为本专利技术实施例提供的候选聚类簇2的示意图;图9为本专利技术实施例提供的日志的聚类解析方法的又一具体的流程示意图;图10为本专利技术实施例提供的日志的聚类解析装置的模块示意图。
具体实施方式
[0016]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0017]首先,对本专利技术的实施例中的相关术语进行解释:日志模式:由静态文本组成的日志模板,其中,动态变量由表示,如Node 000 cannot connect to Node 001的日志模式为:。
[0018]token:代表日志的词或者符号或者元素,如日志Node 000 cannot connect to Node 001的token有7个:Node, 000, cannot, connect, to, Node, 001。
[0019]token序列:被排成一排的token,序列中token之间的顺序不可替换。日志经过处理之后,可以转化为一个token序列,如日志Node 000 cannot connect to Node 001,可转化为token序列[Node, 000, cannot, connect, to, Node, 001]。
[0020]token集合:日志中所含token的集合,集合内元素唯一,不能重复,集合内元素无顺序关系。如日志Node 000 cannot connect to Node 001的token集合为有6个元素:{Node, 000, cannot, 本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种日志的聚类解析方法,其特征在于,包括:获取待解析日志数据的日志序列;根据所述日志序列,获得所述待解析日志数据的常量特征;根据所述常量特征,确定候选聚类簇;根据所述日志序列的元素在聚类簇中的出现频率,加权计算所述待解析日志数据与所述候选聚类簇的相似度;根据所述相似度和预设相似度阈值,在所述候选聚类簇中确定所述待解析日志数据所属的目标聚类簇。2.根据权利要求1所述的日志的聚类解析方法,其特征在于,获取待解析日志数据的日志序列,包括:按照所述待解析日志数据对应的日志模式中的分隔符对所述待解析日志数据进行处理,获得所述日志序列,所述日志序列包括按顺序排列的多个元素。3.根据权利要求1所述的日志的聚类解析方法,其特征在于,根据所述日志序列,获得所述待解析日志数据的常量特征,包括:遍历所述日志序列,提取所述日志序列存在于常量字典中的多个目标元素,所述常量字典包括多个元素;将所述多个目标元素用预设连接符连接,得到所述待解析日志数据的常量特征。4.根据权利要求1所述的日志的聚类解析方法,其特征在于,根据所述常量特征,确定候选聚类簇,包括:在常量特征索引中,搜索所述常量特征,若搜索到所述常量特征,获取所述常量特征对应的多个候选聚类簇;若未搜索到所述常量特征,以所述常量特征为新的常量特征索引,并在该新的常量特征索引下建立新的聚类簇。5.根据权利要求1所述的日志的聚类解析方法,其特征在于,根据所述日志序列的元素在聚类簇中的出现频率,加权计算所述待解析日志数据与所述候选聚类簇的相似度,包括:通过公式:计算所述待解析日志数据与所述候选聚类簇的相似度;其中,为待解析日志数据;c为候选聚类簇中的聚类簇;sim(l,c)为待解析日志数据与候选聚类簇c的相似度;l.token_set为待解析日志数据的token_set;c.token_set为聚类簇c的token_set;为l.token_...

【专利技术属性】
技术研发人员:钟威郑铁樵张博
申请(专利权)人:云智慧北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1