日志解析方法、装置、电子设备及计算机程序产品制造方法及图纸

技术编号:39303788 阅读:8 留言:0更新日期:2023-11-12 15:53
本申请提供一种日志解析方法、装置、电子设备及计算机程序产品,属于数据挖掘技术领域。所述方法包括:对待解析日志进行聚类,并基于聚类的结果获取第一日志组集合;确定待解析日志对应的反义词词义库,并基于反义词词义库,对第一日志组集合中的每一个日志组分别进行再次分组,获取第二日志组集合;确定第二日志组集合中的每一个日志组分别对应的日志模板。本申请实施例通过对待解析日志进行聚类,把相似度高的日志聚合为同一个日志组,然后基于反义词词义库分别对每一个日志组再进行进一步的分组,不仅可以提高日志解析的准确性,而且可以广泛适用于各类云化电信网络系统日志,实现日志解析的通用化。实现日志解析的通用化。实现日志解析的通用化。

【技术实现步骤摘要】
日志解析方法、装置、电子设备及计算机程序产品


[0001]本申请涉及数据挖掘
,具体涉及一种日志解析方法、装置、电子设备及计算机程序产品。

技术介绍

[0002]虚拟化的网络和应用,会生成来自不同产品供应商的海量日志,这些日志包含了系统运作状态的重要信息。但由于日志数量的巨大和日志格式的多样化,给日志分析带来很大的困难。日志分析的首要任务是对海量的日志进行解析,准确高效的日志解析可以为后续的日志分析提供可靠的数据。
[0003]现有的日志解析技术主要包括基于规则的日志解析和基于启发法的日志解析。其中,基于规则的日志解析需要人工的规则定义,难以满足对海量日志的监控,从而难以保证海量日志的解析效率和准确度;基于启发法的日志解析技术在准确性和解析效率上有较大的提高,但是该技术的应用需要满足一定的假设,而通常不能保证每一个日志模板都会满足该假设,故该技术在应用上存在一定的局限性。
[0004]因此,如何提高日志解析的准确性,且同时能够实现日志解析的通用化,成为业界亟需解决的问题。

技术实现思路

[0005]针对现有技术存在的问题,本申请实施例提供一种日志解析方法、装置、电子设备及计算机程序产品。
[0006]第一方面,本申请实施例提供一种日志解析方法,包括:
[0007]对待解析日志进行聚类,并基于所述聚类的结果获取第一日志组集合;
[0008]确定所述待解析日志对应的反义词词义库,并基于所述反义词词义库,对所述第一日志组集合中的每一个日志组分别进行再次分组,获取第二日志组集合;
[0009]确定所述第二日志组集合中的每一个日志组分别对应的日志模板。
[0010]在一个实施例中,在所述对待解析日志进行聚类之前,所述方法还包括:
[0011]对所述待解析日志的动态内容字段进行清洗;
[0012]其中,所述动态内容字段包括以下任意一项或多项:
[0013]消息体、日志属性信息、动态参数、HTTP地址、ID信息、路径信息和数字信息。
[0014]在一个实施例中,所述对所述待解析日志的动态内容字段进行清洗,包括:
[0015]基于正则表达式,对所述待解析日志的动态内容字段进行清洗。
[0016]在一个实施例中,所述对待解析日志进行聚类,包括:
[0017]删除所述待解析日志中的重复内容,获取去重后的待解析日志;
[0018]对所述去重后的待解析日志进行聚类。
[0019]在一个实施例中,所述删除所述待解析日志中的重复内容,获取去重后的待解析日志,包括:
[0020]确定所述待解析日志中包括的相同的静态内容字段;
[0021]删除所述相同的静态内容字段中重复的静态内容字段,获取所述去重后的待解析日志。
[0022]在一个实施例中,所述对待解析日志进行聚类,包括:
[0023]基于层次聚类算法,对所述待解析日志进行聚类。
[0024]在一个实施例中,所述基于层次聚类算法,对所述待解析日志进行聚类,包括:
[0025]确定距离阈值,所述距离阈值用于表征日志相似度;
[0026]基于所述层次聚类算法、所述距离阈值和编辑距离算法,对所述待解析日志进行聚类。
[0027]第二方面,本申请实施例提供一种日志解析装置,包括:
[0028]第一获取模块,用于对待解析日志进行聚类,并基于所述聚类的结果获取第一日志组集合;
[0029]第二获取模块,用于确定所述待解析日志对应的反义词词义库,并基于所述反义词词义库,对所述第一日志组集合中的每一个日志组分别进行再次分组,获取第二日志组集合;
[0030]确定模块,用于确定所述第二日志组集合中的每一个日志组分别对应的日志模板。
[0031]第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的日志解析方法。
[0032]第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的日志解析方法。
[0033]本申请实施例提供的日志解析方法、装置、电子设备及计算机程序产品,通过对待解析日志进行聚类,把相似度高的日志聚合为同一个日志组,然后基于反义词词义库分别对每一个日志组再进行进一步的分组,不仅可以提高日志解析的准确性,而且可以广泛适用于各类云化电信网络系统日志,实现日志解析的通用化。
附图说明
[0034]为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]图1是本申请实施例提供的日志解析方法的流程示意图;
[0036]图2是本申请实施例提供的日志清洗的示意图;
[0037]图3是本申请实施例提供的日志聚类的示意图之一;
[0038]图4是本申请实施例提供的基于反义词词义库进行日志分组的伪代码示意图;
[0039]图5是本申请实施例提供的日志聚类的示意图之二;
[0040]图6是本申请实施例提供的VIM日志清洗结果示意图;
[0041]图7是本申请实施例提供的日志可视化系统示意图;
[0042]图8是本申请实施例提供的日志解析装置的结构示意图;
[0043]图9是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0044]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0045]随着网络功能虚拟化(NFV,Network Function Virtualization)技术的发展,电信网络逐步走向全面云化,这一转型可以有效实现网络部署的灵活性,并且降低其相关成本。与此同时,电信网络基于虚拟化和云化带来的网络结构的复杂度,给运维带来了更大的挑战。
[0046]虚拟化的网络和应用,每天都会生成来自不同产品供应商的海量日志,这些日志包含了系统运作状态的重要信息。但由于日志数量的巨大和日志格式的多样化,给日志分析带来很大的困难。作为日志分析的首要任务是对海量日志进行解析,准确高效的日志解析方案可以为后续的日志分析提供可靠的数据。
[0047]基于日志解析的大量需求,许多日志解析技术应运而生。目前主流的日志解析技术主要包括以下三种:
[0048](1)基于规则的日志解析:基于专业知识人工定义解析日志的正则表达式,或者用于过滤日志的关键字,然后利用主流的日志管理工具,如ELK(Elasticse本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种日志解析方法,其特征在于,包括:对待解析日志进行聚类,并基于所述聚类的结果获取第一日志组集合;确定所述待解析日志对应的反义词词义库,并基于所述反义词词义库,对所述第一日志组集合中的每一个日志组分别进行再次分组,获取第二日志组集合;确定所述第二日志组集合中的每一个日志组分别对应的日志模板。2.根据权利要求1所述的日志解析方法,其特征在于,在所述对待解析日志进行聚类之前,所述方法还包括:对所述待解析日志的动态内容字段进行清洗;其中,所述动态内容字段包括以下任意一项或多项:消息体、日志属性信息、动态参数、HTTP地址、ID信息、路径信息和数字信息。3.根据权利要求2所述的日志解析方法,其特征在于,所述对所述待解析日志的动态内容字段进行清洗,包括:基于正则表达式,对所述待解析日志的动态内容字段进行清洗。4.根据权利要求1

3任一项所述的日志解析方法,其特征在于,所述对待解析日志进行聚类,包括:删除所述待解析日志中的重复内容,获取去重后的待解析日志;对所述去重后的待解析日志进行聚类。5.根据权利要求4所述的日志解析方法,其特征在于,所述删除所述待解析日志中的重复内容,获取去重后的待解析日志,包括:确定所述待解析日志中包括的相同的静态内容字段;删除所...

【专利技术属性】
技术研发人员:陈锦潮邓羽周立栋陈君伟吴宝庭
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1