【技术实现步骤摘要】
针对无格式日志的在线解析方法及系统
本专利技术涉及计算机
,具体地涉及一种针对无格式日志的在线解析方法以及一种针对无格式日志的在线解析系统。
技术介绍
大规模系统通常会生成日志来记录系统状态和运行时的信息,每个日志都包含了时间戳和指示发生了什么事件的日志信息。这些有价值的日志信息经过日志解析后,可以使用机器学习的方法来进行异常检测,及时发现系统中的异常事件。每个日志消息由相应系统开发人员编写的一种日志语句打印,并记录一个特定的系统事件。开发人员编写的自由文本消息内容通常很难结构化,因为它是由常量字符串和变量值组成的。常量部分取决于日志消息的事件模板,在不同事件发生时保持固定。变量部分携带感兴趣的动态运行时信息(即参数),这些信息在不同的事件发生之间可能有所不同。日志解析的目标是将每个日志消息转换为参数和与之相关联的特定事件模板。日志解析的传统方法,是基于关键字匹配对日志进行解析和识别。更具体地说,每个日志消息都可以被解析成带有一些日志头如日期、级别以及包含参数(可变部分)的事件模板(固定部分)。如日志消息:2020-04-2820:15:54INFOReceivedblockblk_321ofsize67108864from10.251.126.5:50010,被解析成为时间、级别和事件,事件模板为"Receivedblock*ofsize*from*"。这种传统方法在面临复杂系统和多样性以及变化性的日志时十分低效。2017年《Drain:AnOnlineLogParsingApproa ...
【技术保护点】
1.一种针对无格式日志的在线解析方法,其特征在于,所述方法包括:/n日志预处理,对接收到的日志进行预处理,得到日志分组模板;/n模板聚合,将所述日志分组模板进行聚合分类,根据聚合分类结果更新日志对应的预设特征模板。/n
【技术特征摘要】
1.一种针对无格式日志的在线解析方法,其特征在于,所述方法包括:
日志预处理,对接收到的日志进行预处理,得到日志分组模板;
模板聚合,将所述日志分组模板进行聚合分类,根据聚合分类结果更新日志对应的预设特征模板。
2.根据权利要求1所述的针对无格式日志的在线解析方法,其特征在于,所述对接收到的日志进行预处理,得到日志分组模板,包括:
根据参数规则将日志中的参数变量替换为对应的字符串;
将参数变量替换完成后的日志切分为多个标记;
构建解析树对切分后的日志进行分类;
对于每一分类,根据相似度对该分类的日志进行分组;
对于每一日志分组,确定该日志分组是否存在预设分组模板:
若存在,比较该日志分组内的日志与该日志分组的预设分组模板位于相同位置的标记,若两个标记不相同,使用通配符代替预设分组模板相应位置的标记,得到日志分组模板;
若不存在,则新建日志分组,将新建的日志分组内的日志作为该日志的日志分组模板和该日志分组的预设分组模板。
3.根据权利要求2所述的针对无格式日志的在线解析方法,其特征在于,所述构建解析树,对切分后的日志进行分类,包括:
通过日志标记数和索引构建解析树,对切分后的日志进行分类。
4.根据权利要求2所述的针对无格式日志的在线解析方法,其特征在于,所述将所述日志分组模板进行聚合分类,根据聚合分类结果更新日志对应的预设特征模板,包括:
日志分组模板处理:将日志分组模板中相邻的通配符合并为一个通配符,得到第一日志分组模板;
判断所述第一日志分组模板是否存在对应的预设特征模板;若不存在,将所述第一日志分组模板新建为预设特征模板;
若存在,则计算第一日志分组模板与对应的预设特征模板之间的编辑距离;根据所述编辑距离计算第一日志分组模板与对应的预设特征模板之间的相似度;若所述相似度大于或等于设定阈值,则将第一日志分组模板与对应的预设特征模板进行合并,得到公共特征模板,并将预设特征模板更新为所述公共特征模板;若相似度小于设定阈值,则将所述第一日志分组模板新建为预设特征模板;
记录新建或更新的预设特征模板的ID。
5.根据权利要求4所述的针对无格式日志的在线解析方法,其特征在于,所述根据所述编辑距离计算第一日志分组模板与预设特征模板之间的相似度,包括:采用SimTpl=(n-LevDistance)/n计算相似度,
其中,LevDistance为所述编辑距离,SimTpl为所述相似度,n为所述第一日志分组模板字符数和预设特征模板字符数中的较大值。
6.根据权利要求3所述的针对无格式...
【专利技术属性】
技术研发人员:王高杰,王智民,
申请(专利权)人:北京六方云信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。