一种日志解析方法、装置及设备制造方法及图纸

技术编号:33745959 阅读:9 留言:0更新日期:2022-06-08 21:45
本发明专利技术公开了一种日志解析方法、装置及设备,方法包括:获取待解析日志数据;将所述待解析日志数据进行分词处理,得到日志序列;确定所述日志序列的子序列n

【技术实现步骤摘要】
一种日志解析方法、装置及设备


[0001]本专利技术涉及信息处理
,特别是指一种日志解析方法、装置及设备。

技术介绍

[0002]日志是一种半结构化数据,记录着系统的行为及故障等信息,自动化日志分析可以帮助运维人员监控系统状态,检测系统异常。一般的,日志解析是自动化日志分析中的第一步,解析的结果可以用于异常检测、故障诊断等下游任务中。
[0003]现有的一些日志解析算法,已经能取得非常高的解析精度。而随着信息化发展,日志数量增长迅速,在不损失解析精度的前提下,提高解析算法的效率及并行能力将是解析算法中一个非常重要的方向。

技术实现思路

[0004]本专利技术要解决的技术问题是如何提供一种日志解析方法、装置及设备,以实现海量日志的高效解析,有效提高运维系统的异常检测、故障诊断等下游任务的准确率。
[0005]为解决上述技术问题,本专利技术的技术方案如下:一种日志解析方法,包括:获取待解析日志数据;将所述待解析日志数据进行分词处理,得到日志序列;确定所述日志序列的子序列n

gram,所述n

gram是按照长度n切分所述日志序列,得到的长度为n的子序列,n为正整数;获取所述n

gram在n

gram频率字典中的频率,所述n

gram频率字典包括多个n

gram以及每个n

gram对应的频率,所述频率是n

gram在历史日志序列中,该n

gram出现的次数,所述历史日志序列是形成所述n

gram频率字典所用到的日志序列;根据所述频率,确定自动阈值;根据所述自动阈值对所述日志序列进行解析,获得解析结果,所述解析结果包括:所述待解析日志数据的日志模式;所述日志模式包括:所述日志序列中最终留下的静态文本和预设字符所表示的动态变量。
[0006]可选的,n大于或者等于2时,确定所述日志序列的子序列n

gram,包括:将所述日志序列按照长度2切分,得到序列的2

gram;将所述日志序列按照每次切分长度加1的方式,对所述日志序列进行切分,直到切分长度达到长度k,所述k为大于或者等于2的正整数。
[0007]可选的,根据所述频率,确定自动阈值,包括:获取每一个n

gram在所述n

gram频率字典中出现的次数的众数和中位数;将所述众数和中位数中的较大者,作为所述自动阈值。
[0008]可选的,n大于或者等于2时,根据所述自动阈值对所述日志序列进行解析,获得解析结果,包括:
对每一个所述n

gram,按照所述n的值从大到小的顺序,根据所述自动阈值,确定n为k时的n

gram中的静态文本和动态变量;将所述静态文本从所述日志序列滤除,得到剩余的部分为n=k时的动态变量候补;根据n为k

1时的n

gram和所述n=k时的动态变量候补,得到第n=k

1时的动态变量候补,直到得到n=2时的动态变量候补;根据所述n=2时的动态变量候补中的元素,得到所述解析结果。
[0009]可选的,根据所述n=2时的动态变量候补中的元素,得到所述解析结果,包括:将日志序列中,所述n=2时的动态变量候补中的元素替换为预设字符;将所述静态文本和所述预设字符形成的日志模式作为所述解析结果输出。
[0010]可选的,日志解析方法,还包括:所述静态文本和所述预设字符形成的日志模式中,若有相邻的预设字符,则将相邻的预设字符合并后,再输出所述日志模式。
[0011]可选的,日志解析方法,还包括:根据所述解析结果,对日志数据进行分类。
[0012]本专利技术的实施例还提供一种日志解析装置,包括:获取模块,用于获取待解析日志数据;处理模块,用于将所述待解析日志数据进行分词处理,得到日志序列;确定所述日志序列的子序列n

gram,所述n

gram是按照长度n切分所述日志序列,得到的长度为n的子序列,n为正整数;获取所述n

gram在n

gram频率字典中的频率,所述n

gram频率字典包括多个n

gram以及每个n

gram对应的频率,所述频率是n

gram历史日志序列中,该n

gram出现的次数,所述历史日志序列是形成所述n

gram频率字典所用到的日志序列;根据所述频率,确定自动阈值;根据所述自动阈值对所述日志序列进行解析,获得解析结果,所述解析结果包括:所述待解析日志数据的日志模式;所述日志模式包括:所述日志序列中最终留下的静态文本和预设字符所表示的动态变量。
[0013]本专利技术还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行所述的方法。
[0014]本专利技术还提供一种计算机可读存储介质,其存储指令,当所述指令在计算机上运行时,使得计算机执行所述的方法。
[0015]本专利技术的上述方案至少包括以下有益效果:本专利技术的上述方案,通过获取待解析日志数据;将所述待解析日志数据进行分词处理,得到日志序列;确定所述日志序列的子序列n

gram,所述n

gram是按照长度n切分所述日志序列,得到的长度为n的子序列,n为正整数;获取所述n

gram在n

gram频率字典中的频率,所述n

gram频率字典包括多个n

gram以及每个n

gram对应的频率,所述频率是n

gram在历史日志序列中,该n

gram出现的次数,所述历史日志序列是形成所述n

gram频率字典所用到的日志序列;根据所述频率,确定自动阈值;根据所述自动阈值对所述日志序列进行解析,获得解析结果,所述解析结果包括:所述待解析日志数据的日志模式;所述日志模式包括:所述日志序列中最终留下的静态文本和预设字符所表示的动态变量;可以区分出日志中的动态变量和静态文本,将日志模式化、结构化,适用于海量日志的高效解析,通过解析出的日志
模式,对日志进行精确分类,其作为自动化日志分析中的步骤,有效提高运维系统的异常检测、故障诊断等下游任务的准确率。
附图说明
[0016]图1为本专利技术实施例提供的日志解析方法流程图;图2为本专利技术实施例提供的日志解析方法的具体流程图;图3为本专利技术实施例提供的日志解析方法的步骤4的具体流程图;图4为本专利技术实施例提供的日志解析方法解析1001条日志数据的具体流程图;图5为本专利技术实施例提供的日志解析装置的模块示意图。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种日志解析方法,其特征在于,包括:获取待解析日志数据;将所述待解析日志数据进行分词处理,得到日志序列;确定所述日志序列的子序列n

gram,所述n

gram是按照长度n切分所述日志序列,得到的长度为n的子序列,n为正整数;获取所述n

gram在n

gram频率字典中的频率,所述n

gram频率字典包括多个n

gram以及每个n

gram对应的频率,所述频率是n

gram在历史日志序列中,该n

gram出现的次数,所述历史日志序列是形成所述n

gram频率字典所用到的日志序列;根据所述频率,确定自动阈值;根据所述自动阈值对所述日志序列进行解析,获得解析结果,所述解析结果包括:所述待解析日志数据的日志模式;所述日志模式包括:所述日志序列中最终留下的静态文本和预设字符所表示的动态变量。2.根据权利要求1所述的日志解析方法,其特征在于,n大于或者等于2时,确定所述日志序列的子序列n

gram,包括:将所述日志序列按照长度2切分,得到序列的2

gram;将所述日志序列按照每次切分长度加1的方式,对所述日志序列进行切分,直到切分长度达到长度k,所述k为大于或者等于2的正整数。3.根据权利要求1所述的日志解析方法,其特征在于,根据所述频率,确定自动阈值,包括:获取每一个n

gram在所述n

gram频率字典中出现的次数的众数和中位数;将所述众数和中位数中的较大者,作为所述自动阈值。4.根据权利要求1所述的日志解析方法,其特征在于,n大于或者等于2时,根据所述自动阈值对所述日志序列进行解析,获得解析结果,包括:对每一个所述n

gram,按照所述n的值从大到小的顺序,根据所述自动阈值,确定n为k时的n

gram中的静态文本和动态变量;将所述静态文本从所述日志序列滤除,得到剩余的部分为n=k时的动态变量候补;根据n为k

1时的n

【专利技术属性】
技术研发人员:钟威郑铁樵张博
申请(专利权)人:云智慧北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1