【技术实现步骤摘要】
一种日志解析方法、装置及设备
[0001]本专利技术涉及信息处理
,特别是指一种日志解析方法、装置及设备。
技术介绍
[0002]日志是一种半结构化数据,记录着系统的行为及故障等信息,自动化日志分析可以帮助运维人员监控系统状态,检测系统异常。一般的,日志解析是自动化日志分析中的第一步,解析的结果可以用于异常检测、故障诊断等下游任务中。
[0003]现有的一些日志解析算法,已经能取得非常高的解析精度。而随着信息化发展,日志数量增长迅速,在不损失解析精度的前提下,提高解析算法的效率及并行能力将是解析算法中一个非常重要的方向。
技术实现思路
[0004]本专利技术要解决的技术问题是如何提供一种日志解析方法、装置及设备,以实现海量日志的高效解析,有效提高运维系统的异常检测、故障诊断等下游任务的准确率。
[0005]为解决上述技术问题,本专利技术的技术方案如下:一种日志解析方法,包括:获取待解析日志数据;将所述待解析日志数据进行分词处理,得到日志序列;确定所述日志序列的子序列n
‑
gram,所述n
‑
gram是按照长度n切分所述日志序列,得到的长度为n的子序列,n为正整数;获取所述n
‑
gram在n
‑
gram频率字典中的频率,所述n
‑
gram频率字典包括多个n
‑
gram以及每个n
‑
gram对应的频率,所述频率是n
‑
gram在历史日志序列中 ...
【技术保护点】
【技术特征摘要】
1.一种日志解析方法,其特征在于,包括:获取待解析日志数据;将所述待解析日志数据进行分词处理,得到日志序列;确定所述日志序列的子序列n
‑
gram,所述n
‑
gram是按照长度n切分所述日志序列,得到的长度为n的子序列,n为正整数;获取所述n
‑
gram在n
‑
gram频率字典中的频率,所述n
‑
gram频率字典包括多个n
‑
gram以及每个n
‑
gram对应的频率,所述频率是n
‑
gram在历史日志序列中,该n
‑
gram出现的次数,所述历史日志序列是形成所述n
‑
gram频率字典所用到的日志序列;根据所述频率,确定自动阈值;根据所述自动阈值对所述日志序列进行解析,获得解析结果,所述解析结果包括:所述待解析日志数据的日志模式;所述日志模式包括:所述日志序列中最终留下的静态文本和预设字符所表示的动态变量。2.根据权利要求1所述的日志解析方法,其特征在于,n大于或者等于2时,确定所述日志序列的子序列n
‑
gram,包括:将所述日志序列按照长度2切分,得到序列的2
‑
gram;将所述日志序列按照每次切分长度加1的方式,对所述日志序列进行切分,直到切分长度达到长度k,所述k为大于或者等于2的正整数。3.根据权利要求1所述的日志解析方法,其特征在于,根据所述频率,确定自动阈值,包括:获取每一个n
‑
gram在所述n
‑
gram频率字典中出现的次数的众数和中位数;将所述众数和中位数中的较大者,作为所述自动阈值。4.根据权利要求1所述的日志解析方法,其特征在于,n大于或者等于2时,根据所述自动阈值对所述日志序列进行解析,获得解析结果,包括:对每一个所述n
‑
gram,按照所述n的值从大到小的顺序,根据所述自动阈值,确定n为k时的n
‑
gram中的静态文本和动态变量;将所述静态文本从所述日志序列滤除,得到剩余的部分为n=k时的动态变量候补;根据n为k
‑
1时的n
【专利技术属性】
技术研发人员:钟威,郑铁樵,张博,
申请(专利权)人:云智慧北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。