一种日志数据处理方法、装置及存储介质制造方法及图纸

技术编号:37389589 阅读:6 留言:0更新日期:2023-04-27 07:28
本发明专利技术公开了一种日志数据处理方法、装置及存储介质,包括:对日志数据使用解析模型进行日志模板挖掘后,将日志数据解析为日志模板事件,一个日志模板事件包括日志模板以及参数变量;建立各个参数变量在所归属的日志模板上的位置关系;将所述日志模板的文本切分,切分后的单元加入BERT训练词表后进行BERT训练;BERT训练结束后,将各个日志模板不同位置的参数变量转化为向量表征。采用本发明专利技术,实现了自动化根据上下文学习参数向量表征;大量减少了人工识别参数类型的工作,提高了自动化程度,降低了人工运维成本。降低了人工运维成本。降低了人工运维成本。

【技术实现步骤摘要】
一种日志数据处理方法、装置及存储介质


[0001]本专利技术涉及数据处理领域,特别涉及一种日志数据处理方法、装置及存储介质。

技术介绍

[0002]日志数据是程序开发人员为辅助调试在程序中嵌入的、打印输出代码所产生的文本数据。日志模板挖掘的目的是将常量部分与变量部分分离,并形成一个成熟的日志事件,对于日志模板挖掘来说,当前已经有比较成熟的方法,如FT

TREE(频繁模式树)、SPELL、DRAIN等方法,对于挖掘出的模板,常常用于下游的异常检测和故障预测,但是对于分离出的变量及参数部分,一直缺乏一种有效的方式将其自动化分类。参数分类的目的是结合模板形成完整的日志抽取信息,该信息是一种完善的日志抽取结果,运维人员可以利用这些信息进行有效的规则设定和监控。针对分离出的日志模板参数进行分类,得到细化的参数类型,当前主要存在两种主流方案。
[0003]第一种方案是通过正则化匹配,工程师和运维人员只能通过写规则来筛选检查可能存在的参数模式,非常依赖于专家的领域知识,借助Linux中的命令grep(行过滤器,筛选符合条件的行),sed(针对行的编辑器)等系统工具,对关键字进行正则匹配,经过大量的人工操作后,将其转化为正则表达式,固化下某些特定的参数类型,如<IP(因特网协议,Internet Protocol)>,<URL(统一资源定位符,Uniform Resource Locator)>等,该方案效率低下,耗费人力,且无法获得更为精细的参数类别。
[0004]第二种方案是在正则化匹配基础上加入了一些用户自定义预设信息,以实现更为细化的参数类别。例如,同为整形的参数,会根据规则类别分为<耗费时间>、<内存大小>、<失败次数>等细化类别,虽然该方案信息内容更为丰富,效果较好,但是仍然存在效率较低,开发和运维成本较高的问题。
[0005]现有技术的不足在于:现有的参数分类技术效率较低。

技术实现思路

[0006]本专利技术提供了一种日志数据处理方法、装置及存储介质,用以解决现有日志模板的参数分类技术效率较低的问题。
[0007]本专利技术提供以下技术方案:
[0008]一种日志数据处理方法,包括:
[0009]对日志数据使用解析模型进行日志模板挖掘后,将日志数据解析为日志模板事件,一个日志模板事件包括日志模板以及参数变量;
[0010]建立各个参数变量在所归属的日志模板上的位置关系;
[0011]将所述日志模板的文本切分,切分后的单元加入BERT训练词表后进行BERT训练;
[0012]BERT训练结束后,将各个日志模板不同位置的参数变量转化为向量表征。
[0013]实施中,根据日志类型使用以下解析模型之一或者其组合进行日志模板挖掘:
[0014]Drain、Spell、FT

Tree。
[0015]实施中,将所述日志模板的文本切分,是将解析模型输出的日志模板的文本按照空格进行切分。
[0016]实施中,进行BERT训练的单元包括以下参数之一或者其组合:
[0017]hidden_size、num_attention_heads、num_hidden_layers、intermediate_size。
[0018]实施中,进一步包括:
[0019]利用密度聚类方法对向量表征的参数变量进行自动聚类。
[0020]实施中,密度聚类方法是DBScan密度聚类方法。
[0021]实施中,进一步包括:
[0022]对聚类后的各类别参数变量进行类别标识。
[0023]实施中,进一步包括:
[0024]根据参数变量的类别信息结合日志模板信息进行日志数据分析。
[0025]一种日志数据处理装置,包括:
[0026]处理器,用于读取存储器中的程序,执行下列过程:
[0027]对日志数据使用解析模型进行日志模板挖掘后,将日志数据解析为日志模板事件,一个日志模板事件包括日志模板以及参数变量;
[0028]建立各个参数变量在所归属的日志模板上的位置关系;
[0029]将所述日志模板的文本切分,切分后的单元加入BERT训练词表后进行BERT训练;
[0030]BERT训练结束后,将各个日志模板不同位置的参数变量转化为向量表征;
[0031]收发机,用于在处理器的控制下接收和发送数据。
[0032]实施中,根据日志类型使用以下解析模型之一或者其组合进行日志模板挖掘:
[0033]Drain、Spell、FT

Tree。
[0034]实施中,将所述日志模板的文本切分,是将解析模型输出的日志模板的文本按照空格进行切分。
[0035]实施中,进行BERT训练的单元包括以下参数之一或者其组合:
[0036]hidden_size、num_attention_heads、num_hidden_layers、intermediate_size。
[0037]实施中,进一步包括:
[0038]利用密度聚类方法对向量表征的参数变量进行自动聚类。
[0039]实施中,密度聚类方法是DBScan密度聚类方法。
[0040]实施中,进一步包括:
[0041]对聚类后的各类别参数变量进行类别标识。
[0042]实施中,进一步包括:
[0043]根据参数变量的类别信息结合日志模板信息进行日志数据分析。
[0044]一种日志数据处理装置,包括:
[0045]解析模块,用于对日志数据使用解析模型进行日志模板挖掘后,将日志数据解析为日志模板事件,一个日志模板事件包括日志模板以及参数变量;
[0046]位置模块,用于建立各个参数变量在所归属的日志模板上的位置关系;
[0047]训练模块,用于将所述日志模板的文本切分,切分后的单元加入BERT训练词表后进行BERT训练;
[0048]向量模块,用于在BERT训练结束后,将各个日志模板不同位置的参数变量转化为
向量表征。
[0049]实施中,解析模块进一步用于根据日志类型使用以下解析模型之一或者其组合进行日志模板挖掘:
[0050]Drain、Spell、FT

Tree。
[0051]实施中,训练模块进一步用于在将所述日志模板的文本切分时,将解析模型输出的日志模板的文本按照空格进行切分。
[0052]实施中,训练模块进一步用于对包括以下参数之一或者其组合的单元进行BERT训练:
[0053]hidden_size、num_attention_heads、num_hidden_layers、intermediate_size。
[0054]实施中,进一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种日志数据处理方法,其特征在于,包括:对日志数据使用解析模型进行日志模板挖掘后,将日志数据解析为日志模板事件,一个日志模板事件包括日志模板以及参数变量;建立各个参数变量在所归属的日志模板上的位置关系;将所述日志模板的文本切分,切分后的单元加入BERT训练词表后进行基于Transformer的双向编码表示法BERT训练;BERT训练结束后,将各个日志模板不同位置的参数变量转化为向量表征。2.如权利要求1所述的方法,其特征在于,根据日志类型使用以下解析模型之一或者其组合进行日志模板挖掘:Drain、Spell、频繁模式树FT

Tree。3.如权利要求1所述的方法,其特征在于,将所述日志模板的文本切分,是将解析模型输出的日志模板的文本按照空格进行切分。4.如权利要求1所述的方法,其特征在于,进行BERT训练的单元包括以下参数之一或者其组合:隐藏大小hidden_size、注意头数num_attention_heads、隐藏层数num_hidden_layers、中间大小intermediate_size。5.如权利要求1至4任一所述的方法,其特征在于,进一步包括:利用密度聚类方法对向量表征的参数变量进行自动聚类。6.如权利要求5所述的方法,其特征在于,密度聚类方法是DBScan密度聚类方法。7.如权利要求5所述的方法,...

【专利技术属性】
技术研发人员:原野朱琳花小磊郭倩影余立袁向阳邓超冯俊兰
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1