一种日志数据处理方法、装置及存储介质制造方法及图纸

技术编号：37389589 阅读：6 留言：0更新日期：2023-04-27 07:28

本发明专利技术公开了一种日志数据处理方法、装置及存储介质，包括：对日志数据使用解析模型进行日志模板挖掘后，将日志数据解析为日志模板事件，一个日志模板事件包括日志模板以及参数变量；建立各个参数变量在所归属的日志模板上的位置关系；将所述日志模板的文本切分，切分后的单元加入BERT训练词表后进行BERT训练；BERT训练结束后，将各个日志模板不同位置的参数变量转化为向量表征。采用本发明专利技术，实现了自动化根据上下文学习参数向量表征；大量减少了人工识别参数类型的工作，提高了自动化程度，降低了人工运维成本。降低了人工运维成本。降低了人工运维成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种日志数据处理方法、装置及存储介质

[0001]本专利技术涉及数据处理领域，特别涉及一种日志数据处理方法、装置及存储介质。

技术介绍

[0002]日志数据是程序开发人员为辅助调试在程序中嵌入的、打印输出代码所产生的文本数据。日志模板挖掘的目的是将常量部分与变量部分分离，并形成一个成熟的日志事件，对于日志模板挖掘来说，当前已经有比较成熟的方法，如FT
‑
TREE(频繁模式树)、SPELL、DRAIN等方法，对于挖掘出的模板，常常用于下游的异常检测和故障预测，但是对于分离出的变量及参数部分，一直缺乏一种有效的方式将其自动化分类。参数分类的目的是结合模板形成完整的日志抽取信息，该信息是一种完善的日志抽取结果，运维人员可以利用这些信息进行有效的规则设定和监控。针对分离出的日志模板参数进行分类，得到细化的参数类型，当前主要存在两种主流方案。
[0003]第一种方案是通过正则化匹配，工程师和运维人员只能通过写规则来筛选检查可能存在的参数模式，非常依赖于专家的领域知识，借助Linux中的命令grep(行过滤器，筛选符合条件的行)，sed(针对行的编辑器)等系统工具，对关键字进行正则匹配，经过大量的人工操作后，将其转化为正则表达式，固化下某些特定的参数类型，如<IP(因特网协议，Internet Protocol)>，<URL(统一资源定位符，Uniform Resource Locator)>等，该方案效率低下，耗费人力，且无法获得更为精细的参数类...

【技术保护点】

【技术特征摘要】
1.一种日志数据处理方法，其特征在于，包括：对日志数据使用解析模型进行日志模板挖掘后，将日志数据解析为日志模板事件，一个日志模板事件包括日志模板以及参数变量；建立各个参数变量在所归属的日志模板上的位置关系；将所述日志模板的文本切分，切分后的单元加入BERT训练词表后进行基于Transformer的双向编码表示法BERT训练；BERT训练结束后，将各个日志模板不同位置的参数变量转化为向量表征。2.如权利要求1所述的方法，其特征在于，根据日志类型使用以下解析模型之一或者其组合进行日志模板挖掘：Drain、Spell、频繁模式树FT
‑
Tree。3.如权利要求1所述的方法，其特征在于，将所述日志模板的文本切分，是将解析模型输出的日志模板的文本按照空格进行切分。4.如权利要求1所述的方法，其特征在于，进行BERT训练的单元包括以下参数之一或者其组合：隐藏大小hidden_size、注意头数num_attention_heads、隐藏层数num_hidden_layers、中间大小intermediate_size。5.如权利要求1至4任一所述的方法，其特征在于，进一步包括：利用密度聚类方法对向量表征的参数变量进行自动聚类。6.如权利要求5所述的方法，其特征在于，密度聚类方法是DBScan密度聚类方法。7.如权利要求5所述的方法，...

【专利技术属性】
技术研发人员：原野，朱琳，花小磊，郭倩影，余立，袁向阳，邓超，冯俊兰，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人