当前位置: 首页 > 专利查询>同济大学专利>正文

一种用于云原生系统日志训练的日志模式提取方法及系统技术方案

技术编号:24251421 阅读:114 留言:0更新日期:2020-05-22 23:30
本发明专利技术涉及一种用于云原生系统日志训练的日志模式提取方法及系统,填补了云原生系统中大量日志有效地抽取为含有语义的词向量日志模式的空白,方法步骤包括:基于云原生系统日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达;基于领域内日志变量知识和通用规则,对日志进行预处理;基于领域内近反义词词典,对日志中单词进行基于语义的向量化;构建一颗定深日志模式提取树,对该树内部的匹配或处理节点进行定义;对每一条日志进行分析抽取,对抽取的日志模式和对应的日志行ID进行存储,抽取的日志模式是含有语义的词向量数组。本方法的输出结果可以应用于云原生系统中日志分析、故障检测模型的训练及日志的画像构建等。

A log pattern extraction method and system for cloud native system log training

【技术实现步骤摘要】
一种用于云原生系统日志训练的日志模式提取方法及系统
本专利技术涉及计算机
,尤其是涉及一种用于云原生系统日志训练的日志模式提取方法及系统。
技术介绍
日志是系统运维重要的信息来源,日志通过行文本的形式来记录系统运行过程中的事件轨迹。随着5G网络、物联网系统的发展,计算机系统的规模越来越复杂,既可以扩展至数千台商用机器的云原生分布式系统(例如Hadoop,Spark),也可以扩展到具有数千个处理器的超级高性能计算机。由于这些系统全天候运行并为全球数以万计在线用户提供服务,因此必须具有高可用性和可靠性。为了达到这个目的,日志分析技术被广泛应用于服务管理与智能运维,例如故障检测等。这些技术通过数据挖掘模型或机器学习模型来分析系统行为,大多数模型都需要结构化输入。如上所述,日志是通过行文本的形式来记录系统运行过程中的事件轨迹,并非结构化的输入,所以需要对日志进行结构化的处理,即日志模式提取(也可称为日志解析)。日志模式提取的目标是将原始日志消息转换为结构化日志消息,例如,将日志行“Receiveddatad1567ofsize173822fromuserA”提取为“Receiveddata*ofsize*from*”。具体来说,原始日志消息是非结构化数据,包括时间戳和原始消息内容。提取过程就是在每个原始日志消息的固定部分和可变部分之间进行区分。固定部分用于描述系统日志事件,即日志模式(例如上面例子中的“Receiveddata*ofsize*from*”);而可变部分是携带动态运行时系统信息的变量(例如“d1567”)。典型的结构化日志消息包含匹配的日志模式和感兴趣的变量信息,日志模式提取解决方案是将日志模式提取视为一个聚类问题,将具有相同日志模式的原始日志消息聚类到一个簇中。目前,对日志的处理大多基于字符串信息的比对,提取出的日志模式也为字符串信息,这种方法有两个缺点:1.对于大型的云原生系统来说,日志模式的数量相当庞大,如果使用基于字符串提取,会提取出过量的日志模式类别,不利于日志分析方法使用;2.当一个日志分析技术需要将日志模式中的词进行词嵌入时,是先提取日志模式,再进行词嵌入。比如先得到“Receiveddata*ofsize*from*”,再将其处理为“[a1…an],[b1…bn],[c1…cn],[d1..dn],[e1…en]”,与直接使用词嵌入的日志模式提取方法相比增加了中间的处理环节,效率和稳定性存在一定的问题。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种用于云原生系统日志训练的日志模式提取方法及系统。本专利技术的目的可以通过以下技术方案来实现:一种用于云原生系统日志训练的日志模式提取方法,该方法包括以下步骤:步骤1:针对云原生系统日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达;步骤2:基于领域内的日志变量知识和通用规则,对日志进行预处理;步骤3:基于领域内的近反义词词典,对经过预处理的日志中的单词进行基于语义的向量化表达;步骤4:构建定深日志模式提取树,并对该树内部的匹配或处理节点进行定义;步骤5:利用构建的定深日志模式提取树对基于语义的向量化表达的日志中的每一条进行分析抽取,对抽取的日志模式和对应的日志行ID进行存储,抽取的日志模式是含有语义的词向量数组。进一步地,所述的步骤1具体包括:对云原生系统日志中特有的近义词反义词进行提取,使得具有相同上下文语义的近反义单词能够区别处理,并对云原生系统日志中特有的变量进行归纳,使其不会与日志模式中的单词混淆。进一步地,所述的步骤2中的对日志进行预处理包括对日志特殊变量进行预处理、对日志行进行预处理和对日志单词进行预处理。进一步地,所述的步骤3中基于语义的向量化表达采用的词嵌入方法为dLCE分布式词汇对比嵌入模型。进一步地,所述的步骤5中的定深日志模式提取树的节点包括用于对日志所属的叶子节点进行匹配的非叶子节点和用于对日志的模式进行划分提取的叶子节点。本专利技术还提供一种采用所述的用于云原生系统日志训练的日志模式提取方法的提取系统,该系统包括:领域知识构建模块:用于通过领域经验知识库,对于云原生领域内特有的近义词与反义词构建词典;预处理模块:用于通过对日志中的特殊变量与一般变量进行处理、对不符合要求的日志行使用一般性规则处理及对日志中不符合词嵌入标准的单词处理,将日志文本转为使用词嵌入算法的标准文本;日志单词向量化模块:用于使用已有的词嵌入算法和已经构建的近义词反义词词典,得到每一个日志词的向量化表达;日志模式抽取模块:用于根据不同的应用场景,构建固定深度的树结构,并且对非叶子节点定义匹配规则,对叶子节点定义划分提取日志模式规则,将向量化的日志行输入树中并按规则进行处理,得到存储的日志模式和其对应的日志行ID。与现有技术相比,本专利技术具有以下优点:(1)本专利技术方法通过对云原生系统大量日志数据进行处理,提取出日志模式和其对应的日志行ID,为云原生系统日志故障检测模型训练提供有效的数据基础,解决了:现有的方法提取的日志模式过多,且用于日志故障检测的效果不好的问题。(2)本专利技术方法包括:步骤1:针对云原生系统日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达;步骤2:基于领域内的日志变量知识和通用规则,对日志进行预处理;步骤3:基于领域内的近反义词词典,对经过预处理的日志中的单词进行基于语义的向量化表达;步骤4:构建定深日志模式提取树,并对该树内部的匹配或处理节点进行定义;步骤5:利用构建的定深日志模式提取树对基于语义的向量化表达的日志中的每一条进行分析抽取,对抽取的日志模式和对应的日志行ID进行存储,抽取的日志模式是含有语义的词向量数组,现有的带有语义的日志模式的生成方法处理环节多,效率低且效果不好的问题,本专利技术方法解决当前云原生系统中大量日志缺乏有效地抽取为含有语义的词向量日志模式的问题,为故障检测模型训练提供数据基础。面对云原生系统中日志分析方法需要带语义日志模式的需求。附图说明图1为本专利技术的提取系统结构示意图;图2为本专利技术与系统配套的提取方法流程图;图3为本专利技术实施例中的定深日志模式提取树示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。本专利技术提出了一种为云原生系统日志故障检测模型训练的日志模式提取方法。填补了云原生系统中大量日志有效地抽取为含有语义的词向量日志模式的空白,抽象出云原生系统日志领域近反义词词典及领域变量的知识表达。该方法包括:1、基于云原生系统日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达;2、基于领域内日志本文档来自技高网
...

【技术保护点】
1.一种用于云原生系统日志训练的日志模式提取方法,其特征在于,该方法包括以下步骤:/n步骤1:针对云原生系统日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达;/n步骤2:基于领域内的日志变量知识和通用规则,对日志进行预处理;/n步骤3:基于领域内的近反义词词典,对经过预处理的日志中的单词进行基于语义的向量化表达;/n步骤4:构建定深日志模式提取树,并对该树内部的匹配或处理节点进行定义;/n步骤5:利用构建的定深日志模式提取树对基于语义的向量化表达的日志中的每一条进行分析抽取,对抽取的日志模式和对应的日志行ID进行存储,抽取的日志模式是含有语义的词向量数组。/n

【技术特征摘要】
1.一种用于云原生系统日志训练的日志模式提取方法,其特征在于,该方法包括以下步骤:
步骤1:针对云原生系统日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达;
步骤2:基于领域内的日志变量知识和通用规则,对日志进行预处理;
步骤3:基于领域内的近反义词词典,对经过预处理的日志中的单词进行基于语义的向量化表达;
步骤4:构建定深日志模式提取树,并对该树内部的匹配或处理节点进行定义;
步骤5:利用构建的定深日志模式提取树对基于语义的向量化表达的日志中的每一条进行分析抽取,对抽取的日志模式和对应的日志行ID进行存储,抽取的日志模式是含有语义的词向量数组。


2.根据权利要求1所述的一种用于云原生系统日志训练的日志模式提取方法,其特征在于,所述的步骤1具体包括:对云原生系统日志中特有的近义词反义词进行提取,使得具有相同上下文语义的近反义单词能够区别处理,并对云原生系统日志中特有的变量进行归纳,使其不会与日志模式中的单词混淆。


3.根据权利要求1所述的一种用于云原生系统日志训练的日志模式提取方法,其特征在于,所述的步骤2中的对日志进行预处理包括对日志特殊变量进行预处理、对日志行进行预处理和对日志单词进行预处理。


4.根据权利要求...

【专利技术属性】
技术研发人员:杜庆峰赵亮张双俐韩永琦徐锦程殷康璘邱娟
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1