检测日志序列异常的方法、装置及计算机存储介质制造方法及图纸

技术编号：30095227 阅读：42 留言：0更新日期：2021-09-18 08:58

本发明专利技术提供了一种检测日志序列异常的方法、装置及计算机存储介质，包括从数据源中收集原始的日志序列数据；根据所述日志序列数据中日志序列的层次结构依次提取每一层的语义信息，生成每一层固定维度的语义向量；根据所述日志序列的语义向量利用SoftMax函数计算所述日志序列的概率分布，选择最大条件概率对应的结果作为输出类别。本发明专利技术能够从单词、日志和日志序列中提取更加丰富的语义特征，从而使装置能够学习更加准确的层次语义表达，达到更佳的检测效果，进一步提高了检测三种日志序列异常的能力。异常的能力。异常的能力。

全部详细技术资料下载

【技术实现步骤摘要】
检测日志序列异常的方法、装置及计算机存储介质

[0001]本专利技术涉及数据挖掘
，特别是涉及一种检测日志序列异常的方法、装置及计算机存储介质。

技术介绍

[0002]现代系统在运行时通常会生成大量的系统日志，以文本的形式记录系统的运行信息，并映射了系统在不同关键点的重要活动状态。日志异常检测有助于异常定位和原因分析，从而减少错误时间，保证系统正常运行。日志按执行时间顺序排列，形成日志序列。异常日志序列可能不包含异常日志，因为可能存在所有单个日志都正常的情况，但日志序列的异常执行顺序或不完整的执行模式会导致异常。因此，日志具有上下文，我们需要从日志序列的角度来检测日志异常，而不是单个的日志。日志序列异常一般包括三种，执行顺序异常、操作异常以及不完整异常。目前，日志序列异常检测方法大致可分为三类：基于事件计数向量的方法(如逻辑回归、支持向量机、主成分分析、不变量挖掘、日志聚类、LSTM
‑
AE等)、基于日志键序列的方法(如Deeplog，logkey2vec等)和基于日志语义的方法(例如LogAnomaly，LogRobust等)，其中利用基于日志语义的方法对日志数据进行异常检测是目前的研究热点。但是这些现有方法存在以下三个问题。
[0003](1)现有方法都需要使用日志解析器，将非结构化日志数据转换为结构化日志模板或日志键。但是，由于不同系统中日志格式的多样性，日志解析器并不适合所有日志类型。此外，日志解析器的健壮性和准确性会影响异常检测的性能。更糟糕的是，日志解析器的使用会导致文本语...

【技术保护点】

【技术特征摘要】
1.一种检测日志序列异常的方法，其特征在于，所述方法包括：从数据源中收集原始的日志序列数据；根据所述日志序列数据中日志序列的层次结构依次提取每一层的语义信息，生成每一层固定维度的语义向量；根据所述日志序列的语义向量利用SoftMax函数计算所述日志序列的概率分布，选择最大条件概率对应的结果作为输出类别。2.根据权利要求1所述的一种检测日志序列异常的方法，其特征在于，所述根据所述日志序列数据中日志序列的层次结构依次提取每一层的语义信息，生成每一层固定维度的语义向量，具体包括：将所述日志序列的层次结构根据词、日志、日志序列分别对应为词层、日志层以及日志序列层；所述词层根据词性和词频的重要度将所述日志中的每个单词表示为词语义向量WordVec，所述日志层根据所述日志每个单词的语义向量WordVec生成日志语义向量LogVec，所述日志序列层根据所述日志序列每个日志语义向量LogVec生成日志序列语义向量LogSeqVec。3.根据权利要求2所述的一种检测日志序列异常的方法，其特征在于，所述词层根据词性和词频的重要度将所述日志中的每个单词表示为语义向量WordVec，具体包括：日志序列预处理，包括对所述日志序列进行分词和无义词去除，所述分词是将所述原始的日志序列中每个日志分割成一个个的单词或令牌，所述无义词去除是在经过所述分词后，去除没有意义的符号；词嵌入，包括将日志序列预处理后的每个单词映射到一个向量，将单词经过嵌入处理后生成向量其中表示第i个日志序列的第j条日志的第k个单词；重要度计算，包括词性权重计算和词频权重计算，所述词性权重计算根据自然语言处理库标记每个单词的词性，并为每个词性赋予相应的权重；所述词频权重计算根据词频
‑
逆文档频率法计算每个词的词频权重，具体为：将词经过词频
‑
逆文档频率法计算后的权重记为文档频率为逆文档频率为计算公式分别为：计算公式分别为：计算公式分别为：其中，|S
i
|表示第i条日志序列包含的日志数量；表示第i条日志序列中含有的日志数量；|S|代表日志序列数据S中日志序列的总数量；表示S中包含的日志序列数量；
词语义向量WordVec生成，具体将词嵌入与重要度计算结合，为单词生成对应的语义向量WordVec，计算公式为：其中，表示单词生成对应的语义向量WordVec，α和β是调解和的权重因子，且α+β＝1。4.根据权利要求2所述的一种检测日志序列异常的方法，其特征在于，所述日志层根据所述日志每个单词的语义向量WordVec生成日志语义向量LogVec，具体包括：接收词层输入的所述日志每个单词的语义向量WordVec，形成一个WordVec序列其中表示第i个日志序列的第j条日志的第m个单词的语义向量WordVec；利用基于注意力机制的Bi
‑
LSTM模型从WordVec序列中提取语义特征，生成日志语义向量LogVec，具体包括：将在前向LSTM中t时刻的隐藏层的状态记为在后向LSTM中t时刻的隐藏层的状态记为和的计算公式和通过拼接的...

【专利技术属性】
技术研发人员：张春慨，
申请(专利权)人：哈尔滨工业大学深圳，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人