检测日志序列异常的方法、装置及计算机存储介质制造方法及图纸

技术编号:30095227 阅读:42 留言:0更新日期:2021-09-18 08:58
本发明专利技术提供了一种检测日志序列异常的方法、装置及计算机存储介质,包括从数据源中收集原始的日志序列数据;根据所述日志序列数据中日志序列的层次结构依次提取每一层的语义信息,生成每一层固定维度的语义向量;根据所述日志序列的语义向量利用SoftMax函数计算所述日志序列的概率分布,选择最大条件概率对应的结果作为输出类别。本发明专利技术能够从单词、日志和日志序列中提取更加丰富的语义特征,从而使装置能够学习更加准确的层次语义表达,达到更佳的检测效果,进一步提高了检测三种日志序列异常的能力。异常的能力。异常的能力。

【技术实现步骤摘要】
检测日志序列异常的方法、装置及计算机存储介质


[0001]本专利技术涉及数据挖掘
,特别是涉及一种检测日志序列异常的方法、装置及计算机存储介质。

技术介绍

[0002]现代系统在运行时通常会生成大量的系统日志,以文本的形式记录系统的运行信息,并映射了系统在不同关键点的重要活动状态。日志异常检测有助于异常定位和原因分析,从而减少错误时间,保证系统正常运行。日志按执行时间顺序排列,形成日志序列。异常日志序列可能不包含异常日志,因为可能存在所有单个日志都正常的情况,但日志序列的异常执行顺序或不完整的执行模式会导致异常。因此,日志具有上下文,我们需要从日志序列的角度来检测日志异常,而不是单个的日志。日志序列异常一般包括三种,执行顺序异常、操作异常以及不完整异常。目前,日志序列异常检测方法大致可分为三类:基于事件计数向量的方法(如逻辑回归、支持向量机、主成分分析、不变量挖掘、日志聚类、LSTM

AE等)、基于日志键序列的方法(如Deeplog,logkey2vec等)和基于日志语义的方法(例如LogAnomaly,LogRobust等),其中利用基于日志语义的方法对日志数据进行异常检测是目前的研究热点。但是这些现有方法存在以下三个问题。
[0003](1)现有方法都需要使用日志解析器,将非结构化日志数据转换为结构化日志模板或日志键。但是,由于不同系统中日志格式的多样性,日志解析器并不适合所有日志类型。此外,日志解析器的健壮性和准确性会影响异常检测的性能。更糟糕的是,日志解析器的使用会导致文本语义信息的丢失。
[0004](2)基于事件计数向量的方法不考虑日志之间的执行顺序,而基于日志键序列的方法只考虑下一个日志是否适合发生,忽略了日志序列的完整性。这两种方法既不了解日志序列在执行什么,也不同时检测到上述三种异常。
[0005](3)现有的基于日志语义的方法简单地采用词嵌入技术将词映射到词向量中,然后将这些向量相加作为日志的语义表示。由于日志是由单词组成的,所以单词的语义和上下文决定了日志的语义。但是,同一个词在不同的日志下会表达不同的意思,词的重要程度会影响日志的语义表达。现有的基于日志语义的方法没有考虑词序和重要度对日志语义的影响。

技术实现思路

[0006]本专利技术针对上述问题,提供了一种检测日志序列异常的方法、装置及计算机存储介质。
[0007]本专利技术的第一方面,提供了一种检测日志序列异常的方法,包括:
[0008]从数据源中收集原始的日志序列数据;
[0009]根据所述日志序列数据中日志序列的层次结构依次提取每一层的语义信息,生成每一层固定维度的语义向量;
[0010]根据所述日志序列的语义向量利用SoftMax函数计算所述日志序列的概率分布,选择最大条件概率对应的结果作为输出类别。
[0011]进一步的,所述根据所述日志序列数据中日志序列的层次结构依次提取每一层的语义信息,生成每一层固定维度的语义向量,具体包括:
[0012]将所述日志序列的层次结构根据词、日志、日志序列分别对应为词层、日志层以及日志序列层;
[0013]所述词层根据词性和词频的重要度将所述日志中的每个单词表示为词语义向量WordVec,所述日志层根据所述日志每个单词的语义向量WordVec生成日志语义向量LogVec,所述日志序列层根据所述日志序列每个日志语义向量LogVec生成日志序列语义向量LogSeqVec。
[0014]进一步的,所述词层根据词性和词频的重要度将所述日志中的每个单词表示为语义向量WordVec,具体包括:
[0015]日志序列预处理,包括对所述日志序列进行分词和无义词去除,所述分词是将所述原始的日志序列中每个日志分割成一个个的单词或令牌,所述无义词去除是在经过所述分词后,去除没有意义的符号;
[0016]词嵌入,包括将日志序列预处理后的每个单词映射到一个向量,将单词经过嵌入处理后生成向量其中表示第i个日志序列的第j条日志的第k个单词;
[0017]重要度计算,包括词性权重计算和词频权重计算,所述词性权重计算根据自然语言处理库标记每个单词的词性,并为每个词性赋予相应的权重;所述词频权重计算根据词频

逆文档频率法计算每个词的词频权重,具体为:将词经过词频

逆文档频率法计算后的权重记为文档频率为逆文档频率为计算公式分别为:
[0018][0019][0020][0021]其中,|S
i
|表示第i条日志序列包含的日志数量;表示第i条日志序列中含有的日志数量;|S|代表日志序列数据S中日志序列的总数量;表示S中包含的日志序列数量;
[0022]词语义向量WordVec生成,具体将词嵌入与重要度计算结合,为单词生成对应的语义向量WordVec,计算公式为:
[0023][0024]其中,表示单词生成对应的语义向量WordVec,α和β是调解和
的权重因子,且α+β=1。
[0025]进一步的,所述日志层根据所述日志每个单词的语义向量WordVec生成日志语义向量LogVec,具体包括:
[0026]接收词层输入的所述日志每个单词的语义向量WordVec,形成一个WordVec序列其中表示第i个日志序列的第j条日志的第m个单词的语义向量WordVec;
[0027]利用基于注意力机制的Bi

LSTM模型从WordVec序列中提取语义特征,生成日志语义向量LogVec,具体包括:
[0028]将在前向LSTM中t时刻的隐藏层的状态记为在后向LSTM中t时刻的隐藏层的状态记为和的计算公式和通过拼接的方式获取Bi

LSTM模型在t时刻的输出表达式为将通过全连接网络生成的隐藏表示通过计算与上下文向量u
ij
的相似度衡量的重要性,利用SoftMax标准化计算重要度权重将与相乘累加获得日志语义向量计算公式分别为:
[0029][0030][0031][0032]其中,W
ij
和b
ij
为随机初始化的向量和偏置。
[0033]进一步的,所述日志序列层根据所述日志序列每个日志语义向量LogVec生成日志序列语义向量LogSeqVec,具体包括:
[0034]接收日志层输入的所述日志序列每个日志语义向量LogVec,形成一个LogVec序列其中表示第i和日志序列的第n条日志的语义向量LogVec;
[0035]利用基于注意力机制的Bi

LSTM模型获取LogVec序列中的上下文信息,具体包括:
[0036]和分别表示为在t时刻前向LSTM和后向LSTM的隐藏层状态,和的计算可以分别被简化为和通过拼接的方式获取Bi

LSTM模型在t时刻的输出表达式为
[0037]自动学习和调整日志对于日志序列语义表达的重要程度,生成日志序列语义向量LogSeqV本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检测日志序列异常的方法,其特征在于,所述方法包括:从数据源中收集原始的日志序列数据;根据所述日志序列数据中日志序列的层次结构依次提取每一层的语义信息,生成每一层固定维度的语义向量;根据所述日志序列的语义向量利用SoftMax函数计算所述日志序列的概率分布,选择最大条件概率对应的结果作为输出类别。2.根据权利要求1所述的一种检测日志序列异常的方法,其特征在于,所述根据所述日志序列数据中日志序列的层次结构依次提取每一层的语义信息,生成每一层固定维度的语义向量,具体包括:将所述日志序列的层次结构根据词、日志、日志序列分别对应为词层、日志层以及日志序列层;所述词层根据词性和词频的重要度将所述日志中的每个单词表示为词语义向量WordVec,所述日志层根据所述日志每个单词的语义向量WordVec生成日志语义向量LogVec,所述日志序列层根据所述日志序列每个日志语义向量LogVec生成日志序列语义向量LogSeqVec。3.根据权利要求2所述的一种检测日志序列异常的方法,其特征在于,所述词层根据词性和词频的重要度将所述日志中的每个单词表示为语义向量WordVec,具体包括:日志序列预处理,包括对所述日志序列进行分词和无义词去除,所述分词是将所述原始的日志序列中每个日志分割成一个个的单词或令牌,所述无义词去除是在经过所述分词后,去除没有意义的符号;词嵌入,包括将日志序列预处理后的每个单词映射到一个向量,将单词经过嵌入处理后生成向量其中表示第i个日志序列的第j条日志的第k个单词;重要度计算,包括词性权重计算和词频权重计算,所述词性权重计算根据自然语言处理库标记每个单词的词性,并为每个词性赋予相应的权重;所述词频权重计算根据词频

逆文档频率法计算每个词的词频权重,具体为:将词经过词频

逆文档频率法计算后的权重记为文档频率为逆文档频率为计算公式分别为:计算公式分别为:计算公式分别为:其中,|S
i
|表示第i条日志序列包含的日志数量;表示第i条日志序列中含有的日志数量;|S|代表日志序列数据S中日志序列的总数量;表示S中包含的日志序列数量;
词语义向量WordVec生成,具体将词嵌入与重要度计算结合,为单词生成对应的语义向量WordVec,计算公式为:其中,表示单词生成对应的语义向量WordVec,α和β是调解和的权重因子,且α+β=1。4.根据权利要求2所述的一种检测日志序列异常的方法,其特征在于,所述日志层根据所述日志每个单词的语义向量WordVec生成日志语义向量LogVec,具体包括:接收词层输入的所述日志每个单词的语义向量WordVec,形成一个WordVec序列其中表示第i个日志序列的第j条日志的第m个单词的语义向量WordVec;利用基于注意力机制的Bi

LSTM模型从WordVec序列中提取语义特征,生成日志语义向量LogVec,具体包括:将在前向LSTM中t时刻的隐藏层的状态记为在后向LSTM中t时刻的隐藏层的状态记为和的计算公式和通过拼接的...

【专利技术属性】
技术研发人员:张春慨
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1