日志模式识别方法及装置、计算机可读存储介质、终端制造方法及图纸

技术编号:35298827 阅读:26 留言:0更新日期:2022-10-22 12:46
一种日志模式识别方法及装置、计算机可读存储介质、终端,所述方法包括:对待识别日志进行分词处理以得到一个或多个单词;采用所述单词的数量以及各个单词的搜索词,对预设的搜索树进行逐层搜索;当能够经由已有的内部节点到达叶子节点层,并且各个搜索词与到达的叶子节点中的已存日志模式之间的第一相似度的最大值小于第一阈值时,或者,当未能搜索到内部节点时,分别计算所选择的预设数量的已存日志模式与所述各个搜索词之间的第二相似度;比较第二相似度的最大值与第二阈值,以确定是否采用所述第二相似度的最大值对应的已存日志模式与各个搜索词之间的最长公共子序列作为待识别日志的模式。本发明专利技术有助于提高日志模式识别的准确性。的准确性。的准确性。

【技术实现步骤摘要】
日志模式识别方法及装置、计算机可读存储介质、终端


[0001]本专利技术实施例涉及日志识别
,尤其涉及一种日志模式识别方法及装置、计算机可读存储介质、终端。

技术介绍

[0002]随着信息化的不断发展,信息系统的复杂程度逐渐增加,其产生的日志数据异常庞大,人工查看日志进行信息系统的运维与问题定位变得不可能,因此需要一种自动化的手段来提取日志的信息。由于日志是一种半结构化的文本数据,遵循一定的模版,而模板本身就是某个节点或某个问题的固定表达,所以模板本身含有重要的信息,那么从海量日志中提取出一个或多个模板就非常必要,提取模板的过程就是识别出日志的模式的过程。
[0003]在现有技术中,往往基于日志长度不同则模式必然不同为假设条件,进行日志模式识别,例如当前使用的经典日志模式识别算法——Drain算法就是强制假设相同的模式其日志长度必然相同,单独采用字典树/前缀树而进行搜索建立内部节点从而实现日志模式识别的。但在实际情况中,两个相似度很高的日志并不一定就有相同的长度,因此依赖于“日志长度不同则模式必然不同”的假设进行日式模式识别会导致部分日志长度虽然不同,但是真实模式相同的日志不能被识别出来,从而导致日志模式识别结果的准确性不足。

技术实现思路

[0004]本专利技术实施例解决的技术问题是现有技术因依赖于“日志长度不同则模式必然不同”的假设进行日式模式识别导致日志模式识别结果的准确性不足。
[0005]为实现上述目的,本专利技术实施例提供一种日志模式识别方法,包括以下步骤:对待识别日志进行分词处理以得到一个或多个单词;采用所述单词的数量以及各个单词的搜索词,对预设的搜索树进行逐层搜索,其中,所述搜索树包含搜索词数量节点层、一层或多层内部节点层、以及存储一个或多个已存日志模式的叶子节点层;当能够经由已有的内部节点到达叶子节点层,并且各个搜索词与到达的叶子节点中的已存日志模式之间的第一相似度的最大值小于第一阈值时,或者,当未能搜索到内部节点时,在所有已存日志模式中选择预设数量的已存日志模式,并采用选择的已存日志模式分别计算与所述各个搜索词之间的第二相似度;比较所得到的各个第二相似度的最大值与第二阈值,以确定是否采用所述第二相似度的最大值对应的已存日志模式与各个搜索词之间的最长公共子序列作为所述待识别日志的模式。
[0006]可选的,所述方法还包括:当未能搜索到内部节点时,采用所述搜索词,以前一次搜索到的内部节点为父节点,逐层在所述搜索树中新增内部节点,直至到达所述叶子节点层;其中,所述单词的搜索词的次序与所述搜索树的内部节点层一一依序对应。
[0007]可选的,所述方法还包括:当能够经由已有的内部节点到达叶子节点层,并且各个搜索词与到达的叶子节点中的已存日志模式之间的第一相似度的最大值小于第一阈值时,将各个搜索词形成的搜索序列作为新增的已存日志模式存储至该到达的叶子节点;或者,
当未能搜索到内部节点时,将各个搜索词形成的搜索序列作为新增的已存日志模式存储至新增内部节点下的叶子节点。
[0008]可选的,对预设的搜索树进行逐层搜索之前,所述方法还包括:确定各个单词的类别;于每个单词,基于该单词的类别确定将该单词作为所述搜索词或者将该单词的属性作为所述搜索词。
[0009]可选的,所述单词的类别包含在预设常量集合中预存的英文单词,以及包含其他单词;基于该单词的类别确定将该单词作为所述搜索词或者将该单词的属性作为所述搜索词包括:于每个单词,如果该单词为在预设常量集合中预存的英文单词,则将该单词作为所述搜索词;如果该单词为所述其他单词,则将该单词的属性作为所述搜索词。
[0010]可选的,在所有已存日志模式中选择预设数量的已存日志模式之前,所述方法还包括:采用下述公式,确定到达的所述叶子节点中的已存日志模式与各个搜索词之间的第一相似度:
[0011][0012][0013]其中,sim1用于指示到达的所述叶子节点中的已存日志模式的各个模式词与各个搜索词之间的第一相似度,f()用于指示第一相似度计算函数,N用于指示到达的所述叶子节点中的已存日志模式的长度值或模式词数量,a
i
用于指示各个搜索词中依照分词次序确定的第i个搜索词,b
i
用于指示到达的所述叶子节点中的各个已存日志模式的第i个模式词。
[0014]可选的,在所有已存日志模式中选择预设数量的已存日志模式包括:分别计算各个已存日志模式的向量与各个搜索词的向量之间的距离;确定距离最近的预设数量的已存日志模式。
[0015]可选的,满足以下一项或多项:所述向量选自:哈希向量、词频与逆文本频率指数TFIDF向量、词Word2vec向量;所述距离选自:欧式距离、马氏距离、曼哈顿距离。
[0016]可选的,基于下述公式,采用选择的已存日志模式分别计算与各个搜索词之间的第二相似度:
[0017][0018][0019]其中,sim2用于指示选择的已存日志模式的各个模式词与各个搜索词之间的第二相似度,C()用于指示计算所述第二相似度的迭代函数,max()用于指示最大值计算函数,
x
i
用于指示各个搜索词中依照分词次序确定的第i个搜索词,y
j
用于指示选择的各个已存日志模式中的第j个模式词;在迭代过程中,i,j的初始化值为分别l
x
和l
y
,l
x
用于指示各个搜索词的长度值或搜索词数量,l
y
用于指示选择的已存日志模式的长度值或模式词数量。
[0020]可选的,所述方法还包括:当能够经由已有的内部节点到达叶子节点层,并且各个搜索词与到达的叶子节点中的已存日志模式之间的第一相似度的最大值大于等于所述第一阈值,则将所述第一相似度的最大值对应的已存日志模式与所述各个搜索词进行融合处理,以得到更新日志模式;采用所述更新日志模式替换到达的叶子节点中的所述第一相似度的最大值对应的已存日志模式;确定与被替换的已存日志模式对应的融合日志模式;在融合日志模式集合中更新对应的融合日志模式;其中,所述融合日志模式集合用于存储融合处理后的日志模式。
[0021]可选的,在所述融合日志模式集合中更新对应的融合日志模式包括:对所述对应的融合日志模式与更新日志模式进行融合处理;采用处理后的融合日志模式替代所述对应的融合日志模式。
[0022]可选的,将所述第一相似度的最大值对应的已存日志模式与所述各个搜索词进行融合处理,以得到更新日志模式包括:根据各个搜索词中的分词次序,判断各个搜索词是否与所述第一相似度的最大值对应的已存日志模式中处于相同次序的模式词相同;如果相同,则采用该搜索词作为所述更新日志模式中处于相同次序的模式词;如果不同,则采用通配符作为所述更新日志模式中处于相同次序的模式词。
[0023]可选的,所述第一阈值是至少基于所述搜索词中的数字数量和通配符数量确定的;其中,所述数字数量越大,第一阈值越小,所述通配符数量越大,第一阈值越小;其中,每个搜索词是根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种日志模式识别方法,其特征在于,包括:对待识别日志进行分词处理以得到一个或多个单词;采用所述单词的数量以及各个单词的搜索词,对预设的搜索树进行逐层搜索,其中,所述搜索树包含搜索词数量节点层、一层或多层内部节点层、以及存储一个或多个已存日志模式的叶子节点层;当能够经由已有的内部节点到达叶子节点层,并且各个搜索词与到达的叶子节点中的已存日志模式之间的第一相似度的最大值小于第一阈值时,或者,当未能搜索到内部节点时,在所有已存日志模式中选择预设数量的已存日志模式,并采用选择的已存日志模式分别计算与所述各个搜索词之间的第二相似度;比较所得到的各个第二相似度的最大值与第二阈值,以确定是否采用所述第二相似度的最大值对应的已存日志模式与各个搜索词之间的最长公共子序列作为所述待识别日志的模式。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:当未能搜索到内部节点时,采用所述搜索词,以前一次搜索到的内部节点为父节点,逐层在所述搜索树中新增内部节点,直至到达所述叶子节点层;其中,所述单词的搜索词的次序与所述搜索树的内部节点层一一依序对应。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:当能够经由已有的内部节点到达叶子节点层,并且各个搜索词与到达的叶子节点中的已存日志模式之间的第一相似度的最大值小于第一阈值时,将各个搜索词形成的搜索序列作为新增的已存日志模式存储至该到达的叶子节点;或者,当未能搜索到内部节点时,将各个搜索词形成的搜索序列作为新增的已存日志模式存储至新增内部节点下的新增叶子节点。4.根据权利要求1所述的方法,其特征在于,对预设的搜索树进行逐层搜索之前,所述方法还包括:确定各个单词的类别;对于每个单词,基于该单词的类别确定将该单词作为所述搜索词或者将该单词的属性作为所述搜索词。5.根据权利要求4所述的方法,其特征在于,所述单词的类别包含在预设常量集合中预存的英文单词,以及包含其他单词;基于该单词的类别确定将该单词作为所述搜索词或者将该单词的属性作为所述搜索词包括:对于每个单词,如果该单词为在预设常量集合中预存的英文单词,则将该单词作为所述搜索词;如果该单词为所述其他单词,则将该单词的属性作为所述搜索词。6.根据权利要求1所述的方法,其特征在于,在所有已存日志模式中选择预设数量的已存日志模式之前,所述方法还包括:采用下述公式,确定到达的所述叶子节点中的已存日志模式与各个搜索词之间的第一相似度:
其中,sim1用于指示到达的所述叶子节点中的已存日志模式的各个模式词与各个搜索词之间的第一相似度,f()用于指示第一相似度计算函数,N用于指示到达的所述叶子节点中的已存日志模式的长度值或模式词数量,a
i
用于指示各个搜索词中依照分词次序确定的第i个搜索词,b
i
用于指示到达的所述叶子节点中的各个已存日志模式的第i个模式词。7.根据权利要求1所述的方法,其特征在于,在所有已存日志模式中选择预设数量的已存日志模式包括:分别计算各个已存日志模式的向量与各个搜索词的向量之间的距离;确定距离最近的预设数量的已存日志模式。8.根据权利要求7所述的方法,其特征在于,满足以下一项或多项:所述向量选自:哈希向量、词频与逆文本频率指数TFIDF向量、词Word2vec向量;所述距离选自:欧式距离、马氏距离、曼哈顿距离。9.根据权利要求1所述的方法,其特征在于,基于下述公式,采用选择的已存日志模式分别计算与各个搜索词之间的第二相似度:分别计算与各个搜索词之间的第二相似度:其中,sim2用于指示选择的已存日志模式的各个模式词与各个搜索词之间的第二相似度,C()用于指示计算所述第二相似度的迭代函数,max()用于指示最大值计算函数,x
i
用于指示各个搜索词中依照分词次序确定的第i个搜索词,y
j
用于指示选择的各个已存日志模式中的第j个模式词;在迭代过程中,i,j的初始化值为分别l
x
和l
y
,l
x
用于指示各个搜索词的长度值或搜索词数量,l
y
用于指示选择的已存日志模式的长度值或模式词数量。10.根据权利要求1所述的方法,其特征在于,所述方法还包括:当能够经由已有的内部节点到达叶子节点层,并且各个搜索词与到达的叶子节点中的已存日志模式之间的第一相似度的最大值大于等于所述第一阈值,则将所述第一相似度的最大值...

【专利技术属性】
技术研发人员:李进武刘博罗秋清王东杨兵
申请(专利权)人:海通证券股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1