一种日志分类的方法和装置制造方法及图纸

技术编号:27006205 阅读:19 留言:0更新日期:2021-01-08 17:09
本申请涉及一种日志分类的方法、装置、计算机设备和计算机可读存储介质,其中,所述方法通过利用关联规则在预处理日志中获得高置信度的频繁项集,该高置信度的频繁项集中所包含的信息就是分类所需的关键信息,即分类依据,替代了相关技术中采用人工提取关键信息的方式,此外,通过有对预处理日志和高置信度的频繁项集进行有效编码,生成日志向量和高置信度的频繁项集向量,将该高置信度的频繁项集向量作为聚类分析的初始聚类中心,能够极大限度地提升聚类效果,减少迭代次数,能够明显提高日志分类的效率及准确性,解决了相关技术中人工提取关键词造成日志分类效率低的问题和随机选取聚类中心造成分类结果可用性低的问题。

【技术实现步骤摘要】
一种日志分类的方法和装置
本申请涉及计算机领域,特别是涉及一种日志分类的方法和装置。
技术介绍
如今网络安全问题受到的关注日益增多,为避免网络安全问题的发生,人们会在网络中添加入侵检测系统或入侵防御系统等安全设备,这些系统及系统中的程序在运作时都会产生记录事件的日志,每一条日志都记载着日期、时间、运行事件、事件发起方等相关信息的描述。此外,无论多么复杂的病毒,在入侵电脑或者系统的时候总归会在日志中留下蛛丝马迹,因此,如何对日志分类,才能在快速在日志中识别出有限信息,显得尤为重要。在相关技术中,通常采用聚类分析中的k-means算法对日志进行分类,在对日志进行聚类分析之前,需要人工提取关键词,当数据量大时,人工提取关键词容易出错且效率低,同时使用k-means算法进行日志分类,k-means算法在处理中是随机选取初始聚类中心的,若随机选取的聚类中心不适合,则得到好的分类效果。因此,相关技术中存在人工提取关键词造成日志分类效率低的问题和随机选取聚类中心造成分类结果可用性低的问题。目前针对相关技术中人工提取关键词造成日志分类效率低的问题和随机选取聚类中心造成分类结果可用性低的问题,尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种日志分类的方法、装置、计算机设备和计算机可读存储介质,以至少解决相关技术中聚类分析前需人工提取关键词和初始聚类中心随机选取造成的日志分类效率低且分类结果可用性低的问题和日志分类过于细化,造成的日志分类效率低的问题。第一方面,本申请实施例提供了一种日志分类的方法,所述方法包括:获取待分类的原始日志;利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志,所述常规信息包括时间信息、地址信息、以及URL信息;利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集;对所述预处理日志中的词进行去重,得到无重复的词集;根据所述词集,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量;以所述高置信度的频繁项集向量为初始聚类中心,对所述日志向量和所述高置信度的频繁项集进行聚类分析,获得日志分类结果。在其中一些实施例中,利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志,包括:将所述原始日志中的常规信息进行归一化处理,获得第一日志;将所述第一日志中除所述常规信息中包含的数字外,将其他数数字替换为预设数字,获得第二日志;将所述第二日志中除所述常规信息中包含的符号、其他的连接线和其他的下划线外的符号替换为空格,获得所述预处理日志。在其中一些实施例中,所述将所述原始日志中的常规信息进行归一化处理,获得第一日志,包括:将所述常规信息中的所述时间信息统一为第一预设格式,将所述常规信息中的所述地址信息统一为第二预设格式,将所述常规信息中的所述URL信息统一为第三预设格式,得到所述第一日志。在其中一些实施例中,所述利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集,包括:根据预设支持度对所述预处理日志进行迭代,提取出多个频繁项集;计算所述多个频繁项集的置信度;根据预设置信度从所述多个频繁项集中选取所述高置信度的频繁项集。在其中一些实施例中,所述对所述预处理日志中的词进行去重,得到无重复的词集,包括:提取所述预处理日志中的所有词,获得初步词集;删除所述初步词集中的重复词,得到所述词集。在其中一些实施例中,所述根据所述词集,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量,包括:根据所述词集,确定所述词集中的词的数量;根据所述词的数量,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得所述日志向量和所述高置信度的频繁项集向量。第二方面,本申请实施例提供了一种日志分类的装置,所述装置包括第一获取模块、归一化模块、第二获取模块、词集模块、有效编码模块和聚类分析模块;所述第一获取模块,用于获取待分类的原始日志;所述归一化模块,利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志;所述常规信息包括时间信息、地址信息、以及URL信息;所述第二获取模块,用于所述利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集;所述词集模块,用于对所述预处理日志中的词进行去重,得到无重复的词集;所述有效编码模块,用于根据所述词集,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量;所述聚类分析模块,用于以所述高置信度的频繁项集向量为初始聚类中心,对所述日志向量和所述高置信度的频繁项集进行聚类分析,获得日志分类结果。在其中一些实施例中,所述归一化模块包括归一化单元、第一替换单元、以及第二替换单元;所述归一化单元,用于将所述原始日志中的常规信息进行归一化处理,获得第一日志;所述第一替换单元,用于将所述第一日志中除所述常规信息中包含的数字外,将其他数数字替换为预设数字,获得第二日志;所述第二替换单元,用于将所述第二日志中除所述常规信息中包含的符号、其他的连接线和其他的下划线外的符号替换为空格,获得所述预处理日志。第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第以方面所述的日志分类的方法。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的日志分类的方法。相比于相关技术,本申请实施例提供的一种日志分类的方法、装置、计算机设备和计算机可存储介质,通过利用关联规则在预处理日志中获得高置信度的频繁项集,该高置信度的频繁项集中所包含的信息就是分类所需的关键信息,即分类依据,替代了相关技术中采用人工提取关键信息的方式,此外,通过有对预处理日志和高置信度的频繁项集进行有效编码,生成日志向量和高置信度的频繁项集向量,将该高置信度的频繁项集向量作为聚类分析的初始聚类中心,能够极大限度地提升聚类效果,减少迭代次数,能够明显提高日志分类的效率及准确性,解决了相关技术中人工提取关键词造成日志分类效率低的问题和随机选取聚类中心造成分类结果可用性低的问题。本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的一种日志分类的方法的流程图;图2是根据本申请实施例的一种日志分类的装置的结本文档来自技高网...

【技术保护点】
1.一种日志分类的方法,其特征在于,包括:/n获取待分类的原始日志;/n利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志,所述常规信息包括时间信息、地址信息、以及URL信息;/n利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集;/n对所述预处理日志中的词进行去重,得到无重复的词集;/n根据所述词集,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量;/n以所述高置信度的频繁项集向量为初始聚类中心,对所述日志向量和所述高置信度的频繁项集进行聚类分析,获得日志分类结果。/n

【技术特征摘要】
1.一种日志分类的方法,其特征在于,包括:
获取待分类的原始日志;
利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志,所述常规信息包括时间信息、地址信息、以及URL信息;
利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集;
对所述预处理日志中的词进行去重,得到无重复的词集;
根据所述词集,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量;
以所述高置信度的频繁项集向量为初始聚类中心,对所述日志向量和所述高置信度的频繁项集进行聚类分析,获得日志分类结果。


2.根据权利要求1所述的方法,其特征在于,利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志,包括:
将所述原始日志中的常规信息进行归一化处理,获得第一日志;
将所述第一日志中除所述常规信息中包含的数字外,将其他数数字替换为预设数字,获得第二日志;
将所述第二日志中除所述常规信息中包含的符号、其他的连接线和其他的下划线外的符号替换为空格,获得所述预处理日志。


3.根据权利要求2所述的方法,其特征在于,所述将所述原始日志中的常规信息进行归一化处理,获得第一日志,包括:
将所述常规信息中的所述时间信息统一为第一预设格式,将所述常规信息中的所述地址信息统一为第二预设格式,将所述常规信息中的所述URL信息统一为第三预设格式,得到所述第一日志。


4.根据权利要求1所述的方法,其特征在于,所述利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集,包括:
根据预设支持度对所述预处理日志进行迭代,提取出多个频繁项集;
计算所述多个频繁项集的置信度;
根据预设置信度从所述多个频繁项集中选取所述高置信度的频繁项集。


5.根据权利要求1所述的方法,其特征在于,所述对所述预处理日志中的词进行去重,得到无重复的词集,包括:
提取所述预处理日志中的所有词,获得初步词集;
删除所述初步词集中的重复词,得到所述词集。


6.根据权利要求1至5任一项所述的方法,其特征在于...

【专利技术属性】
技术研发人员:尹威范渊
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1