【技术实现步骤摘要】
一种日志分类的方法和装置
本申请涉及计算机领域,特别是涉及一种日志分类的方法和装置。
技术介绍
如今网络安全问题受到的关注日益增多,为避免网络安全问题的发生,人们会在网络中添加入侵检测系统或入侵防御系统等安全设备,这些系统及系统中的程序在运作时都会产生记录事件的日志,每一条日志都记载着日期、时间、运行事件、事件发起方等相关信息的描述。此外,无论多么复杂的病毒,在入侵电脑或者系统的时候总归会在日志中留下蛛丝马迹,因此,如何对日志分类,才能在快速在日志中识别出有限信息,显得尤为重要。在相关技术中,通常采用聚类分析中的k-means算法对日志进行分类,在对日志进行聚类分析之前,需要人工提取关键词,当数据量大时,人工提取关键词容易出错且效率低,同时使用k-means算法进行日志分类,k-means算法在处理中是随机选取初始聚类中心的,若随机选取的聚类中心不适合,则得到好的分类效果。因此,相关技术中存在人工提取关键词造成日志分类效率低的问题和随机选取聚类中心造成分类结果可用性低的问题。目前针对相关技术中人工提取关键词造成日志分类效率低的问题和随机选取聚类中心造成分类结果可用性低的问题,尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种日志分类的方法、装置、计算机设备和计算机可读存储介质,以至少解决相关技术中聚类分析前需人工提取关键词和初始聚类中心随机选取造成的日志分类效率低且分类结果可用性低的问题和日志分类过于细化,造成的日志分类效率低的问题。第一方面,本申请实施例提供了一种日志 ...
【技术保护点】
1.一种日志分类的方法,其特征在于,包括:/n获取待分类的原始日志;/n利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志,所述常规信息包括时间信息、地址信息、以及URL信息;/n利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集;/n对所述预处理日志中的词进行去重,得到无重复的词集;/n根据所述词集,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量;/n以所述高置信度的频繁项集向量为初始聚类中心,对所述日志向量和所述高置信度的频繁项集进行聚类分析,获得日志分类结果。/n
【技术特征摘要】
1.一种日志分类的方法,其特征在于,包括:
获取待分类的原始日志;
利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志,所述常规信息包括时间信息、地址信息、以及URL信息;
利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集;
对所述预处理日志中的词进行去重,得到无重复的词集;
根据所述词集,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量;
以所述高置信度的频繁项集向量为初始聚类中心,对所述日志向量和所述高置信度的频繁项集进行聚类分析,获得日志分类结果。
2.根据权利要求1所述的方法,其特征在于,利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志,包括:
将所述原始日志中的常规信息进行归一化处理,获得第一日志;
将所述第一日志中除所述常规信息中包含的数字外,将其他数数字替换为预设数字,获得第二日志;
将所述第二日志中除所述常规信息中包含的符号、其他的连接线和其他的下划线外的符号替换为空格,获得所述预处理日志。
3.根据权利要求2所述的方法,其特征在于,所述将所述原始日志中的常规信息进行归一化处理,获得第一日志,包括:
将所述常规信息中的所述时间信息统一为第一预设格式,将所述常规信息中的所述地址信息统一为第二预设格式,将所述常规信息中的所述URL信息统一为第三预设格式,得到所述第一日志。
4.根据权利要求1所述的方法,其特征在于,所述利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集,包括:
根据预设支持度对所述预处理日志进行迭代,提取出多个频繁项集;
计算所述多个频繁项集的置信度;
根据预设置信度从所述多个频繁项集中选取所述高置信度的频繁项集。
5.根据权利要求1所述的方法,其特征在于,所述对所述预处理日志中的词进行去重,得到无重复的词集,包括:
提取所述预处理日志中的所有词,获得初步词集;
删除所述初步词集中的重复词,得到所述词集。
6.根据权利要求1至5任一项所述的方法,其特征在于...
【专利技术属性】
技术研发人员:尹威,范渊,
申请(专利权)人:杭州安恒信息技术股份有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。