异构网络安全日志信息的自适应提取和分析方法及系统技术方案

技术编号:16842011 阅读:70 留言:0更新日期:2017-12-20 00:33
本发明专利技术公开了一种异构网络安全日志信息的自适应提取和分析方法及系统,包括:将样本日志按照日志相似度分类,构造每类日志的日志模式对象;基于日志模式对象,对原始日志进行分类,获得日志分类结果;基于日志分类结果,进行关键业务建模和分析。本发明专利技术提出的异构网络安全日志信息的自适应提取和分析方法,通过自动构建优化的正则表达式提取动态字段,避免了实施人员人工编写正则表达式可能遇到的性能陷阱,提高了对异构日志信息的提取和匹配效率;同时将实施人员从繁杂的技术细节中解放出来,将注意力转向到对日志的语义理解上。

An adaptive extraction and analysis method and system for security log information of heterogeneous networks

The invention discloses a heterogeneous network security log information extraction and adaptive analysis method and system, including: sample log log classification according to the similarity of objects, each type of log log model structure; log model based on the classification of the original log log, obtain the classification results; log classification based on the results of key business modeling and analysis. Adaptive extraction and analysis method of heterogeneous network security log information provided by the invention, the automatic construction of regular expression optimization of extracting dynamic field, avoiding the implementation of personnel manual performance trap regular expressions may be encountered, and improving the extraction of heterogeneous log information and matching efficiency; at the same time will be liberated from the technical details of miscellaneous personnel in turn their attention to semantic understanding of the log.

【技术实现步骤摘要】
异构网络安全日志信息的自适应提取和分析方法及系统
本专利技术属于信息安全领域,更具体地,涉及一种异构网络安全日志信息的自适应提取和分析方法及系统。
技术介绍
企业网络、服务器、安全设备、业务系统每天都会产生大量的安全日志,但这些日志数据往往数据量较大、信息零碎,给安全分析带来极大的困难。企业和安全团队更渴望可操作的数据。安全信息和事件管理(SIEM)及日志管理系统已经存在很长时间了。这种系统常用于中型和大型企业的IT部门进行数据分析。然而,在过去的十年中,这种技术的主要应用已经发生了变化。安全信息和事件管理(SIEM)及日志管理最初用于安全目的,即为了检测进入系统的木马、系统探测、未经批准的变更等。IT专业人员认为SIEM和日志管理可用于改进运营;他们利用日志文件和数据来定位问题,并帮助运营团队更有效地管理环境。然后,SIEM使用的重点被从运营转向了合规,使用SIEM和日志管理来帮助保障企业与法律法规保持统一。安全威胁的变化引起安全产品的变化。如今,在进行深入分析之前,通过冗长的集中、汇总、标准化、索引等手段来处理事件已经不合时宜。企业需要实时的或接近实时的分析和应对攻击。为了在企业内部有效的使用日志分析系统,运维人员往往要花费大量时间和精力用来梳理日志类型和格式,因此有必要提供了一种异构网络安全日志信息的自适应提取与分析方法,提高日志梳理的效率。公开于本专利技术
技术介绍
部分的信息仅仅旨在加深对本专利技术的一般
技术介绍
的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
技术实现思路
本专利技术的目的是解决目前传统日志提取和分析中异构网络安全日志关键字段提取步骤繁琐、实施工作量大;日志字段提取所依赖的正则表达式性能严重依赖实施人员经验且无可靠的性能评估手段;日志知识库积累缺乏便利手段,管理复杂的问题。根据本专利技术的一方面,提出了一种异构网络安全日志信息的自适应提取和分析方法,所述方法可以包括:将样本日志按照日志相似度分类,构造每类日志的日志模式对象;基于所述日志模式对象,对原始日志进行分类,获得日志分类结果;基于所述日志分类结果,进行关键业务建模和分析。优选地,通过所述日志模式对象的结构构建匹配所述日志模式对象的正则表达式,并在所述正则表达式中添加日志动态内容的捕获组。优选地,所述日志模式对象的结构包括:关键字集合、关键字顺序号、动态内容位置集合和动态内容数据类型。优选地,所述正则表达式通过程序自动生成且优化。优选地,还包括通过人工方式将所述动态内容与特定语义关联,形成范化日志。优选地,通过持续学习,识别新出现的日志类型并完善日志模式库。优选地,采用多线程的方式进行日志模式识别和分类。优选地,所述样本日志是随机选取的。根据本专利技术的另一方面,提出了一种异构网络安全日志信息的自适应提取和分析系统,所述系统包括:存储器,其上存储有计算机可执行指令;处理器,所述处理器执行所述存储器上的计算机可执行指令时执行以下步骤:将样本日志按照日志相似度分类,构造每类日志的日志模式对象;基于所述日志模式对象,对原始日志进行分类,获得日志分类结果;基于所述日志分类结果,进行关键业务建模和分析。优选地,通过所述日志模式对象的结构构建匹配所述日志模式对象的正则表达式,并在所述正则表达式中添加日志动态内容的捕获组。本专利技术的有益效果在于:将样本日志按照相似度分类,构造每类日志的日志模式对象,并通过程序自动生成且优化正则表达式,对原始日志进行分类,进行关键业务建模和分析,有效的解决了传统日志提取和分析中异构网络安全日志关键字段提取步骤繁琐、实施工作量大;日志字段提取所依赖的正则表达式性能严重依赖实施人员经验且无可靠的性能评估手段;日志知识库积累缺乏便利手段,管理复杂的问题。本专利技术的其它特征和优点将在随后具体实施方式部分予以详细说明。附图说明通过结合附图对本专利技术示例性实施方式进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显,其中,在本专利技术示例性实施方式中,相同的参考标号通常代表相同部件。图1示出了根据本专利技术的异构网络安全日志信息的自适应提取和分析方法的步骤的流程图。图2示出了根据本专利技术的一个实施例的构造日志模式对象的方法的步骤的流程图。具体实施方式下面将更详细地描述本专利技术的优选实施方式。虽然以下描述了本专利技术的优选实施方式,然而应该理解,可以以各种形式实现本专利技术而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本专利技术更加透彻和完整,并且能够将本专利技术的范围完整地传达给本领域的技术人员。实施例1在该实施例中,根据本专利技术的异构网络安全日志信息的自适应提取和分析方法可以包括:将样本日志按照日志相似度分类,构造每类日志的日志模式对象;基于日志模式对象,对原始日志进行分类,获得日志分类结果;基于日志分类结果,进行关键业务建模和分析。该实施例解决了目前传统日志提取和分析中异构网络安全日志关键字段提取步骤繁琐、实施工作量大;日志字段提取所依赖的正则表达式性能严重依赖实施人员经验且无可靠的性能评估手段;日志知识库积累缺乏便利手段,管理复杂的问题。图1示出了根据本专利技术的异构网络安全日志信息的自适应提取和分析方法的步骤的流程图。下面参考图1详细说明根据本专利技术的异构网络安全日志信息的自适应提取和分析方法的具体步骤。步骤101,将样本日志按照日志相似度分类,构造每类日志的日志模式对象。具体地,创建日志模式识别与分类引擎,该引擎包括日志模式识别模块和日志分类模块,日志模式识别模块将样本日志按照日志相似度分类,构造每类日志的日志模式对象。图2示出了根据本专利技术的一个实施例的构造日志模式对象的方法的步骤的流程图。下面参考图2详细说明根据本专利技术的构造日志模式对象的方法的具体步骤。步骤201,加载日志模式库。在学习到新日志模式前,仅利用日志模式库的知识进行模式分类,随着日志模式的学习更新,日志分类结果将跟随变化。步骤202,选取日志样本。在一个示例中,样本日志是随机选取的。具体地,按照一定的采样比随机选取一定数量的日志作为样本,而日志采样比仅影响学习速度,可以通过修改参数的方式调整采样比,以平衡学习速度与资源消耗。步骤203,识别动态内容。动态内容可基于配置不断扩展,识别样本日志中特定的动态内容,包括但不限于:ipV4地址、ipV6地址、时间日期、电子邮件、域名、单/双引号中的内容等。步骤204,计算日志相似度。对已剔除动态内容的样本日志两两比较计算其相似度,对于相似度满足阈值的两条日志,可判断为同类型日志。步骤205,识别关键字。对同类型日志进行过滤和迭代学习,识别日志关键字。步骤206,迭代学习并生成日志模式对象。日志样本数量对于动态内容识别和关键字提取准确性具有较大影响,采用多次迭代的方式保证计算性能和识别精度处于最佳平衡;通过迭代学习的结果(日志关键字和动态内容及类型)生成日志模式。在一个示例中,日志模式对象的数据结构如下:在一个示例中,日志模式对象描述了日志各组成部分的性质和顺序,通过日志模式对象的结构构建匹配日志模式对象的正则表达式,并在正则表达式中添加日志动态内容的捕获组。具体地,动态内容可基于配置不断扩展,动态内容的数据类型如下:在一个示例中,正则表达式通过程序自动生成且优化。在一个示例中,还包括通本文档来自技高网...
异构网络安全日志信息的自适应提取和分析方法及系统

【技术保护点】
一种异构网络安全日志信息的自适应提取和分析方法,其特征在于,该方法包括:将样本日志按照日志相似度分类,构造每类日志的日志模式对象;基于所述日志模式对象,对原始日志进行分类,获得日志分类结果;基于所述日志分类结果,进行关键业务建模和分析。

【技术特征摘要】
1.一种异构网络安全日志信息的自适应提取和分析方法,其特征在于,该方法包括:将样本日志按照日志相似度分类,构造每类日志的日志模式对象;基于所述日志模式对象,对原始日志进行分类,获得日志分类结果;基于所述日志分类结果,进行关键业务建模和分析。2.根据权利要求1所述的异构网络安全日志信息的自适应提取和分析方法,其中,通过所述日志模式对象的结构构建匹配所述日志模式对象的正则表达式,并在所述正则表达式中添加日志动态内容的捕获组。3.根据权利要求2所述的异构网络安全日志信息的自适应提取和分析方法,其中,所述日志模式对象的结构包括:关键字集合、关键字顺序号、动态内容位置集合和动态内容数据类型。4.根据权利要求2所述的异构网络安全日志信息的自适应提取和分析方法,其中,所述正则表达式通过程序自动生成且优化。5.根据权利要求2所述的异构网络安全日志信息的自适应提取和分析方法,其中,还包括通过人工方式将所述动态内容与特定语义关联,形成范化日志。6.根据权利要求1...

【专利技术属性】
技术研发人员:贾四虎
申请(专利权)人:北京盛华安信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1