本公开涉及网络安全技术领域,具体涉及基于改进孤立森林算法的web流量异常检测方法及装置、存储介质以及终端设备。所述方法包括:采集web防火墙历史日志数据,以及web防火墙待测日志数据;对所述web防火墙历史日志数据进行特征提取,以基于特征提取结果构建基于孤立森林模型的异常检测模型;将所述web防火墙待测日志数据输入所述基于孤立森林模型的异常检测模型,以获取异常检测结果。本公开的方法在保障原有算法效率的情况下,提高了对异常流量的识别准确率,并降低误报。并降低误报。并降低误报。
【技术实现步骤摘要】
基于改进孤立森林算法的web流量异常检测方法及装置
[0001]本公开涉及网络安全
,具体涉及一种基于改进孤立森林算法的web流量异常检测方法、一种基于改进孤立森林算法的web流量异常检测装置、一种存储介质以及一种终端设备。
技术介绍
[0002]Web防火墙是信息安全的第一道防线。随着网络技术的快速更新,新的黑客技术也层出不穷,为传统规则防火墙带来了挑战。传统web入侵检测技术通过维护规则集对入侵访问进行拦截。一方面,硬规则在灵活的黑客面前,很容易被绕过,且基于以往知识的规则集难以应对0day攻击;另一方面,攻防对抗水涨船高,防守方规则的构造和维护门槛高、资源消耗成本大。然而,传统的孤立森林异常检测算法异常分数计算存在局限性,不擅长处理含有大量局部相对稀疏点的web流量数据,且对于多数特征不明显的web流量数据,平均计算搜索深度的计算方式容易导致低相关度特征影响最终异常判断。
[0003]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
[0004]本公开的目的在于提供一种基于改进孤立森林算法的web流量异常检测方法、一种基于改进孤立森林算法的web流量异常检测装置、一种存储介质以及一种终端设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的传统孤立森林算法在web流量异常检测领域应用受限。
[0005]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0006]根据本公开的第一方面,提供一种基于改进孤立森林算法的web流量异常检测方法,所述方法包括:
[0007]采集web防火墙历史日志数据,以及web防火墙待测日志数据;
[0008]对所述web防火墙历史日志数据进行特征提取,以基于特征提取结果构建基于孤立森林模型的异常检测模型;
[0009]将所述web防火墙待测日志数据输入所述基于孤立森林模型的异常检测模型,以获取异常检测结果。
[0010]在本公开的一种示例性实施例中,所述对所述web防火墙历史日志数据进行特征提取,以基于特征提取结果构建基于孤立森林模型的异常检测模型,包括:
[0011]对web防火墙历史日志数据进行解析,以获取多个维度的特征数据,并将所述特征数据作为训练样本;
[0012]基于所述特征数据构建孤立树集合;
[0013]计算根据异常样本到正常样本中心的距离、正常样本到正常样本中心的距离计算
第一权值w1;
[0014]利用不合度量计算孤立树之间的多样性确定对称矩阵,并利用对称矩阵计算第二权值系数w2;
[0015]结合所述第一权值w1、第二权值w2进行异常分数计算。
[0016]在本公开的一种示例性实施例中,所述对web防火墙历史日志数据进行解析,以获取多个维度的特征数据,包括:
[0017]对web防火墙历史日志数据中的HTTP请求进行泛化处理,并基于预设的特征字段提取多个维度的特征数据。
[0018]在本公开的一种示例性实施例中,所述方法还包括:
[0019]在各维度的特征数据中添加预设比例的已知异常样本,以构建训练样本。
[0020]在本公开的一种示例性实施例中,所述基于所述特征数据构建孤立树集合,包括:
[0021]基于各类型的特征数据分别构建对应的孤立树集合。
[0022]在本公开的一种示例性实施例中,所述第一权值w1为孤立树权值。
[0023]在本公开的一种示例性实施例中,所述第二权值系数w2为孤立树路径深度权值系数;
[0024]所述利用不合度量计算孤立树之间的多样性确定对称矩阵,并利用对称矩阵计算第二权值系数w2,包括:
[0025]利用不合度量计算孤立树之间的多样性确定对称矩阵;
[0026]岁所述对称矩阵按列计算均值,并将所述均值作为孤立树路径深度权值系数。
[0027]根据本公开的第二方面,提供一种基于改进孤立森林算法的web流量异常检测装置,所述装置包括:
[0028]数据采集模块,用于采集web防火墙历史日志数据,以及web防火墙待测日志数据;
[0029]模型训练模块,用于对所述web防火墙历史日志数据进行特征提取,以基于特征提取结果构建基于孤立森林模型的异常检测模型;
[0030]检测结果输出模块,用于将所述web防火墙待测日志数据输入所述基于孤立森林模型的异常检测模型,以获取异常检测结果。
[0031]根据本公开的第三方面,提供一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的基于改进孤立森林算法的web流量异常检测方法。
[0032]根据本公开的第四方面,提供一种终端设备,包括:
[0033]处理器;以及
[0034]存储器,用于存储所述处理器的可执行指令;
[0035]其中,所述处理器配置为经由执行所述可执行指令来执行上述的基于改进孤立森林算法的web流量异常检测方法。
[0036]本公开的一种实施例所提供的基于改进孤立森林算法的web流量异常检测方法中,通过采集的web防火墙历史日志数据进行特征提取,并基于特征提取结果来构建基于改进孤立森林模型的异常检测模型,从而可以利用该模型对web防火墙待测日志数据进行检测,并确定对应的检测结果。在保障原有算法效率的情况下,提高了对异常流量的识别准确率,并降低误报。
[0037]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不
能限制本公开。
附图说明
[0038]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1示意性示出本公开示例性实施例中一种基于改进孤立森林算法的web流量异常检测方法的示意图;
[0040]图2示意性示出本公开示例性实施例中一种构建基于孤立森林模型的异常检测模型方法的示意图;
[0041]图3示意性示出本公开示例性实施例中一种基于改进孤立森林算法的web流量异常检测装置的示意图;
[0042]图4示意性示出本公开示例性实施例中一种终端设备的组成示意图;
[0043]图5示意性示出本公开示例性实施例中一种存储介质的示意图。
具体实施方式
[0044]现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
[00本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于改进孤立森林算法的web流量异常检测方法,其特征在于,所述方法包括:采集web防火墙历史日志数据,以及web防火墙待测日志数据;对所述web防火墙历史日志数据进行特征提取,以基于特征提取结果构建基于孤立森林模型的异常检测模型;将所述web防火墙待测日志数据输入所述基于孤立森林模型的异常检测模型,以获取异常检测结果。2.根据权利要求1所述的基于改进孤立森林算法的web流量异常检测方法,其特征在于,所述对所述web防火墙历史日志数据进行特征提取,以基于特征提取结果构建基于孤立森林模型的异常检测模型,包括:对web防火墙历史日志数据进行解析,以获取多个维度的特征数据,并将所述特征数据作为训练样本;基于所述特征数据构建孤立树集合;计算根据异常样本到正常样本中心的距离、正常样本到正常样本中心的距离计算第一权值w1;利用不合度量计算孤立树之间的多样性确定对称矩阵,并利用对称矩阵计算第二权值系数w2;结合所述第一权值w1、第二权值w2进行异常分数计算。3.根据权利要求2所述的基于改进孤立森林算法的web流量异常检测方法,其特征在于,所述对web防火墙历史日志数据进行解析,以获取多个维度的特征数据,包括:对web防火墙历史日志数据中的HTTP请求进行泛化处理,并基于预设的特征字段提取多个维度的特征数据。4.根据权利要求2或3所述的基于改进孤立森林算法的web流量异常检测方法,其特征在于,所述方法还包括:在各维度的特征数据中添加预设比例的已知异常样本,以构建训练样本。5.根据权利要求2所述的基于改进孤立森林算法的web流...
【专利技术属性】
技术研发人员:钟良志,白冰,董康辉,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。