一种基于交互式博弈的网络流量异常检测方法技术

技术编号：37843355 阅读：10 留言：0更新日期：2023-06-14 09:48

本发明专利技术公开了一种基于交互式博弈的网络流量异常检测方法，结合强化学习算法，在训练过程中通过反馈使得模型接收外界的奖惩信号，从而对自身训练起到引导的作用，使模型指导体和模型之间的交互行为达到动态平衡状态，从而控制交互和反馈的频次。本发明专利技术的网络流量数据处理方法，采用交互式博弈的方式，模型指导体根据模型判断标准对模型的分析与决策进行反馈和评估，进而使得模型不断的在根据外部信息训练过程中获得更加精确的训练结果。为了更好的使得模型指导体和模型之间进行合作，建立模型合理的交互策略以及模型合理的反馈策略，使用动态贝叶斯博弈模型建立了一个二者间的信誉评估和更新机制，通过博弈建立起二者模型之间的均衡态。间的均衡态。间的均衡态。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于交互式博弈的网络流量异常检测方法

[0001]本专利技术涉及网络流量异常检测
，更具体的说是涉及一种基于交互式博弈的网络流量异常检测方法。

技术介绍

[0002]任何的网络流量异常检测模型都要具备适应不同网络场景的能力，随着网络环境的变化，模型要做出相应变化。在传统的网络流量异常检测中，将某个场景中的数据进行定量采集后，将其作为预先设计的机器学习算法模型的输入，进行模型的训练，当模型训练完备后，将当前模型发布到正式生产环境中使用，在使用过程中模型不具备针对当前网络的自适应能力。对于新型的攻击模型无法识别时，发出告警将对于当前数据的检测和排查工作交由网络运维人员处理。面对当下比以往规模更大、结构更复杂的网络基础设施、基础服务和线上业务环境，该过程加大了网络运维人员的工作量，已经无法满足当前监控和管理任务的需要。
[0003]因此，如何提高网络流量异常检测的自适应能力是本领域技术人员亟需解决的问题。

技术实现思路

[0004]有鉴于此，本专利技术提供了一种基于交互式博弈的网络流量异常检测方法，结合强化学习算法，在训练过程中通过反馈使得模型接收外界的奖惩信号，从而对自身训练起到引导的作用，并采集外部交互数据，建立博弈模型，提高训练精确度，且提交网络流量异常检测的自适应能力。
[0005]为了实现上述目的，本专利技术采用如下技术方案：
[0006]一种交互式博弈的网络流量异常检测方法，包括以下步骤：
[0007]步骤1：在局域网内采集网络数据，构建模拟网络拓扑，在...

【技术保护点】

【技术特征摘要】
1.一种基于交互式博弈的网络流量异常检测方法，其特征在于，包括以下步骤：步骤1：采集局域网内网络数据，根据所述网络数据在所述局域网内建立模拟网络拓扑，根据模拟网络拓扑构建虚拟机模拟客户机和服务器之间发送数据包过程中的网络攻击，并采集数据包；步骤2：根据所述网络数据基于强化学习进行训练构建交互式引导异常检测模型，预设博弈要素，利用机器学习方法对交互式引导异常检测模型进行交互博弈；步骤3：预设交互规则，采集交互博弈过程中的环境奖励和交互反馈奖励，根据所述环境奖励、所述交互反馈奖励和所述交互规则对所述交互式引导异常检测模型进行训练，获得自适应异常检测模型；步骤4：利用自适应异常检测模型，对采集到的数据包进行网络流量异常检测，获得检测结果。2.根据权利要求1所述的一种基于交互式博弈的网络流量异常检测方法，其特征在于，所述博弈要素包括博弈策略和博弈收益；博弈策略包括交互式引导异常检测模型的模型策略集和模型策略概率分布，以及交互策略集和交互策略概率分布；模型策略集为[m0，m1，m2]，其中m0表示不发起交互，m1表示发起交互且自身将数据判断为异常数据，m2表示发起交互且自身将数据判断为正常数据；模型策略概率分布为[p0，p1，p2]，p0+p1+p2＝1；交互策略集为[a0，a1，a2]，其中a0表示不反馈，a1表示反馈且反馈内容为数据类别为正常数据，a2表示反馈并且反馈内容为数据类别为异常数据；交互策略概率分布为[q0，q1，q2]，q0+q1+q2＝1；博弈收益包括单步博弈模型失败收益、单步博弈模型胜出收益、模型进攻成功收益、博弈静默收益、交互进攻失败收益和交互进攻成功收益；单步博弈模型失败收益，模型收益等于交互的成本加上给予模型相应的惩罚P；交互收益为系统总资源R减去给予模型反馈所需要的成本单步博弈模型胜出收益，模型收益等于系统总资源R减去交互的成本交互收益等于相应的惩罚P加上反馈所需要的成本模型进攻成功收益，模型收益为系统总资源R减...

【专利技术属性】
技术研发人员：白新有，张文哲，李荣，魏松杰，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人