基于深度强化学习的网络攻击检测方法技术

技术编号：37439958 阅读：6 留言：0更新日期：2023-05-06 09:11

一种基于深度强化学习的网络攻击检测方法。对原始数据集进行预处理，再对Agent进行构造，包括初始化Agent所处环境、规定智能体与环境的交互方式、训练策略和价值函数。根据状态对特征进行选择，将选择好的特征输入到检测模型中进行预测。将检测结果作为反馈回传给智能体Agent训练模块，并计算动作的Q(s，a)，刷新Q表。重复直到最优特征子集中包含的特征数达到最大，即模型收敛；或训练步长完成，生成最优特征子集。针对新型特征设计的处理方法能够反映出新型特征对于入侵攻击检测的重要性，若重要则会部署新型特征的专属最优特征子集，这样一来体现了最优特征子集的灵活性，可针对不同的攻击情形自发的采取相应措施。攻击情形自发的采取相应措施。攻击情形自发的采取相应措施。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的网络攻击检测方法

[0001]本专利技术涉及一种基于深度强化学习的网络攻击检测方法，属于信息安全

技术介绍

[0002]目前关于网络攻击检测方法的研究已经数不胜数，但多数的研究方法并没有重视对原始数据的特征处理，一味的强调检测算法的改进。本着“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已”的原则，本专利技术针对原始数据的特征处理问题展开研究。特征选择(Feature Selection)方法是针对原始数据和特征，通过剔除不相关、冗余、异常特征以及意义渺小的特征，提炼出最优特征子集，进一步提高模型训练精度，减少运行时间与资源消耗，属于一种搜索寻优的问题。目前传统的特征选择方法主要分为三大类，如Filter过滤法、Wrapper包装法、Embedded嵌入法，具体来说包括皮尔逊(Pearson)相关系数、卡方校验、距离测量、方差选择等方法，主要以数学特征为基础，结合搜索技术、统计学等多学科实现。虽然取得了可观的研究成果，但也存在着相应的缺点，比如计算过程相对复杂，数据特征会由于维度的增加呈指数级趋势增长；不能适应数据的发展变化，属于静态方法。因此，在数据特征动态发展变化的时代，应灵活选取最优特征集，此外，一经确定的最优特征集也不应该是一尘不变的，而是应该着眼于现实情况提出不同的方法来对此进行优化与更新。
[0003]目前正处于大数据时代，面对海量数据、高维数据，传统的特征选择方法已很难满足现实需求。而随着数据挖掘、机器学习等技术的发展，对特征的选取标准已不单单停留在...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的网络攻击检测方法，其特征在于，步骤如下：(1)特征选择智能体环境状态模型的构造；环境状态模型即智能体所需要的环境，包括奖励函数的定义与交互反馈规则的设计，具体内容如下：(1.1)首先使用U
t
来代表第t时刻智能体获得的折扣未来累积奖励，然后考虑具体的应用背景；折扣未来累积奖励U
t
：智能体能感知环境的状态并根据环境提供的反馈信号r
t
，通过学习选择动作，最大化折扣未来积累奖励；通过引入折扣因子γ来减小步骤之间的强关联性，将折扣未来累积奖励U
t
作为折扣未来累积奖励，其表达式为：其中，R
t
是第t时刻智能体接受的反馈，γ∈[0,1]是折扣系数，用于提升即时奖励而不是延迟奖励；当γ接近0时，表示更重视当下的回报；当γ接近1时，表示更重视未来的回报；(1.2)在定义好奖励函数后，设计智能体Agent与环境的交互反馈规则，即奖励机制；设计一种双奖励机制，考虑的评估指标包括检测结果的准确率accuracy、精确率precision、召回率recall以及模型的运行时间time，并设计如下的奖励公式：其中，ω表示衡量对应评估指标的权重矩阵，用来衡量各评估指标的重要性、设置偏好程度以及优先级等；R表示奖励矩阵，每个评估指标对应一个奖励分量；r_a表示准确率的反馈，r_p表示精确率的反馈，r_r表示召回率的反馈，r_t表示运行时间的反馈；在每一次迭代时，把新选择的特征添加到已选择的特征集，如果智能体使用新特征集训练出来的指标有所降低，那么就把新特征的reward设置为
‑
100；如果各项指标有所提升，首先记录提升过后的各项检测指标对应的反馈，即准确率r_a、精确率r_p、召回率r_r、运行时...

【专利技术属性】
技术研发人员：姚琳，田子缘，吴国伟，崔桂彰，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人