内网环境下基于强化学习的蜜网部署策略生成方法技术

技术编号：44132261 阅读：33 留言：0更新日期：2025-01-24 22:52

本发明专利技术公开了一种内网环境下基于强化学习的蜜网部署策略生成方法，方法包括：随机生成多个节点，构建内网环境；构建攻击智能体，攻击智能体与内网环境进行分阶段交互预训练攻击智能体；为每个蜜罐智能体分配带有不同攻击意图的预训练攻击智能体，在网环境中预训练蜜罐智能体；初始化预训练蜜罐智能体，利用预训练蜜罐智能体构建蜜网环境；在蜜网环境中，预训练攻击智能体与预训练蜜罐智能体进行交互，预训练决策智能体；使用MADDPG算法对所有智能体进行训练，利用预训练蜜罐智能体和预训练决策智能体构建分层防御智能体，更新每个智能体的策略网络和价值网络。本发明专利技术通过动态部署策略提升了蜜网系统的自适应能力，并增强了内网环境的安全防护水平。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于网络安全的，具体涉及一种内网环境下基于强化学习的蜜网部署策略生成方法。

技术介绍

1、传统防御主要根据已有的攻击制定相应的规则，无法抵御未知攻击。不同的网络安全防护设备之间缺少联动性。现有的检测机制大多是通过异常表征进行识别，具有滞后性。与正面抵御网络攻击的防御方法不同，蜜罐技术通过欺骗攻击者、显著消耗攻击资源来减少网络入侵对目标对象的威胁，并通过对诱捕的攻击流量和攻击行为进行分析，得到攻击者使用的攻击方式、攻击工具以及攻击意图等信息。但是传统的蜜罐在部署时需要确定蜜罐系统的网络位置，通常会部署在dmz(demilitarized zone)区，并配置网络交换机和路由器为蜜罐系统分配ip地址，所以存在传统蜜罐部署应用中静态配置、位置固定易被攻击者识别、标注、绕过的问题。可见，传统蜜罐是一种“被动式主动防御”的手段。另外，蜜罐仅具有有限的视角，通常仅模拟单个系统或服务的行为。相比之下，蜜网配置了多个具有漏洞的蜜罐作为陷阱，从而提供了更多维度的攻击数据。这些数据包括攻击者在内网中横向移动的行为、攻击链的全貌等信息，有助于更好地理解和应对网络威胁。

2、对于蜜网部署策略生成相关的研究，其主要分成两大类。一类是通过对攻击者的攻击信息分析，动态部署蜜网。bartwal等人通过分析攻击者的pcap包中的信息，在虚拟机上拉取恶意流量攻击类别对应的蜜罐镜像文件，将镜像文件与pcap包中的目的ip进行链接，从而实现动态的蜜罐部署，解决了什么时间部署什么类型蜜罐的问题。huang等人聚焦于内部威胁对网络造成的危害，通过建模

3、另一类是针对网络环境进行建模，通过分析网络环境本身的特性，动态部署蜜网。kong等人旨在云环境中实现自动化蜜网部署策略，通过实时监控云系统的变化，更新攻击图，识别攻击图中的关键节点，将蜜网的部署抽象成集合覆盖问题，最终实现蜜网的动态部署。yang等人通过建立攻击图分析网络中每个节点的脆弱性制定蜜网的部署策略，使用蚁群算法模拟蜜网中蜜罐的保留决策，使用狼群算法根据蜜罐收集的信息确定蜜罐的价值，从而实现蜜网的动态部署。fraunholz等人为了避免蜜罐的指纹被攻击者识别，提出了上下文感知，从而正确部署内容配置正确的蜜罐的方法，内网环境的配置信息作为训练数据，利用k-means算法进行聚类，根据实体特征自动生成配置信息。

4、建模攻击者或攻击信息并对其进行分析从而动态生成蜜网部署策略的这类方法，需要深入理解攻击者的行为特征和攻击手法。这种建模过程不仅涉及攻击者动机、目标选择、攻击手段等要素的抽象化表示，还包括行为随时间演变的动态特性。通过建模攻击者和防御者双方的模型的博弈，实现蜜罐或蜜网的部署，这些方法更多考虑的是每个蜜罐的部署位置，没有考虑蜜罐之间的联动性。

5、基于内网环境生成蜜网部署与配置的方法，通过映射主机自身的配置信息和主机之间的联通关系，识别内网中的关键节点。在关键节点上部署蜜罐或在每个关键节点附近部署蜜罐从而增强对已知威胁的有效侦测与防御。然而，在关键节点的选择方面，该方法主要依赖于对已知网络漏洞的建模和推理，这限制了其对未知攻击模式的识别和防御能力。

技术实现思路

1、本专利技术的主要目的在于克服现有技术的缺点与不足，提供一种内网环境下基于强化学习的蜜网部署策略生成方法，针对传统蜜罐部署应用中静态配置、位置固定易被攻击者识别、标注、绕过的问题，利用强化学习框架，建模攻击智能体与蜜网模拟的企业内网环境的交互过程，并实现蜜网环境的动态变换，同时通过动态变换蜜罐的ip、服务、漏洞等信息，达到缓解蜜罐容易被攻击者规避的问题、迟滞攻击行为、识别攻击特征并辅助判别攻击意图的目的，实现“自动化主动防御”，提高防御效率，有效保护服务资源。

2、为了达到上述目的，本专利技术采用以下技术方案：

3、本专利技术提供了一种内网环境下基于强化学习的蜜网部署策略生成方法，包括下述步骤：

4、随机生成多个节点，每个节点分配一个蜜罐智能体，每个蜜罐智能体存在至少一个服务和对应的漏洞，基于服务类型构建蜜罐智能体间连通性，构建内网环境；

5、构建攻击智能体，攻击智能体与内网环境进行分阶段交互，预备阶段获取预训练攻击智能体，混合训练阶段获取具有判断能力的攻击智能体；

6、根据服务类型为每个蜜罐智能体分配带有不同攻击意图的预训练攻击智能体，预训练攻击智能体选择攻击动作改变内网环境，蜜罐智能体根据内网环境部署合适的漏洞，经过多次交互后，获取预训练蜜罐智能体；

7、初始化预训练蜜罐智能体，利用预训练蜜罐智能体构建蜜网环境；

8、在蜜网环境中，预训练攻击智能体与预训练蜜罐智能体进行交互，构建决策智能体，决策智能体根据交互信息推理预测预训练攻击智能体的攻击意图，动态配置并调整预训练蜜罐智能体及其服务，获取预训练决策智能体；

9、利用预训练蜜罐智能体和预训练决策智能体构建分层防御智能体，预训练攻击智能体对分层防御智能体进行攻击，预训练决策智能体获取预训练攻击智能体信息并判断类型和攻击意图，下发防御目标，预训练蜜罐智能体接受防御目标，自动生成与目标匹配的服务类型漏洞，使用maddpg算法对所有智能体进行训练，更新每个智能体的策略网络和价值网络，得到最终蜜罐智能体、决策智能体和攻击智能体。

10、作为优选的技术方案，所述攻击智能体与内网环境进行分阶段交互，包括预备阶段和训练阶段；

11、预备阶段：创建攻击动作集合apre＝{a1,a2,……，an},ai表示攻击动作i，n为攻击动作的数量，所述攻击动作类型包括远程连接类的攻击、本地攻击和提权攻击，使用ddpg算法对攻击智能体进行训练，攻击智能体选择攻击动作对内网环境进行攻击，若攻击成功，则获取奖励；

12、混合训练阶段：加入识别蜜罐智能体动作，训练攻击动作集合atrn＝{a1,a2,……,an,b1,b2,……,bm}，bj表示识别蜜罐的动作j，m为识别动作的数量；使用maddpg算法混合训练攻击智能体与其他所有智能体，攻击智能体在训练攻击动作集合atrn选择动作对内网环境进行攻击，当攻击者智能体成功识别蜜罐并退出时，则获取奖励。

13、作为优选的技术方案，所述根据服务类型为每个蜜罐智能体分配不同攻击意图的预训练攻击智能体，具体为：

14、将预训练攻击智能体部署在内网环境中，设置攻击意图集合des＝{d1,d2本文档来自技高网...

【技术保护点】

1.一种内网环境下基于强化学习的蜜网部署策略生成方法，其特征在于，包括下述步骤：

2.根据权利要求1所述内网环境下基于强化学习的蜜网部署策略生成方法，其特征在于，所述攻击智能体与内网环境进行分阶段交互，包括预备阶段和训练阶段；

3.根据权利要求1所述内网环境下基于强化学习的蜜网部署策略生成方法，其特征在于，所述根据服务类型为每个蜜罐智能体分配不同攻击意图的预训练攻击智能体，具体为：

4.根据权利要求1所述内网环境下基于强化学习的蜜网部署策略生成方法，其特征在于，在蜜罐智能体预训练时，包括以下步骤：

5.根据权利要求1所述内网环境下基于强化学习的蜜网部署策略生成方法，其特征在于，所述初始化预训练蜜罐智能体，包括：

6.根据权利要求1所述内网环境下基于强化学习的蜜网部署策略生成方法，其特征在于，在决策智能体预训练时，包括以下步骤：

7.根据权利要求1所述内网环境下基于强化学习的蜜网部署策略生成方法，其特征在于，所述利用预训练蜜罐智能体和预训练决策智能体构建分层防御智能体，包括：

8.根据权利要求1所述

9.根据权利要求1所述内网环境下基于强化学习的蜜网部署策略生成方法，其特征在于，所述策略网络θi的更新，如下式：

10.根据权利要求1所述内网环境下基于强化学习的蜜网部署策略生成方法，其特征在于，所述决策智能体和蜜罐智能体的价值网络更新公式如下：

...

【技术特征摘要】

1.一种内网环境下基于强化学习的蜜网部署策略生成方法，其特征在于，包括下述步骤：

4.根据权利要求1所述内网环境下基于强化学习的蜜网部署策略生成方法，其特征在于，在蜜罐智能体预训练时，包括以下步骤：

5.根据权利要求1所述内网环境下基于强化学习的蜜网部署策略生成方法，其特征在于，所述初始化预训练蜜罐智能体，包括：

6.根据权利要求1所述内网环境下基于强化学习的蜜网...

【专利技术属性】
技术研发人员：王乐，徐颖慧，邓建宇，谭灏南，朱俊义，刘治彤，林尧，张晨辉，郑天宇，
申请(专利权)人：广州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人