一种基于CEL-MADDPG的多无人机围捕策略方法技术

技术编号：35018941 阅读：121 留言：0更新日期：2022-09-24 22:46

本发明专利技术提供了一种基于CEL

全部详细技术资料下载

【技术实现步骤摘要】
一种基于CEL
‑
MADDPG的多无人机围捕策略方法

[0001]本专利技术涉及多智能体系统和无人机智能决策领域，尤其是一种多无人机围捕策略方法。

技术介绍

[0002]随着近些年无线通信、人工智能等高新技术的发展，无人机在区域搜索、工业巡检、等诸多领域大放异彩。然而，一些不法分子利用无人机敏捷、隐蔽的特性，将无人机部署于对国家领土或基础设施的恶意间谍活动或恐怖袭击中，大大危害了国土领域安全。这一系列的恶意无人机事件，引发了无人技术研究界对空域安全的新思考。为了守卫空域安全，在敌方入侵我方领空进行非法情报侦察的场景中，采用多架防御无人机构成多无人机编队，让多无人机编队能够根据态势环境而自动进行对目标的包围驱逐或伴飞监视，具有重要意义。
[0003]现有对多无人机围捕策略的研究主要基于传统的一致性控制等方法，将若干无人机形成系统或集群，实现协同化决策。公开专利CN113917944A提出了一种无线紫外光协作集群无人机围捕方法，其中无人机集群基于贪婪最优效益构建多个子联盟，己方无人机之间通过不同波长紫外光信号进行防碰撞，通过效益最大化实现对目标的围捕。然而，该类方法只关注当前收益，当目标具备更优机动性能时，己方无人机难以完成战术布局，实现对目标的围捕。
[0004]深度强化学习(Deep Reinforcement Learning，DRL)通过最大化智能体从环境中获得的累计奖赏值，帮助智能体学习到完成任务的最优序列决策，目前已被广泛应用于智能控制、多智能体系...

【技术保护点】

【技术特征摘要】
1.一种基于CEL
‑
MADDPG的多无人机围捕策略方法，其特征在于包括下述步骤：步骤1：设定无人机状态信息：步骤2：设定无人机的动作信息和无人机的状态更新过程：通过直接控制无人机的受力，实现对无人机的运动姿态和飞行速度控制；因此，设定无人机动作状态信息为：A＝[F
x
,F
y
]其中，F
x
,F
y
分别表示无人机在x、y轴上的受力，则无人机的加速度表示为：a＝[a
x
,a
y
]＝[F
x
,F
y
]/m
u
其中，a
x
,a
y
分别表示无人机在x、y轴上的加速度，m
u
表示无人机质量；基于无人机受力的无人机状态更新过程表示为：其中，其中上标t表示时间，p
t
，v
t
，分别表示t时刻我方无人机的位置信息、速度信息和偏航角，x
t
‑1,y
t
‑1分别表示t
‑
1时刻我方无人机在x、y轴上的位置，分别表示t时刻我方无人机在x、y轴上的速度分量，分别表示t
‑
1时刻我方无人机在x、y轴上的速度分量，
△
t表示无人机运动时间间隔，a为无人机加速度，分别表示t时刻无人机加速度在x、y轴上的加速度分量；步骤3：定义奖励函数R：步骤4：结合课程学习策略，优化无人机奖励函数：在围捕课程学习中，引入课程奖励r
course
用于引导无人机对目标追踪子任务、包围过渡子任务、靠近捕获子任务进行学习；步骤4
‑
1：设定目标追踪子任务判定条件为：其中，d
capture
表示单机捕获距离，d
limit
表示针对目标追踪子任务到包围过渡子任务转化设定的阈值，当满足该条件时，课程奖励r
course
等于目标追踪子奖励r
track
，此时设定目标追踪子奖励为：
其中，d
max
为任务场景中目标与无人机的最大距离值；步骤4
‑
2：设定包围过渡子任务判定条件为：其中，表示无人机i、无人机i+1、目标E构成的三角形面积，U0和U
n
都用于表示最后一个即第n个无人机，当满足该条件时，课程奖励r
course
等于包围过渡子奖励r
encicle
，此时设定包围过渡子奖励为：步骤4
‑
3：设定靠近捕获子任务判定条件为：当满足该条件时，课程奖励r
course
等于靠近捕获子奖励r
capture
，此时设定靠近捕获子奖励为：其中，和分别表示t时刻和t
‑
1时刻无人机i到目标的距离；步骤4
‑
4：对于每个无人机，更新其受到的总奖励为：其中，β1～β4表示四项奖励的相应权重值；步骤4
‑
5：设定多无人机围捕判定条件：当目标处于多无人机围捕网内，且目标与各围捕无人机距离都小于捕获距离d
capture
时，视作目标无法逃逸，此时多无人机围捕任务完成；步骤5：引入相关性学习策略，基于深度强化学习CEL
‑
MADDPG算法，构建多无人机围捕决策模型并进行训练，通过CEL
‑
MADDPG神经网络进行拟合，输出无人机飞行动作，各个围捕无人机通过协同决策，实现对目标的靠近、包围、捕获。2.根据权利要求1所述的基于CEL
‑
MADDPG的多无人机围捕策略方法，其特征在于：所述步骤1中设定无人机状态信息的具体步骤为：对于每个围捕无人机，其状态信息S设定为：S＝[S
uav
,S
teamer
,S
obser
,S
target
]其中，S
uav
,S
teamer
,S
obser
,S
target
分别表示无人机自身状态信息、其他右方无人机状态信息、无人机自身观测状态信息和目标状态信息；在多无人机围捕机动决策任务中，设定任务场景宽度和长度分别为l
width
和l
length
，对于无人机i，设定无人机自身状态信息为：
其中，x
i
和y
i
表示第i个无人机在x、y轴上的坐标信息，和表示第i个无人机在x、y轴上的速度信息，v
max
为无人机最大速度；对于无人机i，设定友方无人机状态信息为：其中，n表示多无人机系统中无人机数量；对于无人机i，设定无人机自身观测状态信息为其中，d
i
和θ
i
分别表示我方围捕无人机与目标的距离和相对方位角；分别利用j个距离传感器对无人机周围环境进行探测；对于无人机i，设定无人机探测状态信息为：其中表示无人机i的各距离传感器示数，L表示距离传感器探测范围。3...

【专利技术属性】
技术研发人员：李波，黄晶益，谢国燕，杨志鹏，杨帆，万开方，高晓光，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人