【技术实现步骤摘要】
一种基于CEL
‑
MADDPG的多无人机围捕策略方法
[0001]本专利技术涉及多智能体系统和无人机智能决策领域,尤其是一种多无人机围捕策略 方法。
技术介绍
[0002]随着近些年无线通信、人工智能等高新技术的发展,无人机在区域搜索、工业巡 检、等诸多领域大放异彩。然而,一些不法分子利用无人机敏捷、隐蔽的特性,将无 人机部署于对国家领土或基础设施的恶意间谍活动或恐怖袭击中,大大危害了国土领 域安全。这一系列的恶意无人机事件,引发了无人技术研究界对空域安全的新思考。 为了守卫空域安全,在敌方入侵我方领空进行非法情报侦察的场景中,采用多架防御 无人机构成多无人机编队,让多无人机编队能够根据态势环境而自动进行对目标的包 围驱逐或伴飞监视,具有重要意义。
[0003]现有对多无人机围捕策略的研究主要基于传统的一致性控制等方法,将若干无人 机形成系统或集群,实现协同化决策。公开专利CN113917944A提出了一种无线紫外 光协作集群无人机围捕方法,其中无人机集群基于贪婪最优效益构建多个子联盟,己 方无人机之间通过不同波长紫外光信号进行防碰撞,通过效益最大化实现对目标的围 捕。然而,该类方法只关注当前收益,当目标具备更优机动性能时,己方无人机难以 完成战术布局,实现对目标的围捕。
[0004]深度强化学习(Deep Reinforcement Learning,DRL)通过最大化智能体从环境中获 得的累计奖赏值,帮助智能体学习到完成任务的最优序列决策,目前已被广泛应用于 智能控制、多智能体系 ...
【技术保护点】
【技术特征摘要】
1.一种基于CEL
‑
MADDPG的多无人机围捕策略方法,其特征在于包括下述步骤:步骤1:设定无人机状态信息:步骤2:设定无人机的动作信息和无人机的状态更新过程:通过直接控制无人机的受力,实现对无人机的运动姿态和飞行速度控制;因此,设定无人机动作状态信息为:A=[F
x
,F
y
]其中,F
x
,F
y
分别表示无人机在x、y轴上的受力,则无人机的加速度表示为:a=[a
x
,a
y
]=[F
x
,F
y
]/m
u
其中,a
x
,a
y
分别表示无人机在x、y轴上的加速度,m
u
表示无人机质量;基于无人机受力的无人机状态更新过程表示为:其中,其中上标t表示时间,p
t
,v
t
,分别表示t时刻我方无人机的位置信息、速度信息和偏航角,x
t
‑1,y
t
‑1分别表示t
‑
1时刻我方无人机在x、y轴上的位置,分别表示t时刻我方无人机在x、y轴上的速度分量,分别表示t
‑
1时刻我方无人机在x、y轴上的速度分量,
△
t表示无人机运动时间间隔,a为无人机加速度,分别表示t时刻无人机加速度在x、y轴上的加速度分量;步骤3:定义奖励函数R:步骤4:结合课程学习策略,优化无人机奖励函数:在围捕课程学习中,引入课程奖励r
course
用于引导无人机对目标追踪子任务、包围过渡子任务、靠近捕获子任务进行学习;步骤4
‑
1:设定目标追踪子任务判定条件为:其中,d
capture
表示单机捕获距离,d
limit
表示针对目标追踪子任务到包围过渡子任务转化设定的阈值,当满足该条件时,课程奖励r
course
等于目标追踪子奖励r
track
,此时设定目标追踪子奖励为:
其中,d
max
为任务场景中目标与无人机的最大距离值;步骤4
‑
2:设定包围过渡子任务判定条件为:其中,表示无人机i、无人机i+1、目标E构成的三角形面积,U0和U
n
都用于表示最后一个即第n个无人机,当满足该条件时,课程奖励r
course
等于包围过渡子奖励r
encicle
,此时设定包围过渡子奖励为:步骤4
‑
3:设定靠近捕获子任务判定条件为:当满足该条件时,课程奖励r
course
等于靠近捕获子奖励r
capture
,此时设定靠近捕获子奖励为:其中,和分别表示t时刻和t
‑
1时刻无人机i到目标的距离;步骤4
‑
4:对于每个无人机,更新其受到的总奖励为:其中,β1~β4表示四项奖励的相应权重值;步骤4
‑
5:设定多无人机围捕判定条件:当目标处于多无人机围捕网内,且目标与各围捕无人机距离都小于捕获距离d
capture
时,视作目标无法逃逸,此时多无人机围捕任务完成;步骤5:引入相关性学习策略,基于深度强化学习CEL
‑
MADDPG算法,构建多无人机围捕决策模型并进行训练,通过CEL
‑
MADDPG神经网络进行拟合,输出无人机飞行动作,各个围捕无人机通过协同决策,实现对目标的靠近、包围、捕获。2.根据权利要求1所述的基于CEL
‑
MADDPG的多无人机围捕策略方法,其特征在于:所述步骤1中设定无人机状态信息的具体步骤为:对于每个围捕无人机,其状态信息S设定为:S=[S
uav
,S
teamer
,S
obser
,S
target
]其中,S
uav
,S
teamer
,S
obser
,S
target
分别表示无人机自身状态信息、其他右方无人机状态信息、无人机自身观测状态信息和目标状态信息;在多无人机围捕机动决策任务中,设定任务场景宽度和长度分别为l
width
和l
length
,对于无人机i,设定无人机自身状态信息为:
其中,x
i
和y
i
表示第i个无人机在x、y轴上的坐标信息,和表示第i个无人机在x、y轴上的速度信息,v
max
为无人机最大速度;对于无人机i,设定友方无人机状态信息为:其中,n表示多无人机系统中无人机数量;对于无人机i,设定无人机自身观测状态信息为其中,d
i
和θ
i
分别表示我方围捕无人机与目标的距离和相对方位角;分别利用j个距离传感器对无人机周围环境进行探测;对于无人机i,设定无人机探测状态信息为:其中表示无人机i的各距离传感器示数,L表示距离传感器探测范围。3...
【专利技术属性】
技术研发人员:李波,黄晶益,谢国燕,杨志鹏,杨帆,万开方,高晓光,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。