一种基于CEL-MADDPG的多无人机围捕策略方法技术

技术编号:35018941 阅读:92 留言:0更新日期:2022-09-24 22:46
本发明专利技术提供了一种基于CEL

【技术实现步骤摘要】
一种基于CEL

MADDPG的多无人机围捕策略方法


[0001]本专利技术涉及多智能体系统和无人机智能决策领域,尤其是一种多无人机围捕策略 方法。

技术介绍

[0002]随着近些年无线通信、人工智能等高新技术的发展,无人机在区域搜索、工业巡 检、等诸多领域大放异彩。然而,一些不法分子利用无人机敏捷、隐蔽的特性,将无 人机部署于对国家领土或基础设施的恶意间谍活动或恐怖袭击中,大大危害了国土领 域安全。这一系列的恶意无人机事件,引发了无人技术研究界对空域安全的新思考。 为了守卫空域安全,在敌方入侵我方领空进行非法情报侦察的场景中,采用多架防御 无人机构成多无人机编队,让多无人机编队能够根据态势环境而自动进行对目标的包 围驱逐或伴飞监视,具有重要意义。
[0003]现有对多无人机围捕策略的研究主要基于传统的一致性控制等方法,将若干无人 机形成系统或集群,实现协同化决策。公开专利CN113917944A提出了一种无线紫外 光协作集群无人机围捕方法,其中无人机集群基于贪婪最优效益构建多个子联盟,己 方无人机之间通过不同波长紫外光信号进行防碰撞,通过效益最大化实现对目标的围 捕。然而,该类方法只关注当前收益,当目标具备更优机动性能时,己方无人机难以 完成战术布局,实现对目标的围捕。
[0004]深度强化学习(Deep Reinforcement Learning,DRL)通过最大化智能体从环境中获 得的累计奖赏值,帮助智能体学习到完成任务的最优序列决策,目前已被广泛应用于 智能控制、多智能体系统、博弈对抗等领域中。公开专利CN113625775A提出了一种 状态预测和DDPG相结合的多无人机围捕方法,通过最小二乘法预测无人机状态信息, 然后基于深度强化学习DDPG算法对无人机模型进行训练,实现多无人机协同围捕。 然而,该方法中各无人机之间关联性较差,难以实现高效率的智能化协同决策。公开 专利CN113467508A提出了一种面向围捕任务的多无人机智能协同决策方法,基于状 态部分可观测的特点、任务环境动态性与不确定性因素的影响,采用多智能体深度强 化学习方法和避障机制,获得最优行动策略,达到多无人机智能协同决策的目的。然 而,该训练方法依赖大量样本数据,大大影响训练效率。同时,考虑到各无人机既需 要完成对目标的接近和自主障碍物规避,也需要考虑多智能体系统中的其他无人机单 元信息,通过合作完成对包围捕获。因此,让各无人机在适当的状态下学习合适的行 为,提升多无人机协同决策的有效性,也是我们需要关注的。
[0005]课程学习(Curriculum Learning,CL)的基本思想是将一个困难的目标任务排序 为一系列更简单的任务,使得智能体可以通过依次解决课程中易处理的子任务来逐步 学习复杂的策略。因此,如何将课程学习方法引入到多智能体深度强化学习方法之中, 并与复杂的多无人机围捕决策模型相结合以改善各无人机的自主行为,并通过协同决 策完成对目标的靠近、包围、捕获,成为了深度强化学习在多无人机智能决策领域运 用的难题。
过渡子任务、靠近捕获子任务进行学习;
[0020]步骤4

1:设定目标追踪子任务判定条件为:
[0021][0022]其中,d
capture
表示单机捕获距离,d
limit
表示针对目标追踪子任务到包围过渡子任务转 化设定的阈值。当满足该条件时,课程奖励r
course
等于目标追踪子奖励r
track
,此时设定 目标追踪子奖励为:
[0023][0024]其中,d
max
为任务场景中目标与无人机的最大距离值;
[0025]步骤4

2:设定包围过渡子任务判定条件为:
[0026][0027]其中,表示无人机i、无人机i+1、目标E构成的三角形面积,U0和U
n
都用 于表示最后一个即第n个无人机,当满足该条件时,课程奖励r
course
等于包围过渡子奖 励r
encicle
,此时设定包围过渡子奖励为:
[0028][0029]步骤4

3:设定靠近捕获子任务判定条件为:
[0030][0031]当满足该条件时,课程奖励r
course
等于靠近捕获子奖励r
capture
,此时设定靠近捕获子 奖励为:
[0032][0033]其中,和分别表示t时刻和t

1时刻无人机i到目标的距离;
[0034]步骤4

4:对于每个无人机,更新其受到的总奖励为:
[0035][0036]其中,β1~β4表示四项奖励的相应权重值;
[0037]步骤4

5:设定多无人机围捕判定条件:当目标处于多无人机围捕网内,且目标 与各围捕无人机距离都小于捕获距离d
capture
时,视作目标无法逃逸,此时多无人机围捕 任务完成;
[0038]步骤5:引入相关性学习策略,基于深度强化学习CEL

MADDPG算法,构建多 无人机
围捕决策模型并进行训练,通过CEL

MADDPG神经网络进行拟合,输出无人 机飞行动作,各个围捕无人机通过协同决策,实现对目标的靠近、包围、捕获。
[0039]所述步骤1中设定无人机状态信息的具体步骤为:
[0040]对于每个围捕无人机,其状态信息S设定为:
[0041]S=[S
uav
,S
teamer
,S
obser
,S
target
][0042]其中,S
uav
,S
teamer
,S
obser
,S
target
分别表示无人机自身状态信息、其他右方无人机状态信 息、无人机自身观测状态信息和目标状态信息;
[0043]在多无人机围捕机动决策任务中,设定任务场景宽度和长度分别为l
width
和l
length
,对 于无人机i,设定无人机自身状态信息为:
[0044][0045]其中,x
i
和y
i
表示第i个无人机在x、y轴上的坐标信息,和表示第i个无人 机在x、y轴上的速度信息,v
max
为无人机最大速度;
[0046]对于无人机i,设定友方无人机状态信息为:
[0047][0048]其中,n表示多无人机系统中无人机数量;
[0049]对于无人机i,设定无人机自身观测状态信息为
[0050]其中,d
i
和θ
i
分别表示我方围捕无人机与目标的距离和相对方位角;
[0051]分别利用j个距离传感器对无人机周围环境进行探测;对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于CEL

MADDPG的多无人机围捕策略方法,其特征在于包括下述步骤:步骤1:设定无人机状态信息:步骤2:设定无人机的动作信息和无人机的状态更新过程:通过直接控制无人机的受力,实现对无人机的运动姿态和飞行速度控制;因此,设定无人机动作状态信息为:A=[F
x
,F
y
]其中,F
x
,F
y
分别表示无人机在x、y轴上的受力,则无人机的加速度表示为:a=[a
x
,a
y
]=[F
x
,F
y
]/m
u
其中,a
x
,a
y
分别表示无人机在x、y轴上的加速度,m
u
表示无人机质量;基于无人机受力的无人机状态更新过程表示为:其中,其中上标t表示时间,p
t
,v
t
,分别表示t时刻我方无人机的位置信息、速度信息和偏航角,x
t
‑1,y
t
‑1分别表示t

1时刻我方无人机在x、y轴上的位置,分别表示t时刻我方无人机在x、y轴上的速度分量,分别表示t

1时刻我方无人机在x、y轴上的速度分量,

t表示无人机运动时间间隔,a为无人机加速度,分别表示t时刻无人机加速度在x、y轴上的加速度分量;步骤3:定义奖励函数R:步骤4:结合课程学习策略,优化无人机奖励函数:在围捕课程学习中,引入课程奖励r
course
用于引导无人机对目标追踪子任务、包围过渡子任务、靠近捕获子任务进行学习;步骤4

1:设定目标追踪子任务判定条件为:其中,d
capture
表示单机捕获距离,d
limit
表示针对目标追踪子任务到包围过渡子任务转化设定的阈值,当满足该条件时,课程奖励r
course
等于目标追踪子奖励r
track
,此时设定目标追踪子奖励为:
其中,d
max
为任务场景中目标与无人机的最大距离值;步骤4

2:设定包围过渡子任务判定条件为:其中,表示无人机i、无人机i+1、目标E构成的三角形面积,U0和U
n
都用于表示最后一个即第n个无人机,当满足该条件时,课程奖励r
course
等于包围过渡子奖励r
encicle
,此时设定包围过渡子奖励为:步骤4

3:设定靠近捕获子任务判定条件为:当满足该条件时,课程奖励r
course
等于靠近捕获子奖励r
capture
,此时设定靠近捕获子奖励为:其中,和分别表示t时刻和t

1时刻无人机i到目标的距离;步骤4

4:对于每个无人机,更新其受到的总奖励为:其中,β1~β4表示四项奖励的相应权重值;步骤4

5:设定多无人机围捕判定条件:当目标处于多无人机围捕网内,且目标与各围捕无人机距离都小于捕获距离d
capture
时,视作目标无法逃逸,此时多无人机围捕任务完成;步骤5:引入相关性学习策略,基于深度强化学习CEL

MADDPG算法,构建多无人机围捕决策模型并进行训练,通过CEL

MADDPG神经网络进行拟合,输出无人机飞行动作,各个围捕无人机通过协同决策,实现对目标的靠近、包围、捕获。2.根据权利要求1所述的基于CEL

MADDPG的多无人机围捕策略方法,其特征在于:所述步骤1中设定无人机状态信息的具体步骤为:对于每个围捕无人机,其状态信息S设定为:S=[S
uav
,S
teamer
,S
obser
,S
target
]其中,S
uav
,S
teamer
,S
obser
,S
target
分别表示无人机自身状态信息、其他右方无人机状态信息、无人机自身观测状态信息和目标状态信息;在多无人机围捕机动决策任务中,设定任务场景宽度和长度分别为l
width
和l
length
,对于无人机i,设定无人机自身状态信息为:
其中,x
i
和y
i
表示第i个无人机在x、y轴上的坐标信息,和表示第i个无人机在x、y轴上的速度信息,v
max
为无人机最大速度;对于无人机i,设定友方无人机状态信息为:其中,n表示多无人机系统中无人机数量;对于无人机i,设定无人机自身观测状态信息为其中,d
i
和θ
i
分别表示我方围捕无人机与目标的距离和相对方位角;分别利用j个距离传感器对无人机周围环境进行探测;对于无人机i,设定无人机探测状态信息为:其中表示无人机i的各距离传感器示数,L表示距离传感器探测范围。3...

【专利技术属性】
技术研发人员:李波黄晶益谢国燕杨志鹏杨帆万开方高晓光
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1