基于智能体强化学习的无人机群动态协同控制方法及系统技术方案

技术编号：44003187 阅读：27 留言：0更新日期：2025-01-10 20:19

本发明专利技术公开了一种基于智能体强化学习的无人机群动态协同控制方法及系统，通过将无人机所需开展的协同任务分解为多个子任务，并将子任务建模为马尔可夫决策过程，利用多评论家结构深度确定性策略梯度MCDDPG算法对无人机群进行动态协同控制，完成无人机群的协同任务。针对多智能体系统的动作策略网络在初期随机动作的问题，提出多评论家架构的MCDDPG算法，用来共同优化并求解最优动作策略网络。对多个评论家模块在训练过程中的权重分配优化问题，采用动态难度优先级算法，实现对各个模块权重值的动态分配。本发明专利技术提出的方法提升了无人机群完成耦合任务的能力，增强了无人机针对动态变化环境的协同能力，提升了多无人机系统的收敛性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多智能体协同规划，具体涉及一种基于智能体强化学习的无人机群动态协同控制方法及系统。

技术介绍

1、随着智能体设备(例如无人机、无人车、无人船等)的不断发展，各种异构智能体已经具备在不同环境下开展指定工作的能力。通过智能体的辅助能够极大程度的减少人力消耗、增进人身安全。智能体具备强大的信息获取能力。目前，单个无人机控制技术的发展已经较为完备，但多无人机集群编队的协同控制技术研究仍具有很大的发展空间。无人机编队控制技术能够快速高效完成如战场环境探索、森林火灾救援、灾后人员搜寻等复杂耦合任务，但其存在协同能力差、控制策略难以适应动态变化复杂环境的问题，导致多智能体控制技术在实际应用中难以普及。因此，如何使智能体相互之间做到数据共享，并协同配合完成工作任务是当下多智能体协同规划领域亟需解决的问题。

技术实现思路

1、针对现有技术存在的无人机群在完成复杂现实任务时难以收敛或收敛所需计算资源过多的问题，提供一种基于智能体强化学习的无人机群动态协同控制方法，包括以下步骤：

2、步骤1，根据无人机的飞行任务，设定无人机、障碍物、目标三者的物理属性；

3、步骤2，设定无人机、目标的运动学方程，建立速度、加速度和运动方向之间的关联性，设置约束条件以符合物理世界动作规则；

4、步骤3，将无人机所需开展的协同任务分解为多个子任务，并将子任务建模为马尔可夫决策过程，利用多评论家结构深度确定性策略梯度mcddpg算法对无人机群进行动态协同控制，完成无人机群的协同任务；

5、步骤3.1，将无人机获取环境状态信息输入到动作策略网络中，动作策略网络输出每个无人机在当前时刻的环境下应该采取的动作；

6、步骤3.2，利用评论家模块对当前动作进行评估，采用动态难度优先级算法对不同评论家模块的权重进行最优分配；

7、步骤3.3，根据评论家模块的评估值，利用深度确定性策略梯度算法对动作策略网络进行优化；

8、步骤3.4，将训练好的动作策略网络部署在每个无人机上，指导无人机完成协同任务。

9、进一步地，所述步骤1中飞行任务为无人机从起始点出发追踪动态目标，多个无人机对目标形成协同包围阵型，并在追踪过程避免无人机碰撞障碍物，以及无人机之间相互碰撞；

10、无人机的物理属性表示如下：

11、

12、式中，uav为无人机的状态空间；为无人机集合，n1为无人机的数量；为第n1个无人机的属性；为第n1个无人机的坐标值；rs为无人机的安全飞行半径；vs为无人机的速度；as为无人机的加速度；cs表示无人机之间能否通信；θs为无人机的航向角。

13、障碍物的物理属性表示如下：

14、

15、式中，obs为障碍物的状态空间；为障碍物集合，n2为障碍物的数量；为第n2个障碍物的属性；为第n2个障碍物的坐标值；rc为障碍物的半径。

16、移动目标的物理属性表示如下：

17、

18、式中，tar为移动目标的状态空间；为移动目标集合，n3为移动目标的数量；为第n3个移动目标的属性，包括目标坐标目标碰撞半径rt、目标速度vt、目标加速度at、目标偏转角θt。

19、进一步地，所述步骤2中无人机、移动目标的运动学方程为：

20、

21、式中，表示无人机或者移动目标t时刻在x、y方向上的速度分量，由t时刻无人机或者移动目标的速度v(t)、加速度a(t)的矢量值在航向角θ上的分量决定；x(t)、y(t)为无人机或者移动目标在二维平面直角坐标系下的坐标分量。

22、定义无人机、移动目标属性的约束条件为：

23、

24、式中，v表示无人机或者移动目标的速度，vmin表示无人机或者移动目标的速度最小值，vmax表示无人机或者移动目标的速度最大值，a表示无人机或者移动目标的加速度，amin表示无人机或者移动目标的加速度最小值，amax表示无人机或者移动目标的加速度最大值，(x,y)表示无人机或者移动目标的位置，(xmin,xmax)表示无人机或者移动目标在x轴上的移动范围，(ymin,ymax)表示无人机或者移动目标在y轴上的移动范围。

25、进一步地，所述步骤3.1中无人机将获取的环境信息、目标信息和自身状态信息一起输入到动作策略网络中，动作策略网络输出每个无人机在当前时刻的环境下应该采取的动作，包括速度v，加速度a和方向角θ。环境信息包括障碍物的位置和半径，以及其它无人机的位置、速度、加速度和方向角。目标信息包括目标的位置、碰撞半径、速度、加速度和偏转角。无人机自身状态信息包括无人机的位置、速度、加速度和方向角。动作策略网络采用多层感知器神经网络。

26、进一步地，所述步骤3.2中评论家模块共有两个，第一个评论家模块由多层感知器为基础的深度神经网络架构组成，包含3个全连接层，通过将无人机的状态信息和动作信息转化成1维向量，输入到多层感知器深度神经网络中，在全连接层、激活函数构成的网络结构下，输出当前动作的评估值；其中，状态信息由无人机自身状态信息、环境信息以及目标信息构成，无人机自身状态信息包括无人机的位置、速度、加速度和方向角，环境信息包括障碍物的位置和半径，以及其它无人机的位置、速度、加速度和方向角，目标信息包括目标的位置、碰撞半径、速度、加速度和偏转角，动作信息为动作策略网络输出的无人机的速度、加速度和航向角。

27、第二个评论家模块为引力场模型，该模型是一个数学模型，表达式为：qf(s′,a′)＝-f(s′)[1-cos(χ)]，式中，qf(s′,a′)为引力场模型对当前无人机在获取的状态信息s′下采取的动作决策a′的评估值，f(s′)为当前态信息s′下目标对无人机的吸引力以及障碍物对无人机的排斥力形成的合力，χ为加速度方向和合力f之间的方向夹角；当无人机的加速度方向和合力方向一致时，χ＝0，此时评估值qf(s′,a′)＝0，当前状态下该动作决策将获得高奖励值，反之，χ≠0，对应的评估值qf(s′,a′)＜0，则该动作决策将获得低奖励值。

28、根据评论家模块的评估值和无人机获得的奖励值的差值的比重动态调整评论家模块的权重，各评论家模块的权重β1、β2计算公式为：

29、

30、

31、yi＝ri+γ1q′(si′+1,μ′(si′+1|θ′)|w′) (10)

32、式中，n为无人机的数量，l1表示由深度神经网络构成的第一个评论家模块对无人机群评估值与奖励值间的误差值，yi表示第i个无人机在当前动作下得到的奖励值，q1(si′,ai′|w)表示第一个评论家模块对第i个无人机在获取的状态信息si′下采取的动作ai′的评估值，w是第一个评论家模块神经网络中的参数权重，l2表示由引力场模型组成的第二个评论家模块对无人机群当前动作加速度方向与合力方向匹配度的评估值，q2(si′,ai′)是第二个评论家模块对第i个无本文档来自技高网...

【技术保护点】

1.一种基于智能体强化学习的无人机群动态协同控制方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于智能体强化学习的无人机群动态协同控制方法，其特征在于：步骤1中飞行任务为无人机从起始点出发追踪动态目标，多个无人机对目标形成协同包围阵型，并在追踪过程避免无人机碰撞障碍物，以及无人机之间相互碰撞；无人机的物理属性表示如下：

3.如权利要求1所述的一种基于智能体强化学习的无人机群动态协同控制方法，其特征在于：步骤2中无人机、移动目标的运动学方程为：

4.如权利要求1所述的一种基于智能体强化学习的无人机群动态协同控制方法，其特征在于：步骤3.1中无人机将获取的环境信息、目标信息和自身状态信息一起输入到动作策略网络中，动作策略网络输出每个无人机在当前时刻的环境下应该采取的动作，包括速度v，加速度a和方向角θ；环境信息包括障碍物的位置和半径，以及其它无人机的位置、速度、加速度和方向角；目标信息包括目标的位置、碰撞半径、速度、加速度和偏转角；无人机自身状态信息包括无人机的位置、速度、加速度和方向角；动作策略网络采用多层感知器神经网络。

<p>5.如权利要求1所述的一种基于智能体强化学习的无人机群动态协同控制方法，其特征在于：步骤3.2中评论家模块共有两个，第一个评论家模块由多层感知器为基础的深度神经网络架构组成，包含3个全连接层，通过将无人机的状态信息和动作信息转化成1维向量，输入到多层感知器深度神经网络中，在全连接层、激活函数构成的网络结构下，输出当前动作的评估值；其中，状态信息由无人机自身状态信息、环境信息以及目标信息构成，无人机自身状态信息包括无人机的位置、速度、加速度和方向角，环境信息包括障碍物的位置和半径，以及其它无人机的位置、速度、加速度和方向角，目标信息包括目标的位置、碰撞半径、速度、加速度和偏转角，动作信息为动作策略网络输出的无人机的速度、加速度和航向角。

6.如权利要求5所述的一种基于智能体强化学习的无人机群动态协同控制方法，其特征在于：步骤3.2中第二个评论家模块为引力场模型，该模型是一个数学模型，表达式为：Qf(s′,a′)＝-f(s′)[1-cos(χ)]，式中，Qf(s′,a′)为引力场模型对当前无人机在获取的状态信息s′下采取的动作决策a′的评估值，f(s′)为当前态信息s′下目标对无人机的吸引力以及障碍物对无人机的排斥力形成的合力，χ为加速度方向和合力f之间的方向夹角；当无人机的加速度方向和合力方向一致时，χ＝0，此时评估值Qf(s′,a′)＝0，当前状态下该动作决策将获得高奖励值，反之，χ≠0，对应的评估值Qf(s′,a′)＜0，则该动作决策将获得低奖励值。

7.如权利要求6所述的一种基于智能体强化学习的无人机群动态协同控制方法，其特征在于：步骤3.2中根据评论家模块的评估值和无人机获得的奖励值的差值的比重动态调整评论家模块的权重，各评论家模块的权重β1、β2计算公式为：

8.如权利要求1所述的一种基于智能体强化学习的无人机群动态协同控制方法，其特征在于：步骤3.3中通过多评论家模块对动作策略网络的动作选择共同进行评估，并根据评估函数，利用深度确定性策略梯度算法对动作策略网络进行优化，评估函数计算方式为：

9.一种基于智能体强化学习的无人机群动态协同控制系统，其特征在于，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的程序指令执行如权利要求1-8任一项所述的一种基于智能体强化学习的无人机群动态协同控制方法。

10.一种基于智能体强化学习的无人机群动态协同控制系统，其特征在于，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如权利要求1-8任一项所述的一种基于智能体强化学习的无人机群动态协同控制方法。

...

【技术特征摘要】

1.一种基于智能体强化学习的无人机群动态协同控制方法，其特征在于，包括以下步骤：

3.如权利要求1所述的一种基于智能体强化学习的无人机群动态协同控制方法，其特征在于：步骤2中无人机、移动目标的运动学方程为：

5.如权利要求1所述的一种基于智能体强化学习的无人机群动态协同控制方法，其特征在于：步骤3.2中评论家模块共有两个，第一个评论家模块由多层感知器为基础的深度神经网络架构组成，包含3个全连接层，通过将无人机的状态信息和动作信息转化成1维向量，输入到多层感知器深度神经网络中，在全连接层、激活函数构成的网络结构下，输出当前动作的评估值；其中，状态信息由无人机自身状态信息、环境信息以及目标信息构成，无人机自身状态信息包括无人机的位置、速度、加速度和方向角，环境信息包括障碍物的位置和半径，以及其它无人机的位置、速度、加速度和方向角，目标信息包括目标的位置、碰撞半径、速度、加速度和偏转角，动作信息为动作策略网络输出的无人机的速...

【专利技术属性】
技术研发人员：肖进胜，严伯伦，于秋则，谢红刚，周剑，李林坤，普晨宇，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人