当前位置: 首页 > 专利查询>山西大学专利>正文

一种复杂环境下的多无人机运动规划方法及系统技术方案

技术编号:38104949 阅读:10 留言:0更新日期:2023-07-06 09:26
本发明专利技术公开了一种复杂环境下的多无人机运动规划方法及系统,涉及无人机运动规划领域,所述方法,包括:构建多无人机在t时刻的环境模型;所述环境模型包括:各无人机的状态空间、各无人机的动作空间、各无人机的观测空间、状态转移模型、观测模型和奖励模型;根据t时刻的环境模型,采用集员滤波方法估计各无人机在t时刻的信念状态;将所有无人机在t时刻的信念状态输入无人机决策网络中,得到各无人机在t时刻的动作;所述无人机决策网络是基于Q

【技术实现步骤摘要】
一种复杂环境下的多无人机运动规划方法及系统


[0001]本专利技术涉及无人机运动规划领域,特别是涉及一种复杂环境下的多无人机运动规划方法及系统。

技术介绍

[0002]近年来,随着人工智能、计算机科学、控制科学等多个学科交叉和渗透发展,集自主感知、智能决策与自动控制于一体的多无人机系统已成为当前多学科交叉融合研究的热点,其应用领域正逐渐从电子游戏、模拟仿真走向智能无人驾驶、机器人控制、物流仓储、无人机协同等现实应用中,而多无人机运动规划技术是多无人机系统应用研究中不可或缺的一点。
[0003]多无人机运动规划问题是一类为多个无人机寻找从起始位置抵达目标位置且无冲突的最优路径集合的问题,如何让无人机与其他无人机协同避开障碍物,安全高效地到达指定区域成为了一大研究难题。目前,为解决多无人机运动规划问题,基于控制理论的优化算法以及基于几何学的搜索算法等多种方法被提出,在一定程度上满足了多无人机运动规划的需求,但这些方法往往易陷入局部最优、难以快速获得数值解,且无法用于较大规模的协同任务。
[0004]随着深度学习的发展,神经网络为强化学习带来了新的生命力。而多无人机强化学习通过奖赏与惩罚来优化决策过程,具有自主学习和预测学习的特点,其中Q

mix算法、多无人机深度确定性策略梯度(Multi

Agent Deep Deterministic Policy Gradient,DDPG)算法等具有代表性的分布式多无人机强化学习算法可以适用于与现实相仿的无人机只能感知部分信息的环境,逐渐成为了多无人机运动规划方面的研究热点。
[0005]然而,目前的多无人机强化学习算法在自动驾驶、机器人控制方面的应用研究还在仅限于仿真平台,现实环境中的应用实例并不多,其中问题的关键在于现实环境中无人机不仅无法感知完整的环境信息,且由于传感器质量、环境噪声等影响感知到的环境信息并不准确,而错误的感知信息将可能引起无人机的决策错误,在实际应用中易引发安全隐患。因此,为视野有限、感知信息具有不确定性的多移动无人机设计出一个能适应复杂环境中的高效无碰撞路径规划方法,具有十分重大的实际意义。

技术实现思路

[0006]基于此,本专利技术实施例提供一种复杂环境下的多无人机运动规划方法及系统,为多无人机规划适应于复杂环境的高效无碰撞路径。
[0007]为实现上述目的,本专利技术提供了如下方案:
[0008]一种复杂环境下的多无人机运动规划方法,包括:
[0009]构建t时刻的多无人机环境模型;所述多无人机环境模型包括:各无人机的状态空间、各无人机的动作空间、各无人机的观测空间、状态转移模型、观测模型和奖励模型;t≥0;
[0010]根据t时刻的多无人机环境模型,采用集员滤波方法估计各无人机在t时刻的信念状态;
[0011]将所有无人机在t时刻的信念状态输入无人机决策网络中,得到各无人机在t时刻的动作;所述无人机决策网络是基于Q

mix网络构建的。
[0012]可选地,所述无人机决策网络的确定方法为:
[0013]构建Q

mix网络;所述Q

mix网络包括多个深度循环Q学习网络(Deep Recurrent Q

Learning Network,DRQN)和一个混合网络;一个深度循环Q学习网络对应一个无人机;各所述深度循环Q学习网络均与所述混合网络连接;
[0014]采用强化学习方法对所述Q

mix网络进行训练和测试,得到无人机决策网络。
[0015]可选地,采用强化学习方法对所述Q

mix网络进行训练和测试,得到无人机决策网络,具体包括:
[0016]将各个无人机的信念状态输入相应的深度循环Q学习网络中,各所述深度循环Q学习网络基于ε

贪婪策略选择各无人机的动作并输出各无人机的动作价值,各无人机的动作价值作为所述混合网络的输入,以联合动作损失最小为目标对所述Q

mix网络进行联合训练,得到训练好的Q

mix网络;
[0017]对训练好的Q

mix网络进行测试,并将测试后的Q

mix网络确定为所述无人机决策网络;
[0018]其中,所述动作价值用于确定选择的动作;所述联合动作损失是根据联合动作值函数确定的;所述联合动作值函数是根据各无人机的动作价值和权重值确定的;所述权重值是采用超网络对全局信念状态处理得到的;所述全局信念状态是根据所有无人机的信念状态确定的。
[0019]可选地,根据t时刻的多无人机环境模型,采用集员滤波方法估计各无人机在t时刻的信念状态,具体包括:
[0020]根据t时刻的多无人机环境模型,采用集员滤波方法构建信念估计网络;所述信念估计网络,包括,预测网络和观测网络;
[0021]采用信念估计网络确定各无人机在t时刻的状态估计值;
[0022]根据t时刻的状态估计值和t时刻的形状矩阵,确定各无人机在t时刻的信念状态。
[0023]可选地,t时刻的状态估计值的计算公式为:
[0024][0025]其中,为预测网络输出的t时刻的无人机i的状态估计值;为t时刻的无人机i的待定参数;为t时刻的无人机i观测到的状态;为观测网络输出的t时刻的无人机i的
状态估计值;为t时刻的观测噪声;为t时刻的无人机i的观测噪声的时变矩阵;λ为待定的参数,λ∈[0,1];为滤波后t时刻的无人机i的状态估计值;为t时刻的无人机i的真实状态;为t时刻的无人机i的形状矩阵;T为转置;ε为表示区域的符号;表示t时刻无人机i对应的设定范围值;z表示变量;表示包含真实状态的区域。
[0026]可选地,所述环境模型是基于环境物理特性构建的;所述环境物理特性,包括无人机的实际物理特性、障碍物的实际物理特性以及目标的实际物理特性。
[0027]本专利技术还提供了一种多无人机运动规划系统,包括:
[0028]环境模型构建模块,用于构建t时刻的多无人机环境模型;所述多无人机环境模型包括:各无人机的状态空间、各无人机的动作空间、各无人机的观测空间、状态转移模型、观测模型和奖励模型;t≥0;
[0029]信念状态估计模块,用于根据t时刻的多无人机环境模型,采用集员滤波方法估计各无人机在t时刻的信念状态;
[0030]动作规划模块,用于将所有无人机在t时刻的信念状态输入无人机决策网络中,得到各无人机在t时刻的动作;所述无人机决策网络是基于Q

mix网络构建的。
[0031]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0032]本专利技术实施例提出了一种复杂环境下的多无人机运动规划方法及系统,采用集员滤波方法估计各无人机的信念状态;将估计到的信念状态输入基于Q

mix网络构建的运动规划网络,得到各无本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种复杂环境下的多无人机运动规划方法,其特征在于,包括:构建t时刻的多无人机环境模型;所述多无人机环境模型包括:各无人机的状态空间、各无人机的动作空间、各无人机的观测空间、状态转移模型、观测模型和奖励模型;t≥0;根据t时刻的多无人机环境模型,采用集员滤波方法估计各无人机在t时刻的信念状态;将所有无人机在t时刻的信念状态输入无人机决策网络中,得到各无人机在t时刻的动作;所述无人机决策网络是基于Q

mix网络构建的。2.根据权利要求1所述的一种复杂环境下的多无人机运动规划方法,其特征在于,所述无人机决策网络的确定方法为:构建Q

mix网络;所述Q

mix网络包括多个深度循环Q学习网络和一个混合网络;一个深度循环Q学习网络对应一个无人机;各所述深度循环Q学习网络均与所述混合网络连接;采用强化学习方法对所述Q

mix网络进行训练和测试,得到无人机决策网络。3.根据权利要求2所述的一种复杂环境下的多无人机运动规划方法,其特征在于,采用强化学习方法对所述Q

mix网络进行训练和测试,得到无人机决策网络,具体包括:将各个无人机的信念状态输入相应的深度循环Q学习网络中,各所述深度循环Q学习网络基于ε

贪婪策略选择各无人机的动作并输出各无人机的动作价值,各无人机的动作价值作为所述混合网络的输入,以联合动作损失最小为目标对所述Q

mix网络进行联合训练,得到训练好的Q

mix网络;对训练好的Q

mix网络进行测试,并将测试后的Q

mix网络确定为所述无人机决策网络;其中,所述动作价值用于确定选择的动作;所述联合动作损失是根据联合动作值函数确定的;所述联合动作值函数是根据各无人机的动作价值和权重值确定的;所述权重值是采用超网络对全局信念状态处理得...

【专利技术属性】
技术研发人员:魏巍张利军李琳梁吉业
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1