基于深度强化学习的无人机感知与避障一体化方法及设备技术

技术编号:25122759 阅读:101 留言:0更新日期:2020-08-05 02:51
本发明专利技术的实施方式提供一种基于深度确定性策略梯度的无人机感知与避障控制一体化方法,该方法包括:设计深度确定性策略梯度神经网络;设计训练所需的奖励;在仿真环境中搭建无人机避障的场景;及结合仿真环境进行网络的训练。

【技术实现步骤摘要】
基于深度强化学习的无人机感知与避障一体化方法及设备
本专利技术涉及无人机自主控制领域,更具体地,涉及一种基于深度确定性策略梯度的无人机感知与避障控制一体化方法及设备。
技术介绍
当前针对无人机自主避障控制问题,主要是传统的航迹规化方法进行避障。例如快速扩展随机树(Rapidly-exploringRandomTree,简称为RRT)和人工势场算法等,但传统方法有其缺点,RRT算法有收敛速度慢、航迹曲折,人工势场法有容易陷入局部极小值和振荡等问题。另外,或是通过图像信息直接输出不连续的方向指令。例如有些方法基于深度Q网络(DeepQ-Network,简称DQN)的层次结构,这些层次Q网络被用作不同阶段中导航的高端控制策略,包括前后左右下降等控制指令。这种方法精确度较低。
技术实现思路
本专利技术解决完全基于图像的无人机自主避障控制问题:将处理过的无人机机载相机得到的图像作为输入,经过深度确定性策略梯度网络处理后得到无人机三轴方向的速度,以此实现无人机的感知与避障控制一体化。本专利技术的实施方式提供一种无人机感知与避障控制一体化方法,通过输入的图像直接得到连续的无人机控制指令,提高无人机避障的自主性和效率。为实现上述目的,本专利技术实例提供了如下的技术方案:根据本专利技术的一个实施方式的一种基于深度确定性策略梯度的无人机感知与避障控制一体化方法,包括以下步骤:设计深度确定性策略梯度神经网络;设计训练所需的奖励;在仿真环境中搭建无人机避障的场景;结合仿真环境进行网络的训练。>根据本专利技术的另一个实施方式提供的基于深度确定性策略梯度的无人机感知与避障控制一体化方法,设计深度确定性策略梯度神经网络的步骤可包括:设计行动者网络,该行动者网络接收当前的图像作为输入且输出无人机在x,y,z三轴方向的速度。根据本专利技术的另一个实施方式提供的基于深度确定性策略梯度的无人机感知与避障控制一体化方法,行动者网络包括三层卷积层和三层全连接层。根据本专利技术的另一个实施方式提供的基于深度确定性策略梯度的无人机感知与避障控制一体化方法,设计深度确定性策略梯度神经网络的步骤包括:设计评论家网络,该评论家网络接收当前的图像和当前的动作值作为输入且输出Q值。根据本专利技术的另一个实施方式提供的基于深度确定性策略梯度的无人机感知与避障控制一体化方法,设计训练所需的奖励步骤包括通过以下无人机避障轨迹规划的端到端奖惩函数实现:其中,Δs为无人机到目标点的距离,Δd为无人机偏离原定轨迹的距离,b,m,n均为常数。根据本专利技术的另一个实施方式提供的一种设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中所述处理器运行所述计算机程序时执行以上所述的基于深度确定性策略梯度的无人机感知与避障控制一体化方法。本专利技术的实施方式所提供的无人机感知与避障控制一体化方法和设备中,深度确定性策略梯度网络直接将机载照相机得到的图片信息转换为无人机避障所需的连续控制指令。省去了传统方法中的状态估计和路径规划模块,在不提前知道障碍物位置及状态的情况下进行自主避障,能够提高无人机的自主性和避障的效率。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。通过参考附图可更好地理解本专利技术。图1示出了传统避障算法与根据本专利技术的实施方式的深度确定性策略梯度算法的区别。图2示出了根据本专利技术的实施方式的深度确定性策略梯度网络训练的一体化架构。图3示出了根据本专利技术的实施方式的基于深度确定性策略梯度的三维空间无人机感知与避障控制一体化方法网络结构设计。图4示出了根据本专利技术的实施方式的无人机避障轨迹控制问题一体化框架。图5-10示出了使用根据本专利技术的实施方式的方法进行三维避障的仿真训练所得到的无人机越过障碍的过程图。图11-13示出了使用根据本专利技术的实施方式的方法进行三维避障的仿真训练所得到的四次仿真结果示图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。需要注意的是,除非另有说明,本专利技术使用的技术术语或者科学术语应当为本专利技术所属领域技术人员所理解的通常意义。传统的自主避障算法一般要分为四个步骤:在环境中得到所需要的观察量,由观察量进行状态估计,建模和预测,最后输入到避障算法中进行避障规划控制,而本专利技术的实施方式所采用的深度确定性策略梯度算法用网络来代替传统自主避障中的中间步骤,直接由观察量得到避障规划控制。在效率和灵活性方面都优于传统的避障规划方法。图1展示了传统避障算法与根据本专利技术的实施方式的深度确定性策略梯度算法的区别。具体就深度确定性策略梯度网络训练而言,根据本专利技术的实施方式提供了一体化架构,如图2所示。主控程序可以决定深度确定性策略梯度网络处于何种模式,包括训练模式和离线运行两种模式。在训练模式下,深度确定性策略梯度网络以从仿真软件采集到的模拟数据和在存储模块中的记忆数据作为输入,得出决策值和奖励后存储在记忆模块中,并将决策值传递给仿真软件以得到下一次模拟数据,并连同记忆数据再次作为输入传递给深度确定性策略梯度网络,网络参数也在此过程中不断优化。当网络收敛之后,保存参数和网络。在离线运行模式下,深度确定性策略梯度网络参数不再变化,此时只需要策略网络来进行接收仿真软件模拟数据与产生相应的决策并与仿真软件交互的操作。基于深度确定性策略梯度的三维空间无人机感知与避障控制一体化方法网络结构设计如图3所示。其中图3的左图为行动者网络(Actor网络),图3的右图为评论家网络(Critic网络)。根据上述一体化架构,得出无人机避障轨迹控制问题一体化框架,如图4所示。以一个或多个详细的实施方案对本专利技术的技术方案进行详细阐述。本节主要以一个示例性仿真实例对本专利技术的技术方案进行详细阐述。(1)设计深度确定性策略梯度网络参考图3,示出了基于深度确定性策略梯度的三维空间无人机感知与轨迹控制一体化方法网络结构设计。其中左图为行动者网络(Actor网络),右图为评论家网络(Critic网络)。Actor网络由三层卷积层和三层全连接层构成。首先,大小为64×64×1的图像作为输入,经过三层卷积层,其滤波器大小为5×5,卷积过滤器的数量为32,卷积的横纵向步长均为2,后经过三层全连接层,每层有200个神经单元,最后输出无人机在x,y,z三轴方向的速度。Critic网络除了需要当前的图像作为输入外,还需要加入当前的动作值,来计算得到Q值(状态-动作对的值)。由于无人机避障是在无人机已有预设本文档来自技高网...

【技术保护点】
1.一种基于深度确定性策略梯度的无人机感知与避障控制一体化方法,该方法包括:/n设计深度确定性策略梯度神经网络;/n设计训练所需的奖励;/n在仿真环境中搭建无人机避障的场景;及/n结合仿真环境进行网络的训练。/n

【技术特征摘要】
1.一种基于深度确定性策略梯度的无人机感知与避障控制一体化方法,该方法包括:
设计深度确定性策略梯度神经网络;
设计训练所需的奖励;
在仿真环境中搭建无人机避障的场景;及
结合仿真环境进行网络的训练。


2.如权利要求1所述的方法,其中所述设计深度确定性策略梯度神经网络的步骤包括:
设计行动者网络,该行动者网络接收当前的图像作为输入且输出无人机在x,y,z三轴方向的速度。


3.如权利要求2所述的方法,其中所述行动者网络包括三层卷积层和三层全连接层。


4.如权利要求1-3中任一项所述的方法,其中所述设计深度确定...

【专利技术属性】
技术研发人员:蔡志浩王隆洪赵江王英勋
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1