基于模仿学习及深度强化学习的移动机器人导航方法技术

技术编号:27532907 阅读:43 留言:0更新日期:2021-03-03 11:13
本发明专利技术提供了一种基于模仿学习及深度强化学习的移动机器人导航方法包括如下步骤:步骤1,建立移动机器人的环境模型;步骤2,构建基于模仿学习及深度强化学习算法耦合的导航控制框架,利用耦合的导航框架对移动机器人模型进行训练;步骤3,利用训练好的模型实现导航任务。务。务。

【技术实现步骤摘要】
基于模仿学习及深度强化学习的移动机器人导航方法


[0001]本专利技术涉及一种移动机器人导航技术,特别是一种基于模仿学习及深度强化学习的移动机器人导航方法。

技术介绍

[0002]随着移动机器人技术的飞速发展,越来越多的移动机器人进入人们的生活、服务和生产领域。在机器人应用中,导航起着重要的作用,为进一步执行其他任务奠定了基础。传统导航框架主要由感知模块、地图模块和规划模块组成,但是在选择环境代表性特征值中的工程量、特征计算和规划过程中的计算复杂度以及维护地图所需要的大量存储资源和传输带宽都进一步限制了传统导航方式的应用。
[0003]机器学习在决策问题上取得了巨大的成功,将机器学习应用到机器人领域得到了广泛关注。近年来许多基于学习的导航方法被提出,其中包括模仿学习和强化学习,但每种方法都存在一定的弊端。模仿学习需要大量的成功示范来完成学习任务,训练的性能无法超越示范经验,且示范经验也不一定总是最优的;强化学习方法由于其初始探索过程中的随机性和稀疏奖励,导致需要大量的时间来与环境进行交互,并且在探索过程中的某些过度探索经验被学习会导致学习效率和性能的下降。

技术实现思路

[0004]本专利技术的目的在于提供一种基于模仿学习及深度强化学习的移动机器人导航方法,包括如下步骤:
[0005]步骤1,建立移动机器人的环境模型;
[0006]步骤2,构建基于模仿学习及深度强化学习算法耦合的导航控制框架,利用耦合的导航框架对移动机器人模型进行训练;
[0007]步骤3,利用训练好的模型实现导航任务。
[0008]进一步地,步骤1具体包括:
[0009]步骤1.1,布置训练环境场地及障碍物,移动机器人通过与环境交互来学习无地图导航策略;
[0010]步骤1.2,编写移动机器人模型,设置运动控制方式,添加扫描激光测距仪用于感知环境,设置扫描激光测距仪的传感器类型、扫描精度、以及检测范围。
[0011]进一步地,步骤2具体包括:
[0012]步骤2.1,获取人类的演示经验并存储到离线经验回放池,再利用模仿学习算法学习人类的演示经验并保存为先验知识模型;
[0013]步骤2.2,采用DDPG算法作为是年度强化学习模型,利用模仿学习的先验知识模型和离线经验回放池作为DDPG算法的初始化,使用Actor-Critic框架的神经网络来对Q函数和确定性策略a进行近似拟合并更新网络参数;
[0014]步骤2.3,利用人类演示经验初始化深度强化学习的经验回放池,深度强化学习网
络预先训练N次,再与环境交互;
[0015]步骤2.4,移动机器人与环境的交互采取回合制;
[0016]步骤2.5,在移动机器人与环境交互的过程中,每一步运动后,DDPG模型从环境中得到反馈奖励,奖励信号的公式为:
[0017][0018]其中,c1、c2为常数,d
碰撞
为最小碰撞距离,d
达到
为达到目标点的最小距离, d
读取
表示扫描激光测距仪的原始读数,d
当前
表示机器人与目标位置当前的距离, d
先前
表示机器人与目标位置前一时间步的距离;奖励值将指导移动机器人选择动作策略,组成新的经验数据元组来训练模型,并采取梯度下降法来更新网络参数;
[0019]步骤2.6,DDPG算法学习到的移动机器人探索经验将储存到在线经验池,通过计算其与离线经验的相似性对探索经验进行筛选,过滤掉过度探索经验,仅存储优质探索经验,当经验池满的时候,按照经验质量依次覆盖掉旧经验来保证模型的收敛性;
[0020]步骤2.7,训练过程中朝着累计奖励值最大的方向训练移动机器人,将累计奖励值较高时,保留此时的网络模型参数作为最终的训练结果。
[0021]进一步地,所述步骤3具体包括如下步骤:
[0022]步骤3.1,在Gazebo仿真环境中通过给定目标点,将训练好的决策模型作为导航控制器,在每一个时间步接收扫描激光测距仪的距离数据,输出角速度与线速度指令来控制移动机器人的运动;
[0023]步骤3.2,为了验证该学习框架的有效性,我们将仿真训练的模型移植到实际的硬件平台上,结合扫描激光测距仪和Husky移动机器人系统组成完整的导航控制系统完成了导航任务。
[0024]本专利技术与现有技术相比,具有以下优点:(1)相比现有的传统导航方法及基于学习的导航控制方法,本专利技术提出的控制框架基于模仿学习及深度强化学习的耦合实现导航控制,能够利用较少的数据集学习到较好的控制策略,减少对于数据集的依赖;(2)利用近似最优策略,人类演示经验作为深度强化学习框架的基线,过滤掉移动机器人与环境交互中产生的过度探索经验,将更好的经验存储到经验回放池中,进一步提高学习效率。
[0025]下面结合说明书附图对本专利技术作专利技术作进一步描述。
附图说明
[0026]图1为本专利技术方法流程图;
[0027]图2为本专利技术方法构建的模仿学习-深度强化学习耦合导航控制框架;
[0028]图3为本专利技术方法中Actor-Critic神经网络框架图;
[0029]图4为本专利技术方法的经验回放池更新流程图;
[0030]图5为本专利技术方法在仿真环境中的导航结果示意图。
具体实施方式
[0031]为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施
例对本申请进行进一步详细说明。本专利技术实施例提供一种基于模仿学习与深度强化学习耦合框架的移动机器人无图导航方法,如图1所示,其主要包括如下步骤:
[0032]步骤S100建立移动机器人和环境模型,初始化移动机器人和扫描激光测距仪,并设置参数;
[0033]步骤S101,利用Ubuntu kinetic操作系统,ROS操作平台及其集成的动力学仿真软件Gazebo作为仿真训练环境,布置训练环境场地为20
×
20m的正方形区域,障碍物为规则放置的圆柱形柱子,移动机器人在正方形区域内通过与环境交互来学习无地图导航策略;
[0034]步骤S102,利用urdf文件编写移动机器人模型,尺寸为990*670mm,前后共四轮,最大前进速度为1m/s,驱动方式为二轮差分驱动;添加扫描激光测距仪用于感知环境信息,激光测距仪的扫描范围为270
°
,扫描精度为0.25
°
,探测范围为100-30000mm。
[0035]步骤S200,构建基于模仿学习及深度强化学习算法耦合的导航控制框架。
[0036]步骤S201,如图2所示,基于模仿学习和深度强化学习提出一种耦合算法。如图2上半部分所示,在模仿学习模块,专家对移动机器人进行操作,提供最优化的演示经验,存储到离线经验回放池,模仿学习算法将学习演示经验,保存为先验知识模型;
[0037]步骤S202,如图2下半部分所示,本专利技术所使用的深度强化学习算法为 DDPG算法,基于Ac本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模仿学习及深度强化学习的移动机器人导航方法,其特征在于,包括如下步骤:步骤1,建立移动机器人的环境模型;步骤2,构建基于模仿学习及深度强化学习算法耦合的导航控制框架,利用耦合的导航框架对移动机器人模型进行训练;步骤3,利用训练好的模型实现导航任务。2.根据权利要求1所述的方法,其特征在于,步骤1具体包括:步骤1.1,布置训练环境场地及障碍物,移动机器人通过与环境交互来学习无地图导航策略;步骤1.2,编写移动机器人模型,设置运动控制方式,添加扫描激光测距仪用于感知环境,设置扫描激光测距仪的传感器类型、扫描精度、以及检测范围。3.根据权利要求1所述的方法,其特征在于,步骤2具体包括:步骤2.1,获取人类的演示经验并存储到离线经验回放池,再利用模仿学习算法学习人类的演示经验并保存为先验知识模型;步骤2.2,采用DDPG算法作为是年度强化学习模型,利用模仿学习的先验知识模型和离线经验回放池作为DDPG算法的初始化,使用Actor-Critic框架的神经网络来对Q函数和确定性策略a进行近似拟合并更新网络参数;步骤2.3,利用人类演示经验初始化深度强化学习的经验回放池,深度强化学习网络预先训练N次,再与环境交互;步骤2.4,移动机器人与环境的交互采取回合制;步骤2.5,在移动机器人与环境交互的过程中,每一步运动后,DDPG模型从环境中得到反馈奖励,奖励信号的公式为:其中,c1、c2为...

【专利技术属性】
技术研发人员:陈飞王海梅朱倩梅
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1