一种基于多任务学习的机器人避障策略训练与部署方法技术

技术编号:38717010 阅读:17 留言:0更新日期:2023-09-08 14:59
一种基于多任务学习的机器人避障策略训练与部署方法,将机器人的避障情景下的任务分解为在仿真环境中进行避障和在真实环境中进行避障两个任务,并将伪激光雷达数据作为两个任务之间的共同数据形式,将由伪激光雷达数据得到动作策略的网络作为共享隐藏层网络,在仿真环境中直接采集伪激光雷达数据完成避障任务,在真实环境中引入传感器信息预处理任务作为辅助任务,通过室内物品数据集和伪激光雷达数据处理模块完成辅助任务,得到伪激光雷达数据后,利用共享隐藏层网络完成后续的避障动作;通过共享由伪激光雷达数据得到机器人动作策略的隐藏层网络得到两个任务之间的逻辑层次关系。本发明专利技术改善机器人在真实环境中的避障效果。效果。效果。

【技术实现步骤摘要】
一种基于多任务学习的机器人避障策略训练与部署方法


[0001]本专利技术涉及智能机器人导航领域,具体涉及基于多任务学习的机器人避障策略训练与部署方法。

技术介绍

[0002]对于各个领域的移动机器人来说,自主导航是移动机器人一项非常基本并且关键的能力。根据应用场景与导航目标,可以主要可以分为四种问题,分别是局部避障、室内导航、多机导航与社会导航。局部避障问题指的是在未知环境中,无碰撞地躲避障碍物并到达目标点的导航过程,作为其他三种问题的基础,逐渐成为研究热点。
[0003]常见的避障方式有两种,分别是基于地图的避障方式和无地图的避障方式。基于地图的避障方式中的算法较为成熟,但是需要得到全局先验地图,并且从一个环境换到另一个环境中后,常常需要重新调整算法参数,难以适应人流量大且复杂多变的环境。无地图避障导航是基于数据驱动的方式进行的端到端避障策略,使用神经网络拟合出从传感器的原始信息输入到机器人动作的映射关系,将传感器信息作为规划器的输入,动作信息作为规划器的输出,从而实现避障。其中,深度强化学习有效地将深度学习的表征能力与强化学习的决策能力结合在一起,可以从传感器的数据中自动提取有效特征,并且在与环境的交互过程中学习到避障策略,实现端到端的避障,从而具有了无需全局先验地图、部署简单、无需调整参数的优点,并因此逐渐受到人们的关注。
[0004]但是深度强化学习算法仍然存在一些共有的问题,如策略迁移能力差等。对于在线强化学习算法,机器人需要通过与环境交互获取数据,为了避免训练过程中可能出现的碰撞等情况对机器人本体造成损害,常常需要在仿真环境中完成避障策略的训练,之后再迁移到真实环境中,但是由于仿真环境和真实环境存在差别,所以将避障策略从仿真环境迁移到真实环境后往往会出现较大程度的性能下降,所以如何减小仿真环境和真实环境之间的差别就是重要的事情。
[0005]现有解决方案根据入手角度可以分为三种,第一种是建立真实环境的完美逼近模拟仿真,第二种是减小仿真环境和真实环境之间差异对传感器信息的影响,第三种是增加仿真环境的复杂性。第一种方案需要使得仿真系统对真实世界进行差异极小的完美逼近仿真,从而保证移动机器人在仿真环境中产生的训练数据和现实世界中所产生的数据之间保持极高的数据一致性,此时搭建仿真环境的难度已经不低于训练策略的难度,导致基于强化学习的移动机器人避障策略难以实现工程化应用;第二种方案是只使用对环境鲁棒性较好的激光雷达作为传感器,但是在室内环境下平面激光雷达纵向视野范围较小,使机器人难以避让椅子等不规则障碍物,若引入视觉传感器会导致策略迁移效果下降。第三种方案是通过域随机化技术增加环境的多样性,并对传感器信息添加噪声,使得训练环境更加复杂,降低环境差异对策略的影响,但同时也降低了网络收敛速度,增加了训练难度。
[0006]多任务学习根据学习模式可分为传统的结构化学习方法和深度多任务学习方法,结构化学习以结构约束的形式体现任务联系,深度多任务学习方法则使用抽象后的特征进
行学习,通过改变不同任务层之间的连接方式进行任务关系表述,通过处理特定网络层中的参数达到信息共享的目的,根据参数共享方式与任务层之间的连接方式可以分为基于任务层面的硬参数共享、软参数共享和张量网络方法与基于特征层面的自适应层连接和自适应层分堆等方法。

技术实现思路

[0007]为了解决现有的避障策略迁移技术中存在的问题,本专利技术提出了一种基于多任务学习的室内机器人避障策略训练与部署方法,根据该方法进行的训练部署策略通过单一模态的信息降低仿真环境与真实环境之间的差别,通过多模态信息之间的互补实现有效信息的获取,在不同场景下使用不同模态的信息,从而提高基于深度强化学习的移动机器人避障策略的迁移能力,更好地从训练环境迁移到真实环境中,且不出现明显的避障性能下降。
[0008]本专利技术解决其技术问题所采用的技术方案是:
[0009]一种基于多任务学习的机器人避障策略训练与部署方法,将机器人避障情景下的任务分解为在仿真环境中进行避障和在真实环境中进行避障两个任务,并将伪激光雷达数据作为两个任务之间的共同数据形式,将由伪激光雷达数据得到动作策略的网络作为共享隐藏层网络,在仿真环境中直接采集伪激光雷达数据完成避障任务,在真实环境中引入传感器信息预处理任务作为辅助任务,通过室内物品数据集和伪激光雷达数据处理模块完成辅助任务,得到伪激光雷达数据后,利用共享隐藏层网络完成后续的避障动作。通过共享由伪激光雷达数据得到机器人动作策略的隐藏层网络得到两个任务之间的逻辑层次关系,从而完成机器人在实际环境中的避障任务。
[0010]进一步,所述方法包括以下步骤:
[0011]步骤1:完成仿真环境的建立,使用二维环境进行搭建,用于后续进行机器人避障策略的训练;
[0012]步骤2:完成移动机器人决策模块的建立,利用深度强化学习算法,建立相应的神经网络模型,采用近端策略优化算法(PPO),根据奖励进行等价的优势函数计算,从而直接对选择行为的可能性进行调整;使用Actor

Critic架构,Critic网络负责估计状态价值函数,Actor网络负责输出动作概率,输出动作采用连续动作空间,PPO算法采用重要性采样,使用当前优化的策略和探索环境的策略之间的差距对损失函数进行校正,并通过预设参数对其进行限制;
[0013]步骤3:搭载待训练的决策模块,将仿真小车放置在不同的仿真环境中进行训练,并且充分利用仿真环境可并行训练的优势,设置多种不同类型的环境,把仿真小车视作智能体,随机初始化智能体位置与导航目标点,之后智能体根据获取的信息进行相应动作,获取环境给予的对应奖励和新的传感器信息,从而完成一次与环境的交互,把交互数据存入经验回放池,重复如上过程直至到达目标点或与障碍物发生碰撞后,本轮交互结束,回到起点,进行下一轮交互;待经验回放池中的数据达到一定数量后,取出每次导航过程中的完整序列数据,首先计算状态价值和优势函数,以最大化Actor网络动作输出的优势为目的,计算Actor网络的损失函数,并使用梯度下降法更新网络参数,然后以最小化Critic网络的输出与折扣回报之间的差距为目的,计算Critic网络的损失函数,使用梯度下降法更新网络参数,之后使用新的网络参数输出动作,与环境继续交互,直至训练结束。训练完毕后,得到
训练好的决策模块,在训练过程中,环境给予的奖励是人为进行设置的;
[0014]步骤4:在真实环境中进行避障任务,将构建多传感器信息融合框架,把视觉信息和激光雷达信息转化为伪激光雷达信息的过程作为辅助任务进行单独训练,在小车上安装激光雷达与RGB

D视觉传感器,激光雷达与视觉传感器均安装在小车前方,将机器人放在真实场景中,对机器人施加目标点的导航指令,机器人的目标点信息处理模块对指令加以处理,得到目标点向量;
[0015]步骤5:机器人根据每个时刻获取的RGB

D图像信息、激光雷达点云信息,将传感器获取的如上信息和导航目标信息输入到训练好的感本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多任务学习的机器人避障策略训练与部署方法,其特征在于,将机器人避障情景下的任务分解为在仿真环境中进行避障和在真实环境中进行避障两个任务,并将伪激光雷达数据作为两个任务之间的共同数据形式,将由伪激光雷达数据得到动作策略的网络作为共享隐藏层网络,在仿真环境中直接采集伪激光雷达数据完成避障任务,在真实环境中引入传感器信息预处理任务作为辅助任务,通过室内物品数据集和伪激光雷达数据处理模块完成辅助任务,得到伪激光雷达数据后,利用共享隐藏层网络完成后续的避障动作;通过共享由伪激光雷达数据得到机器人动作策略的隐藏层网络得到两个任务之间的逻辑层次关系,从而完成机器人在实际环境中的避障任务。2.如权利要求1所述的基于多任务学习的机器人避障策略训练与部署方法,其特征在于,所述方法包括以下步骤:步骤1:完成仿真环境的建立,使用二维环境进行搭建,用于后续进行机器人避障策略的训练;步骤2:完成移动机器人决策模块的建立,利用深度强化学习算法,建立相应的神经网络模型,采用近端策略优化算法,根据奖励进行等价的优势函数计算,从而直接对选择行为的可能性进行调整;使用Actor

Critic架构,Critic网络负责估计状态价值函数,Actor网络负责输出动作概率,输出动作采用连续动作空间,PPO算法采用重要性采样,使用当前优化的策略和探索环境的策略之间的差距对损失函数进行校正,并通过预设参数对其进行限制;步骤3:搭载待训练的决策模块,将仿真小车放置在不同的仿真环境中进行训练,并且充分利用仿真环境可并行训练的优势,设置多种不同类型的环境,把仿真小车视作智能体,随机初始化智能体位置与导航目标点,之后智能体根据获取的信息进行相应动作,获取环境给予的对应奖励和新的传感器信息,从而完成一次与环境的交互,把交互数据存入经验回放池,重复如上过程直至到达目标点或与障碍物发生碰撞后,本轮交互结束,回到起点,进行下一轮交互;待经验回放池中的数据达到一定数量后,取出每次导航过程中的完整序列数据,首先计算状态价值和优势函数,以最大化Actor网络的动作输出的优势为目的,计算Actor网络的损失函数,并且使用梯度下降法更新网络参数,然后以最小化Critic网络的输出与折扣回报之间的差距为目的,计算Critic网络的损失函数,使用梯度下降法更新网络参数,之后使用新的网络参数输出动作,与环境继续交互,直至训练结束;训练完毕后,得到训练好的决策模块,在训练过程中,环境给予的奖励是人为进行设置的;步骤4:在真实环境中进行避障任务,将构建多传感器信息融合框架,把视觉信息和激光雷达信息转化为伪激光雷达信息的过程作为辅助任务进行单独训练,在小车上安装激光雷达与RGB

D视觉传感器,激光雷达与视觉传感器均安装在小车前方,将机器人放在真实场景中,对机器人施加目标点的导航指令,机器人的目标...

【专利技术属性】
技术研发人员:张建明姜朋徐韩朱骞夏钰婷
申请(专利权)人:浙江润琛科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1