System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度强化学习的多移动机器人自主避障方法技术_技高网
当前位置: 首页 > 专利查询>燕山大学专利>正文

一种基于深度强化学习的多移动机器人自主避障方法技术

技术编号:41011904 阅读:16 留言:0更新日期:2024-04-18 21:48
本发明专利技术公开了一种基于深度强化学习的多移动机器人自主避障方法,属于智能机器人领域,所述方法利用深度强化学习方法,通过在混合现实中重建的环境中训练得到有效的多机器人避障策略;首先通过激光雷达获取点云数据,与该机器人的位置、航向角、局部目标作为状态信息输入到构建的神经网络中;设计包含时序信息奖励函数,通过改进的深度强化学习算法对避障策略进行更新,采用集中式学习、分布式训练框架完成多机避障策略训练,通过分阶段进阶训练,完成多机器人从简单环境到复杂环境的进阶训练。本发明专利技术可以有效解决算法在复杂环境中收敛速度慢的问题,提高多机器人避障鲁棒性,避免机器人在避障任务中奖励函数稀疏的情况。

【技术实现步骤摘要】

本专利技术涉及智能机器人避障领域,尤其是一种基于深度强化学习的多移动机器人自主避障方法


技术介绍

1、移动机器人通常应用于危险和复杂未知环境中完成各种任务。由于任务环境的复杂程度高,往往需要多机器人协同作业完成任务。然而,现有多机器人系统存在感知受限问题,在复杂未知环境中作业的可靠性低、效率低,迫切需要面向未知作业环境实现自主导航的技术。

2、实现多机器人的安全自主导航离不开路径规划和自主避障技术。多机器人的自主避障是指通过传感设备获得机器人周围的环境信息,规划出一条平滑无碰撞的路径,使机器人能安全且快速到达目标位置。传统的避障算法主要是集中式的方法,通过给定的所有机器人的工作区域、起始点和目标点来同时规划所有多机器人的最佳路径以完成避障。然而,这种集中式学习的方法不适合在未知复杂环境工作的多机器人系统中。相比于集中式方法,通过深度强化学习来训练多机器人的分散式避障策略能较好地解决多机器人在未知复杂环境中的避障问题,通过试错的机制与环境进行交互,对避障策略进行自学习。但是现有的深度强化学习避障方法依旧存在着局限性,如dqn、sac、ddpg等算法,dqn适用于训练离散动作,sac算法在仿真时对奖励函数设置标准高,模型泛化能力较差,不适合应用在多机器人的路径规划之中。ddpg算法则在训练中可能会出现高方差的问题,即策略不稳定,导致训练困难。并且ddpg对参数的选择比较敏感,需要调整好才能获得良好的性能。

3、在多机器人强化学习算法中,有很多困难。首先,它需要大量的训练数据且对计算机算力要求较高,而且随着机器人数量增加,机器人的探索空间急剧增加,需要的计算资源也更高。其次,在非静态的交互场景中不能保证数据集中的专家轨迹是最优,因此训练很难收敛到一个可靠的解决方案。第三,很难设计出具有鲁棒性的避障策略模型。

4、因此,有必要研发一种基于深度强化学习的多移动机器人自主避障方法,以克服上述问题。


技术实现思路

1、本专利技术需要解决的技术问题是提供一种基于深度强化学习的多移动机器人自主避障方法,通过分阶段进阶训练和包含时序信息奖励函数,完成多机器人从简单环境到复杂环境的进阶训练,可以有效解决算法在复杂环境中收敛速度慢的问题,提高多机器人避障鲁棒性,避免机器人在避障任务中奖励函数稀疏的情况,能够面向未知复杂环境、不受机器人数量影响、且鲁棒性较高。

2、为解决上述技术问题,本专利技术所采用的技术方案是:

3、一种基于深度强化学习的多移动机器人自主避障方法,包括以下步骤:

4、步骤1,构建多机器人避障的混合现实重建的仿真环境与机器人模型,设置强化学习框架:

5、步骤2,针对机器人避障任务设计时序非稀疏奖励函数;

6、步骤3,构建包括策略网络和价值网络的深度强化网络;

7、步骤4,利用深度强化网络采样机器人模型与环境的交互数据并对机器人动作进行决策,并收集经验数据;

8、步骤5,当经验存储器buffer存数量达到预设值时,开始更新优化策略;基于dynamic-dppo-cma算法,利用经验池中的数据对价值网络和策略网络进行训练并更新网络参数,将更新到的网络参数同步到所有并行的智能体中,使他们下一次与环境交互时使用最新的策略;重复步骤4~6,直到获得理想的避障模型;

9、步骤6,在更新的混合现实仿真环境中,导入步骤5中训练得到的避障模型继续训练,重复步骤4和步骤5直至获得理想的避障模型,重复此步骤,完成所有阶段训练;

10、步骤7,在实际作业过程中,基于训练好的避障模型,给所有机器人设置起始点和目标点,将激光点云数据、机器人位姿、速度和相对目标位姿传入避障模型中,以获得机器人的避障运动指令,完成避障任务。

11、本专利技术技术方案的进一步改进在于:在步骤1中,具体包括:基于视觉-激光雷达融合设备采集真实环境的彩色点云数据实时重建多机器人避障环境,并结合虚拟机器人模型和真实机器人定位数据,生成混合现实仿真环境,设置强化学习框架,定义每个机器人的观测空间和动作空间。

12、本专利技术技术方案的进一步改进在于:在步骤2中,所述奖励函数的具体设计过程如下:

13、所述奖励函数为第i个机器人在时间步t获得的奖励,包括四部分:转移奖励、转向奖励、状态奖励以及步伐奖励;

14、转移奖励能够表示机器人与预设目标点之间的距离变化,保证机器人往目标前进,用表示机器人i在时间步t时的位置,用表示预设的第i个机器人的任务目标点,转移奖励rtrans为:

15、

16、为了避免机器人出现急转弯的动作,设置了一个转向奖励rω,设置为:

17、

18、其中,ω1是一个自定义的旋转角速度,指机器人i在时间t的旋转角速度;cω为自定义的常数;

19、状态奖励定义为rdone,当机器人到达目标点或者发生碰撞时,设定为机器人仿真结束;rdone设置为:

20、

21、其中,表示机器人i在时间步t时与其目标点的距离,当距离值小于cg时,定义为第i个机器人到达目标点,则rdone赋值为rreach;cg是自定义的常数;表示机器人i和j的中心距离,ri表示机器人i的半径,表示机器人中心与障碍物的距离;若第i个机器人若发生碰撞则rdone赋值为rcoll;

22、为了避免由于目标点方向出现障碍物时由于转向不直接产生转向奖励导致机器人一直困在转向的循环中的情况,加入步伐奖励rstep,定义为:

23、rstep=c

24、其中,c是一个小于0的常数;

25、最终机器人在每个时间步t的奖励根据各部分进行加权得到,最终的奖励函数为:

26、

27、其中,γ1、γ2为自定义常数。

28、本专利技术技术方案的进一步改进在于:在步骤3中,所述价值网络同所述策略网络结构相同;所述策略网络是由均值网络和方差网络两个神经子网络组成,基于给定的观测值分别输出机器人动作策略的均值和标准差;与此同时,所述价值网络负责输出给定状态的价值估计;

29、所述均值网络和所述方差网络是结构相同,均具有五个隐藏层的神经子网络,作为策略πθ的非线性逼近器,分别输出策略的均值和标准差;前三个隐藏层是依次相连的两个卷积层和一个全连接层,这一连贯的层级结构致力于解析激光雷达点云数据,从而提取出关于周围环境的空间特征;这些空间特征随后与目标信息速度信息以及航向信息相结合,并被输入到第四个隐藏层lstm层以处理时间序列信息;两个神经子网络的第五层都是一个全连接层,均值网络负责输出行动策略的均值,方差网络负责输出行动策略的标准差;并用高斯采样方法获得控制机器人下一个动作的数值;最后由全连接层输入机器人当前状态的价值。

30、本专利技术技术方案的进一步改进在于:在步骤4中,在重建的仿真环境中进行避障仿真,对多机器人与仿真环境的交互进行采样,每个机器人将自己的观察数据输入自己本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的多移动机器人自主避障方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于深度强化学习的多移动机器人自主避障方法,其特征在于,在步骤1中,具体包括:基于视觉-激光雷达融合设备采集真实环境的彩色点云数据实时重建多机器人避障环境,并结合虚拟机器人模型和真实机器人定位数据,生成混合现实仿真环境,设置强化学习框架,定义每个机器人的观测空间和动作空间。

3.根据权利要求1所述的一种基于深度强化学习的多移动机器人自主避障方法,其特征在于,在步骤2中,所述奖励函数的具体设计过程如下:

4.根据权利要求1所述的一种基于深度强化学习的多移动机器人自主避障方法,其特征在于,在步骤3中,所述价值网络同所述策略网络结构相同;所述策略网络是由均值网络和方差网络两个神经子网络组成,基于给定的观测值分别输出机器人动作策略的均值和标准差;与此同时,所述价值网络负责输出给定状态的价值估计;

5.根据权利要求1所述的一种基于深度强化学习的多移动机器人自主避障方法,其特征在于,在步骤4中,在重建的仿真环境中进行避障仿真,对多机器人与仿真环境的交互进行采样,每个机器人将自己的观察数据输入自己的策略网络中生成下一步的动作,以及获得一定的奖励;使用价值网络对机器人的状态进行价值评估获得价值函数,并使用GAE算法计算出优势函数;将所有机器人的经验上传至中央处理器或主线程的经验池中,这些数据包括每个机器人的观察、动作和奖励。

6.根据权利要求5所述的一种基于深度强化学习的多移动机器人自主避障方法,其特征在于,在步骤4中,具体包括以下步骤:

7.根据权利要求1所述的一种基于深度强化学习的多移动机器人自主避障方法,其特征在于,在步骤5中,所述dynamic-DPPO-CMA算法是在PPO算法中加入分布式框架训练,并加入CMA的思想,用两个独立的均值网络和方差网络来分别更新策略的均值和标准差;对策略的采样结果进行剪切,将采样的动作速度值限制在一定范围内;具体包括以下步骤:

8.根据权利要求1所述的一种基于深度强化学习的多移动机器人自主避障方法,其特征在于,在步骤6中,具体包括:

...

【技术特征摘要】

1.一种基于深度强化学习的多移动机器人自主避障方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于深度强化学习的多移动机器人自主避障方法,其特征在于,在步骤1中,具体包括:基于视觉-激光雷达融合设备采集真实环境的彩色点云数据实时重建多机器人避障环境,并结合虚拟机器人模型和真实机器人定位数据,生成混合现实仿真环境,设置强化学习框架,定义每个机器人的观测空间和动作空间。

3.根据权利要求1所述的一种基于深度强化学习的多移动机器人自主避障方法,其特征在于,在步骤2中,所述奖励函数的具体设计过程如下:

4.根据权利要求1所述的一种基于深度强化学习的多移动机器人自主避障方法,其特征在于,在步骤3中,所述价值网络同所述策略网络结构相同;所述策略网络是由均值网络和方差网络两个神经子网络组成,基于给定的观测值分别输出机器人动作策略的均值和标准差;与此同时,所述价值网络负责输出给定状态的价值估计;

5.根据权利要求1所述的一种基于深度强化学习的多移动机器人自主避障方法,其特征在于,...

【专利技术属性】
技术研发人员:丁伟利林颖镇华长春
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1