一种动态环境下的移动机器人路径规划方法技术

技术编号:32659190 阅读:10 留言:0更新日期:2022-03-17 11:08
本发明专利技术公开了一种动态环境下的移动机器人路径规划方法。通过移动机器人所携带的激光雷达获取原始数据与动态障碍物信息;对原始数据进行数据处理后,与移动机器人周围的信息结合后得到DDPG算法的状态S;设计DDPG算法的状态空间、动作空间和奖励函数,所述奖励函数包括移动机器人与目标直线距离的奖惩、与动态障碍物碰撞的惩罚以及到达目标点的奖励;根据速度和运动的特点构建多类型动态障碍物环境;将DDPG算法与好奇心算法相融合,建立内外奖励共同作用的奖励机制;移动机器人使用改进完成的DDPG算法在建立的环境中进行训练学习,实现动态环境下的移动机器人路径规划。本发明专利技术用以解决动态环境下移动机器人路径规划中存在准确率低和收敛速度慢的问题。率低和收敛速度慢的问题。率低和收敛速度慢的问题。

【技术实现步骤摘要】
一种动态环境下的移动机器人路径规划方法


[0001]本专利技术涉及移动机器人
,具体涉及一种动态环境下的移动机器人路径规划方法。

技术介绍

[0002]在机器人自主导航中,路径规划是一个非常重要的部分。机器人路径规划问题可以描述为在机器人自身位姿己知的情况下,根据一个或者多个优化目标,在机器人工作环境中寻找到一条从当前点到指定目标点的最优路径。目前,常用算法有人工势场法、遗传算法、模糊逻辑法、强化学习法等。其中强化学习(Reinforcement Learning,RL)算法是一种完全不需要智能体事先对所处环境进行了解的学习算法,移动机器人在对当前环境进行感知的同时采取相应的行动,根据当前状态和所采取的行动,移动机器人从当前状态迁移至下一个状态。Q

learning算法是强化学习的经典算法,算法简单且收敛性好,得到广泛应用。但当环境较为复杂,随着状态空间维数的增加,强化学习算法易陷入“维数爆炸”。深度学习(Deep Learning,DL)具有较好的处理高维信息的能力,将其与强化学习结合的深度强化学习(Deep Reinforcement Learning,DRL)通过学习端到端(End

to

end)的模型,既能处理高维的环境信息又能进行相应的规划任务。因此DQN算法应运而生,但DQN算法通常解决离散且维度不高的动作空间的问题。2016年由DeepMind团队提出的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,使用Actor

Critic算法框架,同时借鉴DQN算法的思想解决连续动作空间问题。但DDPG算法应用于动态环境下路径规划时,存在着成功率低、收敛速度慢等缺点,且相关研究大多停留在理论层面,缺少对实际问题的解决方案。

技术实现思路

[0003]本专利技术提供一种动态环境下的移动机器人路径规划方法,用以解决动态环境下移动机器人路径规划中存在准确率低和收敛速度慢的问题。
[0004]本专利技术通过以下技术方案实现:
[0005]一种动态环境下移动机器人路径规划方法,所述路径规划方法包括以下步骤:
[0006]步骤1:通过移动机器人所携带的激光雷达获取原始数据与动态障碍物信息;
[0007]步骤2:对步骤1中的原始数据进行数据处理后,与移动机器人周围的信息结合后得到DDPG算法的状态S;
[0008]步骤3:设计DDPG算法的状态空间、动作空间和奖励函数,所述奖励函数包括移动机器人与目标直线距离的奖惩、与动态障碍物碰撞的惩罚以及到达目标点的奖励;
[0009]步骤4:根据速度和运动的特点构建多类型动态障碍物环境;
[0010]步骤5:将DDPG算法与好奇心算法相融合,建立内外奖励共同作用的奖励机制;
[0011]步骤S6:移动机器人使用改进完成的DDPG算法在步骤4中建立的环境中进行训练学习。
[0012]进一步的,所述步骤1中的原始数据包括目标点和动态障碍物距激光雷达距离、方位、姿态和形状。
[0013]进一步的,所述步骤2的移动机器人周围的信息包括移动机器人与障碍物的距离、与目标点之间的距离,以及移动机器人朝向偏离目标点所在方向的角度。
[0014]进一步的,所述步骤2根据机器人与障碍物之间的距离将机器人与障碍物之间状态分为导航状态N和撞到障碍物状态C,如下公式所示:
[0015][0016]其中d
i
(t)是机器人在时间t的第i维激光雷达距离数据;当机器人与障碍物之间的距离d
i
(t)≤0.2m,机器人处于撞到障碍物状态C;当机器人与障碍物之间的距离d
i
(t)>0.2m时机器人处于正常导航状态N。
[0017]进一步的,所述步骤3的奖励函数包括对目标直线距离的奖惩、靠近目标点奖励以及远离目标点惩罚;碰撞到动态障碍物给予惩罚;到达目标点给予奖励。
[0018]进一步的,所述步骤4在匀速运动的动态障碍物基础上加入随机变换速度的障碍物,设定障碍物速度在(v
low

v
high
)之间每时刻随机变换,其中v
low
为设定的动态障碍物最低的运动速度,v
high
为设定的动态障碍物最高的运动速度,并根据障碍物有规律和无规律的运动特点设定了水平、竖直以及旋转的有规律和无规律运动的动态障碍物。
[0019]进一步的,所述步骤5具体为,好奇心算法与DDPG算法相结合后最终的奖励值为式中r
t
为总的奖励值,为好奇心模块的内在奖励,为DDPG算法的外在奖励。
[0020]本专利技术的有益效果是:
[0021]本专利技术相比原始DDPG算法的路径规划,在相同条件训练环境下,提高了算法的收敛速度。
[0022]本专利技术相比原始DDPG算法的路径规划,在动态环境下路径规划成功率有着显著的提升。
[0023]本专利技术相比原始DDPG算法的路径规划,对于复杂动态环境的路径规划有着较好的适应性。
[0024]本专利技术建立内外奖励共同作用的奖励机制并通过加入优先经验回放、迁移学习和Radam算法提高算法成功率和收敛速度,并将其应用于动态环境下移动机器人的路径规划,使其在短时间内从起点安全无碰撞移动到终点。
附图说明
[0025]图1为本专利技术动态环境路径规划算法流程图。
[0026]图2为本专利技术中用于训练动态环境下路径规划的仿真实验图。
[0027]图3为本专利技术用于测试训练模型在障碍物速度随机变化下泛化性能的仿真实验图。
[0028]图4为本专利技术用于测试训练模型在障碍物速度和环境大小变化下泛化性能的仿真实验图。
[0029]图5为本专利技术中未改进算法的回报函数曲线图。
[0030]图6为本专利技术中改进完成算法的回报函数曲线图。
[0031]图7为本专利技术中在动态环境下训练完成的路径规划结果图。
[0032]图8为本专利技术中测试训练模型在障碍物速度随机变化下泛化性能的路径规划结果图。
[0033]图9为本专利技术中测试训练模型在障碍物速度和环境变化下泛化性能的路径规划结果图。
具体实施方式
[0034]下面将结合本专利技术实施例中的附图对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0035]本专利技术建立内外奖励共同作用的奖励机制并通过加入优先经验回放、迁移学习和Radam算法提高算法成功率和收敛速度,并将其应用于动态环境下移动机器人的路径规划,使其在短时间内从起点安全无碰撞移动到终点。
[0036]一种动态环境下移动机器人路径规划方法,所述路径规划本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动态环境下移动机器人路径规划方法,其特征在于,所述路径规划方法包括以下步骤:步骤1:通过移动机器人所携带的激光雷达获取原始数据与动态障碍物信息;步骤2:对步骤1中的原始数据进行数据处理后,与移动机器人周围的信息结合后得到DDPG算法的状态S;步骤3:设计DDPG算法的状态空间、动作空间和奖励函数,所述奖励函数包括移动机器人与目标直线距离的奖惩、与动态障碍物碰撞的惩罚以及到达目标点的奖励;步骤4:根据速度和运动的特点构建多类型动态障碍物环境;步骤5:将DDPG算法与好奇心算法相融合,建立内外奖励共同作用的奖励机制;步骤6:移动机器人使用改进完成的DDPG算法在步骤4中建立的环境中进行训练学习,并对训练好的模型进行动态环境下路径规划的测试。2.根据权利要求1所述的一种动态环境下移动机器人路径规划方法,其特征在于:所述步骤1中的原始数据包括目标点和动态障碍物距激光雷达距离、方位、姿态和形状。3.根据权利要求1所述的一种动态环境下移动机器人路径规划方法,其特征在于:所述步骤2的移动机器人周围的信息包括移动机器人与障碍物的距离、与目标点之间的距离,以及移动机器人朝向偏离目标点所在方向的角度。4.根据权利要求3所述的一种动态环境下移动机器人路径规划方法,其特征在于:所述步骤2根据机器人与障碍物之间的距离将机器人与障碍物之间状态分为导航状态N和撞到障碍物状态C,如下公式所示:其中d
i
(t)是机器人在时间t的第i维激光雷达距离数据;当机器人与障碍物之间的距离d
i
(t)≤0.2m,机器人处于撞到障碍物状态C;当机器人与障碍物之间的距离d
i
(t)>0.2m时机器人处于正常导航状态N。5.根据权利要求1所述的一种动态环境下移动机器人路径规划方法,其特征在于:所述步骤3的奖励函数包括对目标直线距离的奖惩、靠近目标点奖励以及远离目标点惩罚;...

【专利技术属性】
技术研发人员:李芃丁祥成孙宏放张兰勇李奕霏刘洪丹
申请(专利权)人:哈尔滨工程大学青岛船舶科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1