一种动态环境下的移动机器人路径规划方法技术

技术编号：32659190 阅读：10 留言：0更新日期：2022-03-17 11:08

本发明专利技术公开了一种动态环境下的移动机器人路径规划方法。通过移动机器人所携带的激光雷达获取原始数据与动态障碍物信息；对原始数据进行数据处理后，与移动机器人周围的信息结合后得到DDPG算法的状态S；设计DDPG算法的状态空间、动作空间和奖励函数，所述奖励函数包括移动机器人与目标直线距离的奖惩、与动态障碍物碰撞的惩罚以及到达目标点的奖励；根据速度和运动的特点构建多类型动态障碍物环境；将DDPG算法与好奇心算法相融合，建立内外奖励共同作用的奖励机制；移动机器人使用改进完成的DDPG算法在建立的环境中进行训练学习,实现动态环境下的移动机器人路径规划。本发明专利技术用以解决动态环境下移动机器人路径规划中存在准确率低和收敛速度慢的问题。率低和收敛速度慢的问题。率低和收敛速度慢的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种动态环境下的移动机器人路径规划方法

[0001]本专利技术涉及移动机器人
，具体涉及一种动态环境下的移动机器人路径规划方法。

技术介绍

[0002]在机器人自主导航中，路径规划是一个非常重要的部分。机器人路径规划问题可以描述为在机器人自身位姿己知的情况下，根据一个或者多个优化目标，在机器人工作环境中寻找到一条从当前点到指定目标点的最优路径。目前，常用算法有人工势场法、遗传算法、模糊逻辑法、强化学习法等。其中强化学习(Reinforcement Learning，RL)算法是一种完全不需要智能体事先对所处环境进行了解的学习算法，移动机器人在对当前环境进行感知的同时采取相应的行动，根据当前状态和所采取的行动，移动机器人从当前状态迁移至下一个状态。Q
‑
learning算法是强化学习的经典算法，算法简单且收敛性好，得到广泛应用。但当环境较为复杂，随着状态空间维数的增加，强化学习算法易陷入“维数爆炸”。深度学习(Deep Learning，DL)具有较好的处理高维信息的能力，将其与强化学习结合的深度强化学习(Deep Reinforcement Learning，DRL)通过学习端到端(End
‑
to
‑
end)的模型，既能处理高维的环境信息又能进行相应的规划任务。因此DQN算法应运而生，但DQN算法通常解决离散且维度不高的动作空间的问题。2016年由DeepMind团队提出的深度确定性策略梯度(Deep Deterministic Policy Gradien...

【技术保护点】

【技术特征摘要】
1.一种动态环境下移动机器人路径规划方法，其特征在于，所述路径规划方法包括以下步骤：步骤1：通过移动机器人所携带的激光雷达获取原始数据与动态障碍物信息；步骤2：对步骤1中的原始数据进行数据处理后，与移动机器人周围的信息结合后得到DDPG算法的状态S；步骤3：设计DDPG算法的状态空间、动作空间和奖励函数，所述奖励函数包括移动机器人与目标直线距离的奖惩、与动态障碍物碰撞的惩罚以及到达目标点的奖励；步骤4：根据速度和运动的特点构建多类型动态障碍物环境；步骤5：将DDPG算法与好奇心算法相融合，建立内外奖励共同作用的奖励机制；步骤6：移动机器人使用改进完成的DDPG算法在步骤4中建立的环境中进行训练学习，并对训练好的模型进行动态环境下路径规划的测试。2.根据权利要求1所述的一种动态环境下移动机器人路径规划方法，其特征在于：所述步骤1中的原始数据包括目标点和动态障碍物距激光雷达距离、方位、姿态和形状。3.根据权利要求1所述的一种动态环境下移动机器人路径规划方法，其特征在于：所述步骤2的移动机器人周围的信息包括移动机器人与障碍物的距离、与目标点之间的距离，以及移动机器人朝向偏离目标点所在方向的角度。4.根据权利要求3所述的一种动态环境下移动机器人路径规划方法，其特征在于：所述步骤2根据机器人与障碍物之间的距离将机器人与障碍物之间状态分为导航状态N和撞到障碍物状态C，如下公式所示：其中d
i
(t)是机器人在时间t的第i维激光雷达距离数据；当机器人与障碍物之间的距离d
i
(t)≤0.2m，机器人处于撞到障碍物状态C；当机器人与障碍物之间的距离d
i
(t)>0.2m时机器人处于正常导航状态N。5.根据权利要求1所述的一种动态环境下移动机器人路径规划方法，其特征在于：所述步骤3的奖励函数包括对目标直线距离的奖惩、靠近目标点奖励以及远离目标点惩罚；...

【专利技术属性】
技术研发人员：李芃，丁祥成，孙宏放，张兰勇，李奕霏，刘洪丹，
申请(专利权)人：哈尔滨工程大学青岛船舶科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人