System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于agv路径规划的。更具体地,本专利技术涉及一种基于深度强化学习的agv路径规划方法。
技术介绍
1、1、相关技术发展的背景介绍:
2、我国生产技术制造业的快速发展令工业agv系统(industrial automated guidedvehicle)开始崭露头角;工业agv在重组物料运输上有着不俗的表现,它具有高度柔性化、信息化和智能化的特性,是连接工业生产中多个部分的桥梁。agv系统在实际生产中的工作效率将直接影响制造业企业的生产成本,为进一步提高agv的工作效率,减少企业成本,研究agv的系统优化是有必要的。
3、最早的agv技术诞生于美国barrett electric公司,能进行汽车零配件的搬运,随着工业技术的发展,如计算机视觉、传感器精度和人工智能水平的不断提高,agv系统所搭建的技术也在不断精进。国内快递行业的快速发展,令agv系统有更大的使用前景。
4、agv系统中小车的路径规划的优劣是系统效率提高的重要因素。agv路径规划主旨是寻优问题。根据agv小车的自身环境因素,基于路径最优、时间最短、能量流失最少等一系列目标要求,进行最优路径的选取。
5、路径规划分为全局路径规划和局部路径规划。全局路径是在静态已知障碍物环境中搜索路径长度及搜索时间最优,局部路径规划则侧重运动中的障碍物状态变化并针对这些变化进行实时探测并对障碍物进行躲避。
6、2、现有技术及其存在的技术问题:
7、路径规划是一种连接起始位置点和目标位置点轨迹的策略,现有技
8、强化学习是一种机器学习算法,它能够解决智能体(agent)与环境之间的交互问题,强化学习包括状态(state)、动作(action)、策略(policy)和奖励(reward)这四个关键因素;每一个状态-动作对应一个q值,q值是通过不断的算法迭代得到的当前状态下采取不同动作所对应的奖励值,控制系统通过参考q值的大小来对下一个动作进行选取。
9、现有技术中传统的agv小车路径规划算法无法对突发情况有很好的应对,并且对于未知复杂的环境适用性较低;导致其人工参与度高,因而工作、运行效率较低。
技术实现思路
1、本专利技术提供一种基于深度强化学习的agv路径规划方法,其目的是提高agv系统的运行效率。
2、为了实现上述目的,本专利技术采取的技术方案为:
3、本专利技术的基于深度强化学习的agv路径规划方法,包括以下过程:
4、步骤1、估值网络、目标网络、环境、经验池初始化;
5、步骤2、路径规划开始;
6、步骤3、智能体agent与环境交互,在st下得到at;所述的st为t时刻的状态;at为t时刻要采取的动作;
7、步骤4、得到奖励rt,更新状态,得到st+1,将st、at、rt、st+1放入回放池中;所述的st+1为t+1时刻的状态;
8、步骤5、从回放池中随机抽取一组st、at、rt、st+1;
9、步骤6、优化损失函数;
10、步骤7、更新估值网络q;
11、步骤8、将此时的估值网络设定为新目标网络;
12、步骤9、路径规划结束。
13、所述的agv路径规划方法首先对agv系统的运行环境进行地图建模,所述的地图建模采用栅格法。
14、所述的栅格法将agv系统的环境信息进行单元分割;根据二维激光雷达的数据对环境信息进行感知,将传感器数据与栅格进行关联,确定每个栅格内的状态信息;确定可达栅格和不可达栅格,所述的可达栅格代表无障碍物;所述的不可达栅格代表有障碍物;然后对栅格地图信息进行更新。
15、所述的估值网络q的q值函数表示通过执行该行动在特定状态下获得的预期回报。
16、所述的q值函数采用dqn算法;所述的dqn算法利用神经网络来学习q值函数,目标网络和行动选择策略是dqn算法的关键,dqn算法包括经验回放;经验回放是将之前得到的经验值存储在经验池中,并随机选择经验进行训练的技术,目标网络是利用神经网络来计算目标q值。
17、所述的dqn的q值更新如下式所示:
18、
19、上式中:
20、st为t时刻的状态;
21、at为t时刻要采取的动作;
22、w为神经网络训练的参数;
23、α为学习率,用来决定此次误差是有多少需要学习的;
24、其中的为当前q值与以往经验的误差;
25、γ是对未来奖励值的衰减值。
26、所述的agv路径规划方法将实际测量到的地图进行地图建模,并在其中添加虚拟车,用虚拟车来替代实体车,进行强化学习算法的学习。
27、所述的agv路径规划方法的整个虚拟环境的搭建利用了ros2和gazebo;其中ros2是机器人操作系统,具有高度灵活的用于编写机器人软件程序的软件架构;gazebo是一款开源且功能强大的三维物理仿真平台;利用ros2和gazebo可以对agv的运行环境进行搭建,并将dqn算法加入到其中,完成较优路径的规划,得到一个包含奖励值的栅格地图。
28、所述的ros2中有rviz工具,可利用该工具观测到agv摄像头的rgb图像,还可将激光点云信息可视化显示;还有catkin工具,可以将深度强化学习的路径规划方法运用到ros2中;
29、所述的agv路径规划方法利用二维激光雷达对agv系统的运行环境进程感知,判断出环境中是否存在障碍物,以及障碍物的具体位置。
30、针对现有技术中agv系统在复杂未知环境中路径规划的灵活性和自适应性较低的问题,本专利技术采用上述技术方案,采用基于深度强化学习的agv路径规划方法,对于复杂未知的环境,agv系统可以自寻优的寻找较优的路径,进一步提高agv系统的工作效率,提高agv路径规划的环境适应能力。
本文档来自技高网...【技术保护点】
1.一种基于深度强化学习的AGV路径规划方法,其特征在于:该方法包括以下过程:
2.按照权利要求1所述的基于深度强化学习的AGV路径规划方法,其特征在于:所述的AGV路径规划方法首先对AGV系统的运行环境进行地图建模,所述的地图建模采用栅格法。
3.按照权利要求2所述的基于深度强化学习的AGV路径规划方法,其特征在于:所述的栅格法将AGV系统的环境信息进行单元分割;根据二维激光雷达的数据对环境信息进行感知,将传感器数据与栅格进行关联,确定每个栅格内的状态信息;确定可达栅格和不可达栅格,所述的可达栅格代表无障碍物;所述的不可达栅格代表有障碍物;然后对栅格地图信息进行更新。
4.按照权利要求1所述的基于深度强化学习的AGV路径规划方法,其特征在于:所述的估值网络Q的Q值函数表示通过执行该行动在特定状态下获得的预期回报。
5.按照权利要求4所述的基于深度强化学习的AGV路径规划方法,其特征在于:所述的Q值函数采用DQN算法;所述的DQN算法利用神经网络来学习Q值函数,目标网络和行动选择策略是DQN算法的关键,DQN算法包括经验回放;经验回
6.按照权利要求5所述的基于深度强化学习的AGV路径规划方法,其特征在于:所述的DQN的Q值更新如下式所示:
7.按照权利要求2所述的基于深度强化学习的AGV路径规划方法,其特征在于:所述的AGV路径规划方法将实际测量到的地图进行地图建模,并在其中添加虚拟车,用虚拟车来替代实体车,进行强化学习算法的学习。
8.按照权利要求7所述的基于深度强化学习的AGV路径规划方法,其特征在于:所述的AGV路径规划方法的整个虚拟环境的搭建利用了ROS2和Gazebo;其中ROS2是机器人操作系统,具有高度灵活的用于编写机器人软件程序的软件架构;Gazebo是一款开源且功能强大的三维物理仿真平台;利用ROS2和Gazebo可以对AGV的运行环境进行搭建,并将DQN算法加入到其中,完成较优路径的规划,得到一个包含奖励值的栅格地图。
9.按照权利要求1所述的基于深度强化学习的AGV路径规划方法,其特征在于:所述的ROS2中有Rviz工具,可利用该工具观测到AGV摄像头的RGB图像,还可将激光点云信息可视化显示;还有Catkin工具,可以将深度强化学习的路径规划方法运用到ROS2中。
10.按照权利要求1所述的基于深度强化学习的AGV路径规划方法,其特征在于:所述的AGV路径规划方法利用二维激光雷达对AGV系统的运行环境进程感知,判断出环境中是否存在障碍物,以及障碍物的具体位置。
...【技术特征摘要】
1.一种基于深度强化学习的agv路径规划方法,其特征在于:该方法包括以下过程:
2.按照权利要求1所述的基于深度强化学习的agv路径规划方法,其特征在于:所述的agv路径规划方法首先对agv系统的运行环境进行地图建模,所述的地图建模采用栅格法。
3.按照权利要求2所述的基于深度强化学习的agv路径规划方法,其特征在于:所述的栅格法将agv系统的环境信息进行单元分割;根据二维激光雷达的数据对环境信息进行感知,将传感器数据与栅格进行关联,确定每个栅格内的状态信息;确定可达栅格和不可达栅格,所述的可达栅格代表无障碍物;所述的不可达栅格代表有障碍物;然后对栅格地图信息进行更新。
4.按照权利要求1所述的基于深度强化学习的agv路径规划方法,其特征在于:所述的估值网络q的q值函数表示通过执行该行动在特定状态下获得的预期回报。
5.按照权利要求4所述的基于深度强化学习的agv路径规划方法,其特征在于:所述的q值函数采用dqn算法;所述的dqn算法利用神经网络来学习q值函数,目标网络和行动选择策略是dqn算法的关键,dqn算法包括经验回放;经验回放是将之前得到的经验值存储在经验池中,并随机选择经验进行训练的技术,目标网络是利用神经网络来计算目标q值。
6.按照权利要求5所述的基于深度强化学习的agv路径规...
【专利技术属性】
技术研发人员:丁慧琴,陈昕,谈志强,郑亮,曹雏清,赵立军,
申请(专利权)人:长三角哈特机器人产业技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。