System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于无地图导航的园区物流小车的路径规划方法技术_技高网

一种基于无地图导航的园区物流小车的路径规划方法技术

技术编号:42943576 阅读:5 留言:0更新日期:2024-10-11 16:01
本发明专利技术公开一种基于无地图导航的园区物流小车的路径规划方法,包括:1、在Gazebo中构建园区的仿真场景,搭建小车模型;2、定义无地图导航采用深度强化学习方法的状态参数、动作参数和奖励函数;3、构建神经网络模型,初始化神经网络参数,训练神经网络模型,得到最优网络神经网络模型;4、获取小车当前状态参数St,根据最优神经网络输出小车的速度与转向角;5、对仿真环境和现实世界之间的差异进行建模,学习从仿真环境小车到现实环境小车的映射。6、将训练完成的模型与仿真环境相结合,以学习将小车的训练模型转移到目标环境的策略。本发明专利技术基于无地图导航技术,通过车载终端与传感器的感知信息,提升物流小车的导航效果。

【技术实现步骤摘要】

本专利技术涉及自动驾驶领域,具体涉及一种基于无地图导航的园区物流小车的路径规划方法


技术介绍

1、1)现阶段,园区物流运输多采取人工运输的方式。然而劳动人口数量与劳动力需求间产生了巨大缺口,物流配送用工难困境难以缓解。

2、2)无地图导航能够为小车找到一条从出发点到目标位置的路径,该路径应尽可能的短,路径的平滑度应满足小车的动力学特性,路径的安全性应保证小车不会发生碰撞,安全将货物送达目标点。

3、3)目前在园区仓库中实现导航功能主要是依赖于slam建图,通过主动构建地图的方式来获得环境地图,并且同时确定小车位置。但是传统的slam建图主要侧重于使用几何技术构建地图,而导航本身很少被考虑。slam系统构建的表示通常不适合传统的运动规划方法。并且在建图过程中,园区环境中存在动态物体会出现动态特征点,导致建图鲁棒性差,出现地图漂移的情况。基于强化学习的无地图导航不依赖于地图,并且具备在小车与环境交互的过程中学习的能力,在物流园区这样的复杂动态环境中具有更强的适应能力。


技术实现思路

1、本专利技术为了克服上述现有技术的不足之处,提供一种基于无地图导航的园区物流小车的路径规划方法,以期在物流园区等复杂多变的现实环境中物流小车难以建图的情况,以更加有效地学习小车在没有地图的情况下的路径规划能力,从而能够有效缩短小车在现实环境中训练所需要的时间,并能提高小车在现实环境中路径规划的安全性,进而为无地图导航的改进和优化提供参考。

2、本专利技术为达到上述专利技术目的,采用如下技术方案:

3、本专利技术一种基于无地图导航的园区物流小车的路径规划方法的特点在于,包括以下步骤:

4、步骤1、根据现实环境小车,设计仿真环境中小车的动力学模型,并设置仿真环境中小车的初始参数,包括:最大行驶速度vmax以及最大转角θmax;根据现实环境中障碍物的空间状态,在仿真环境中设置相同的障碍物的空间状态;

5、步骤2、定义仿真环境中小车的状态参数集ss={s1s,s2s...,sis,...,sms},sis为仿真环境中小车在第i步的归一化状态量,包括:小车在第i步与障碍物之间的最小距离、小车在第i步的位置到目标点的距离di、小车在第i步的坐标;i=1,2,…,m,m为总步数;

6、定义仿真环境中小车的动作参数集a={a1,a2...,ai,...,am},ai为小车在第i步的状态量,且ai={vi,θi},其中,vi为小车在第i步的速度,θi为小车在第i步的转向角;

7、步骤3、根据小车在第i步的动作量ai,生成小车在第i步与障碍物之间的最小距离、小车在第i步的位置到目标点的距离di以及小车在第i步的坐标;

8、步骤4、设定小车在第i步的奖励函数ri;

9、步骤5、构建策略-评价网络π,并利用ppo算法对所述策略-评价网络进行训练,得到局部最优策略-评价模型π;

10、步骤6、根据小车在仿真环境与现实环境之间的差异搭建lstm模型φ,并对lstm模型φ进行训练,从而将训练后的lstm模型φ与现实环境相结合,用于训练策略-评价网络获得全局最优-策略-评价网络π*。

11、步骤7、将全局最优策略-评价模型π*部署到现实环境小车的控制模块上,并根据步骤3的过程得到小车第i步与障碍物之间的全局最优最小距离、小车在第i步的位置到目标点的全局最优距离以及小车的全局最优坐标后,输入全局最优策略-评价模型π*中,从而输出小车在第i+1步的全局最优动作并移动。

12、本专利技术所述的一种基于无地图导航的园区物流小车的路径规划方法的特点也在于,所述步骤4是利用式(1)构建奖励函数ri:

13、ri=ω1rvi+ω2rsi+ω3rci+ω4rai  (2)

14、式(2)中,rvi表示速度奖励函数,并由式(3)得到,rsi表示转向奖励函数,并由式(4)得到,rci表示碰撞奖励函数,并由式(5)得到,rai表示接近目标奖励函数,并由式(7)得到;ω1,ω2,ω3,ω4表示四个奖励的权重;

15、

16、式(3)中,r表示速度奖励系数,vmax表示小车的最大速度,vmin表示小车的最小速度;

17、

18、式(4)中,τreward表示小车不明显转变方向时正向奖励值,τpunish表示小车明显转变方向惩罚值,θ0表示判断小车是否明显转向的标准。

19、

20、式(5)中,dmin表示最小碰撞预警圈,vmax表示最大行驶速度,dmax表示最大碰撞预警圈,dimin表示与障碍物之间的最小距离,σ1表示小车发生碰撞的惩罚值,σ2表示小车即将碰撞的惩罚参数,并有:

21、

22、式(6)中,dmax表示最大碰撞阈值,dmin表示最小碰撞阈值;δt为时间相隔;

23、

24、式(7)中,cd表示小车到达目标点附近的阈值,cr表示距离变化奖励系数,ci表示每多走一个时间步给予的惩罚,di为当前小车距离目标点的距离,creward表示小车到达目标点给予的奖励值。

25、所述步骤5包括:

26、步骤5.1:所述策略-评价网络π包括:评价网络和策略网络;

27、搭建所述评价网络是由两层全连接层以及输出层组成,且所有全连接层之间的激活函数均为relu函数;令评价网络的参数记为评价网络的输入为归一化状态量,输出为当前状态价值;

28、搭建所述策略网络包括:输出均值部分的神经网络和输出方差部分的神经网络;其中,输出均值部分的神经网络包含:两层全连接层以及输出层,且输出层激活函数为tanh函数;所述输出方差部分的神经网络包含:两层全连接层和输出层,且输出层激活函数为softplus激活函数;所有全连接层之间的激活函数为relu函数;

29、令策略网络的参数记为θ,策略网络的输入为归一化状态量,输出量为当前动作量a~n(ε,std);ε和std分别表示均值和方差;n表示高斯分布,~表示服从;

30、定义策略网络的训练策略为πθ、定义策略网络的环境互动参数为θ',策略网络的环境互动策略为πθ';

31、步骤5.2:对第i步的归一化状态量si输入所述策略网络中进行处理,输出第i步动作量ai以及第i步奖励ri;

32、将第i步动作量ai处理得到第i步预期轨迹,所述车辆动力学模型执行第i步的预期轨迹后,得到第i+1步的归一化状态量si+1;

33、将(si,ai,si+1,ri)作为第i条样本存入经验池中;

34、步骤5.3:将i+1赋值给i后,返回步骤5.2,直到经验池的样本数量达到容量上限n为止;

35、步骤5.4:从经验池中抽取任意第i条样本,从而利用式(8)所示的优势函数估计器计算第i步的估计值

36、

37、式(8)中,vφ(si)为将第i步中的输入所述价值网络后得到本文档来自技高网...

【技术保护点】

1.一种基于无地图导航的园区物流小车的路径规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于无地图导航的园区物流小车的路径规划方法,其特征在于,所述步骤4是利用式(1)构建奖励函数Ri:

3.根据权利要求1所述的一种自动驾驶场景下交通参与者动态切入行为的生成方法,其特征在于,所述步骤5包括:

4.根据权利要求3所述的一种自动驾驶场景下交通参与者动态切入行为的生成方法,其特征在于,所述步骤6包括:

5.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1-4中任一所述路径规划方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。

6.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-4中任一所述路径规划方法的步骤。

【技术特征摘要】

1.一种基于无地图导航的园区物流小车的路径规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于无地图导航的园区物流小车的路径规划方法,其特征在于,所述步骤4是利用式(1)构建奖励函数ri:

3.根据权利要求1所述的一种自动驾驶场景下交通参与者动态切入行为的生成方法,其特征在于,所述步骤5包括:

4.根据权利要求3所述的一种自动驾驶场景下交通参与者动态切...

【专利技术属性】
技术研发人员:姜平殷越黄鹤张宏扬李京奥范杨平
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1