本发明专利技术涉及AGV技术领域,具体提供一种AGV路径规划方法、系统、终端及存储介质,包括:接收AGV车上报的自身与目标货物的距离,所述AGV车响应于机床发布的运输任务上报自身与所述运输任务的目标货物的距离;筛选出所述距离最短的空载AGV车作为承担所述运输任务的目标AGV车;将目标AGV车的运输轨迹规划过程建模为分布式部分可观察马尔可夫过程,并建立针对所述目标AGV车的观察空间和动作空间,和环境的状态空间、整体环境奖励函数;利用深度强化学习算法对所述马尔可夫过程求取最优解,得到目标AGV车的最优路径。本发明专利技术可以实现自主寻路,自主搬运物料等功能。
【技术实现步骤摘要】
本专利技术属于agv,具体涉及一种agv路径规划方法、系统、终端及存储介质。
技术介绍
1、随着自动化物流系统,柔性制造系统(fms),自动化立体化仓库等的发展,agvs(作为物流系统和柔性制造系统中的关键子系统,得到越来越多的应用。agvs主要用于输送环节,方便自动化管理,提高系统柔性和灵活性,提高生产效率。
2、相关路径规划方法大多是考虑路程远近,规划出最短路径。但是agv车在运行时,周围环境和路径长度都是影响运输时间的重要参数。因此相关路径规划方法不一定能够准确找到运输时间最短的路径。且一旦分配路径后,agv车就要按照分配的路径行驶,一旦分配的路径被阻塞就是导致agv车运行锁死的情况。
技术实现思路
1、针对现有技术的上述不足,本专利技术提供一种agv路径规划方法、系统、终端及存储介质,以解决上述技术问题。
2、第一方面,本专利技术提供一种agv路径规划方法,包括:
3、接收agv车上报的自身与目标货物的距离,所述agv车响应于机床发布的运输任务上报自身与所述运输任务的目标货物的距离;
4、筛选出所述距离最短的空载agv车作为承担所述运输任务的目标agv车;
5、将目标agv车的运输轨迹规划过程建模为分布式部分可观察马尔可夫过程,并建立针对所述目标agv车的观察空间和动作空间,和环境的状态空间、整体环境奖励函数;
6、利用深度强化学习算法对所述马尔可夫过程求取最优解,得到目标agv车的最优路径;
<
p>7、将目标agv车的运输轨迹规划过程建模为分布式部分可观察马尔可夫过程,并建立针对所述目标agv车的观察空间和动作空间,和环境的状态空间、整体环境奖励函数,包括:8、在时隙时,收集观察范围内的环境信息,所述环境信息包含时隙中agv车自身位置和是否载货,工厂中存在的任务位置和在射频识别器识别范围内的货物种类和位置,因此观察o(t) 定义为:
9、
10、
11、这里和代表的是在时隙,第i个agv车的位置和是否载货的状态;和代表机床发布任务的位置和货物的位置;代表的是在时隙任务是否被agv车接受;
12、状态空间是整个环境所有agv车、机床发布任务、货物位置在时间t所处状态共同构成的,状态空间定义为:
13、
14、
15、
16、在深度强化学习算法中,动作是代理做出的特定决策,影响其与环境的互动;agv的动作考虑路径规划动作和任务选择动作,定义为
17、
18、其中,
ψ定义了 agv 的移动角度。每个 agv 在时隙
t中选择一个角度进行移动。表示任务接受动作,其中 0 表示拒绝,1 表示接受;
19、奖励是指导代理学习过程的反馈信号,推动它优化其行动以实现最大的累积奖励;在当前环境中,奖励来源于一个任务的完成,并且与任务完成时间相关;对于未完成任务的agv车会有惩罚;所有 agv 在时隙的奖励表示为:
20、
21、其中是完成一次任务所给予的奖励,代表的是在时隙任务是否完成,完成为1,未完成为0;代表任务的影响因子,受任务的紧急性影响;部分是对任务完成的奖励,部分是对agv车移动的惩罚,用于训练agv车的路径规划,使其倾向于以最短路径进行任务运输。
22、在一个可选的实施方式中,接收agv车上报的自身与目标货物的距离,所述agv车响应于机床发布的运输任务上报自身与所述运输任务的目标货物的距离,包括:
23、机床向多个agv车以广播的形式发布运输任务;
24、接收到运输任务的agv车解析所述运输任务的目标货物,通过射频识别器获取所述自身与目标货物的距离,并将自身与目标货物的距离上报至调度终端。
25、在一个可选的实施方式中,在将自身与目标货物的距离上报至调度终端之前,所述方法还包括:
26、agv车判断自身与目标获取的距离是否低于设定的距离阈值:
27、若是,则将自身与目标获取的距离上报至调度终端;
28、若否,则不向调度终端上报自身与目标获取的距离。
29、第二方面,本专利技术提供一种agv路径规划系统,包括:
30、距离接收模块,用于接收agv车上报的自身与目标货物的距离,所述agv车响应于机床发布的运输任务上报自身与所述运输任务的目标货物的距离;
31、目标筛选模块,用于筛选出所述距离最短的空载agv车作为承担所述运输任务的目标agv车;
32、轨迹建模模块,用于将目标agv车的运输轨迹规划过程建模为分布式部分可观察马尔可夫过程,并建立针对所述目标agv车的观察空间和动作空间,和环境的状态空间、整体环境奖励函数;
33、模型求解模块,用于利用深度强化学习算法对所述马尔可夫过程求取最优解,得到目标agv车的最优路径;
34、轨迹建模模块包括:
35、在时隙时,收集观察范围内的环境信息,所述环境信息包含时隙中agv车自身位置和是否载货,工厂中存在的任务位置和在射频识别器识别范围内的货物种类和位置,因此观察o(t) 定义为:
36、
37、
38、这里和代表的是在时隙,第i个agv车的位置和是否载货的状态;和代表机床发布任务的位置和货物的位置;代表的是在时隙任务是否被agv车接受;
39、状态空间是整个环境所有agv车、机床发布任务、货物位置在时间t所处状态共同构成的,状态空间定义为:
40、
41、
42、
43、在深度强化学习算法中,动作是代理做出的特定决策,影响其与环境的互动;agv的动作考虑路径规划动作和任务选择动作,定义为
44、
45、其中,
ψ定义了 agv 的移动角度。每个 agv 在时隙
t中选择一个角度进行移动。表示任务接受动作,其中 0 表示拒绝,1 表示接受;
46、奖励是指导代理学习过程的反馈信号,推动它优化其行动以实现最大的累积奖励;在当前环境中,奖励来源于一个任务的完成,并且与任务完成时间相关;对于未完成任务的agv车会有惩罚;所有 agv 在时隙的奖励表示为:
47、
48、其中是完成一次任务所给予的奖励,代表的是在时隙任务是否完成,完成为1,未完成为0;代表任务的影响因子,受任务的紧急性影响;部分是对任务完成的奖励,部分是对agv车移动的惩罚,用于训练agv车的路径规划,使其倾向于以最短路径进行任务运输。
49、在一个可选的实施方式中,所述距离接收模块包括:
50、机床向多个agv车以广播的形式发布运输任务;
51、接收到运输任务的agv本文档来自技高网
...
【技术保护点】
1.一种AGV路径规划方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,接收AGV车上报的自身与目标货物的距离,所述AGV车响应于机床发布的运输任务上报自身与所述运输任务的目标货物的距离,包括:
3.根据权利要求2所述的方法,其特征在于,在将自身与目标货物的距离上报至调度终端之前,所述方法还包括:
4.一种AGV路径规划系统,其特征在于,包括:
5.根据权利要求4所述的系统,其特征在于,所述距离接收模块包括:
6.根据权利要求5所述的系统,其特征在于,所述系统还包括:
7.一种终端,其特征在于,包括:
8.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述可读存储介质上存储有AGV路径规划程序,所述AGV路径规划程序被处理器执行时实现如权利要求1-3任一项所述AGV路径规划方法的步骤。
【技术特征摘要】
1.一种agv路径规划方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,接收agv车上报的自身与目标货物的距离,所述agv车响应于机床发布的运输任务上报自身与所述运输任务的目标货物的距离,包括:
3.根据权利要求2所述的方法,其特征在于,在将自身与目标货物的距离上报至调度终端之前,所述方法还包括:
4.一种agv路径规划系统,其特征在于,包括:<...
【专利技术属性】
技术研发人员:邹赛,关月,汪文勇,
申请(专利权)人:电子科技大学长三角研究院湖州,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。