System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及多智能体控制的,具体是涉及一种多智能体合作控制方法实现的停车场agv调度算法。
技术介绍
1、随着经济的快速发展、城市化进程的加速,汽车的保有量不断增加,停车问题已经愈发严重,停车位少、停车耗时长的问题也越来越严重。因此,亟需在不改变停车场占地面积的情况下增加停车位并减少用户停车时间。
2、同时,随着计算机技术的迅速发展,自动导向搬运车(agv)逐渐被引入停车场中。agv具有如下优势:agv可以自主导航并在停车场内执行车辆定位、停放和取车等任务。它们可以通过优化路线和避开拥堵区域来提高停车效率,缩短车辆等待时间;传统停车场通常需要大量的空间来供车辆转弯和移动。引入agv后,可以通过更紧凑的车辆停放方式来节省空间,因为agv可以更灵活地停放车辆,并且不需要为人员进出留出空间;agv配备了各种传感器和安全装置,可以帮助它们避免与其他车辆或障碍物发生碰撞。这有助于减少停车场内的交通事故,并提高停车场的安全性;由于agv可以自动执行停车任务,用户无需自己驾驶车辆找寻停车位,节省了时间和精力。这可以提升停车场的用户体验,尤其是在高峰时段和繁忙地区;引入agv可以减少由人为驾驶导致的停车事故和错误,如碰撞、倒车错误等。这有助于保护车辆和减少停车场的保险索赔。
3、然而,目前对于无人停车场的agv调度算法设计,大多数还是采用cbs(conflict-based search)算法,这种算法需要人为提前将agv的路线写死,因此它只适用于有限状态空间的情况,但是对于环境动态性较高、状态空间复杂的停车场,cbs
技术实现思路
1、基于上述缺陷,本专利技术提出了一种利用近端策略优化的多智能体合作控制方法,从而实现智慧无人停车场中的agv调度算法,即使是更为复杂的环境、更为复杂的状态空间以及未知的规则,该算法也可以表现出较好的适应性和灵活性,同时,该算法可以学习到通用的策略,并可以在不同结构的停车场中进行泛化应用。
2、为了实现上述目的,本专利技术提供一种多智能体合作控制方法实现的停车场agv调度算法,包括以下步骤:
3、s1、输入停车场的静态地图信息以及agv需要执行的任务列表来初始化算法场景;
4、s2、由设计的碰撞惩罚函数、能耗惩罚函数、任务奖励函数所训练出来的策略网络为每一台agv输出一条最优的任务路线;
5、s3、多辆agv互相合作,根据分配的任务路线实现指定的任务。
6、优选的,所述步骤s1具体为封装停车场静态地图信息、agv状态观察空间以及agv可用动作空间信息。
7、优选的,所述停车场静态地图信息是将其建模为一个网格世界,每个网格分为上层和下层两个部分,网格世界设置禁止进入区域、取车区、停车区、充电区以及洗车区,对于所述停车区,每个停车位都有三个状态,分别是:有停车板无车辆、有停车板有车辆、无停车板,所述充电区是用来给agv充电的,agv在充电前需要确保自身未携带停车板或者车辆,所述agv也有三种状态,分别是:携带停车板且携带车辆、携带停车板但并未携带车辆、未携带停车板;在初始化环境的时候,agv同样进行随机初始化,由于设置了禁止进入区域,agv的初始位置将不在禁止区域内,所述agv的动作,共有八种,分别是:上下左右移动、转向、静止不动以及托举车辆或者车板至一层或者二层。
8、优选的,所述agv状态观察空间是将其设置为39维的向量,其中前三十维表示网格世界的车位信息(一共有15个网格,每个网格有上下两层信息),需要表示的信息为:禁止区域、取车点、agv可以通行的区域(下层没有停车板)、有停车板但是没有停车、已经停车、上层没有停车板,这些信息分别用数字-1、0、1、2、3、4表示;第31-34维表示agv的位置以及是否携带停车板和车辆;第35-39维传递的是五个任务的one-hot编码。
9、优选的,所述agv可用动作空间信息是将其设置为八维向量,经过动作屏蔽后,将不允许执行的动作对应的数字位置为0,设计动作屏蔽来以防amv发生碰撞,造成损失,所述动作屏蔽是根据amv当前自身的状态以及所处的位置,进行判定哪些动作是可以执行的,所述动作屏蔽逻辑如下:首先获取amv状态:是否携带停车板、是否携带车辆、当前位置,接着对上下左右四个位置的状态进行判断:停车位是否已经放置停车板、是否已经放置车辆,最后综合上述信息,生成amv当前位置当前状态下可用的动作。
10、优选的,所述步骤s2具体包括以下步骤:
11、s21、设计碰撞惩罚函数、能耗惩罚函数、任务奖励函数;
12、s22、利用近端策略优化的多智能体合作控制方法设计和训练调度算法策略网络。
13、优选的,所述碰撞惩罚函数是首先进行判断agv是否发生碰撞,包括与停车位上的车板,车辆相撞以及与另一台agv相撞,如果发生碰撞,便给它一个较大的负奖励同时结束这个回合的训练作为惩罚;所述能耗惩罚函数由两个部分组成:行驶到停车点经过的距离长短和托举的层数,距离部分的奖励设置成奖励与距离成反比,托举部分的奖励,设置托举至一层的奖励略大于托举至二层的奖励;所述任务奖励函数分任务进行设计:对于停车任务,agv在车位上取到停车板后给予奖励,在取到待停车辆后给予奖励,以及在将车辆停到车位上后给予奖励并结束这个回合;对于取车任务,设计挪车奖励函数,通过两辆agv的配合取出目标车辆,将目标车辆运到出口处给予奖励并结束这个回合;对于洗车任务,agv携带待洗车辆到洗车区给予奖励,洗车完成后将车辆停回车位后给予奖励并结束这个回合;对于充电任务,首先判断agv自身状态,如果电量低于50%且大于30%,则先完成当前执行的任务再去充电,如果电量低于30%,则立即去充电,agv到达充电区域后获得奖励并结束这个回合。
14、优选的,所述调度算法策略网络的设计包括以下步骤:
15、s2201、收集经验数据:在每个训练轮次中,使用当前策略与环境进行交互,收集一批轨迹数据;
16、s2202、估计优势函数:计算每个状态的优势函数,表示在该状态下采取当前策略相比于基准策略的优越性,优势函数通过估计每个状态的价值函数来得到;
17、s2203、计算概率比例:计算当前策略和基准策略在数据中的概率比例,这个比例用于构建损失函数:
18、
19、其中πθ(a|s)是当前策略在状态s下选择动作a的概率,πold(a|s)是之前策略在相同状态s下选择动作a的概率;
20、s2204、构建损失函数:近端策略优化的多智能体合作控制方法的目标是最大化带有剪切项的似然比乘以优势函数的期望值:
21、
22、其中rt(θ)是概率比例,是在时间步t的优势函数,∈是剪切幅度的超参数,控制概率比例的剪切范围;
23、s2205、梯度下降:通过梯度下降来最大化损本文档来自技高网...
【技术保护点】
1.一种多智能体合作控制方法实现的停车场AGV调度算法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种多智能体合作控制方法实现的停车场AGV调度算法,其特征在于,所述步骤S1具体为封装停车场静态地图信息、AGV状态观察空间以及AGV可用动作空间信息。
3.根据权利要求2所述的一种多智能体合作控制方法实现的停车场AGV调度算法,其特征在于,所述停车场静态地图信息是将其建模为一个网格世界,每个网格分为上层和下层两个部分,网格世界设置禁止进入区域、取车区、停车区、充电区以及洗车区,对于所述停车区,每个停车位都有三个状态,分别是:有停车板无车辆、有停车板有车辆、无停车板,所述充电区是用来给AGV充电的,AGV在充电前需要确保自身未携带停车板或者车辆,所述AGV也有三种状态,分别是:携带停车板且携带车辆、携带停车板但并未携带车辆、未携带停车板;在初始化环境的时候,AGV同样进行随机初始化,由于设置了禁止进入区域,AGV的初始位置将不在禁止区域内,所述AGV的动作,共有八种,分别是:上下左右移动、转向、静止不动以及托举车辆或者车板至一层或者二层。
5.根据权利要求2所述的一种多智能体合作控制方法实现的停车场AGV调度算法,其特征在于,所述AGV可用动作空间信息是将其设置为八维向量,经过动作屏蔽后,将不允许执行的动作对应的数字位置为0,设计动作屏蔽来以防AMV发生碰撞,造成损失,所述动作屏蔽是根据AMV当前自身的状态以及所处的位置,进行判定哪些动作是可以执行的,所述动作屏蔽逻辑如下:首先获取AMV状态:是否携带停车板、是否携带车辆、当前位置,接着对上下左右四个位置的状态进行判断:停车位是否已经放置停车板、是否已经放置车辆,最后综合上述信息,生成AMV当前位置当前状态下可用的动作。
6.根据权利要求5所述的一种多智能体合作控制方法实现的停车场AGV调度算法,其特征在于,所述步骤S2具体包括以下步骤:
7.根据权利要求6所述的一种多智能体合作控制方法实现的停车场AGV调度算法,其特征在于,所述碰撞惩罚函数是首先进行判断AGV是否发生碰撞,包括与停车位上的车板,车辆相撞以及与另一台AGV相撞,如果发生碰撞,便给它一个较大的负奖励同时结束这个回合的训练作为惩罚;所述能耗惩罚函数由两个部分组成:行驶到停车点经过的距离长短和托举的层数,距离部分的奖励设置成奖励与距离成反比,托举部分的奖励,设置托举至一层的奖励略大于托举至二层的奖励;所述任务奖励函数分任务进行设计:对于停车任务,AGV在车位上取到停车板后给予奖励,在取到待停车辆后给予奖励,以及在将车辆停到车位上后给予奖励并结束这个回合;对于取车任务,设计挪车奖励函数,通过两辆AGV的配合取出目标车辆,将目标车辆运到出口处给予奖励并结束这个回合;对于洗车任务,AGV携带待洗车辆到洗车区给予奖励,洗车完成后将车辆停回车位后给予奖励并结束这个回合;对于充电任务,首先判断AGV自身状态,如果电量低于50%且大于30%,则先完成当前执行的任务再去充电,如果电量低于30%,则立即去充电,AGV到达充电区域后获得奖励并结束这个回合。
8.根据权利要求6所述的一种多智能体合作控制方法实现的停车场AGV调度算法,其特征在于,所述调度算法策略网络的设计包括以下步骤:
...【技术特征摘要】
1.一种多智能体合作控制方法实现的停车场agv调度算法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种多智能体合作控制方法实现的停车场agv调度算法,其特征在于,所述步骤s1具体为封装停车场静态地图信息、agv状态观察空间以及agv可用动作空间信息。
3.根据权利要求2所述的一种多智能体合作控制方法实现的停车场agv调度算法,其特征在于,所述停车场静态地图信息是将其建模为一个网格世界,每个网格分为上层和下层两个部分,网格世界设置禁止进入区域、取车区、停车区、充电区以及洗车区,对于所述停车区,每个停车位都有三个状态,分别是:有停车板无车辆、有停车板有车辆、无停车板,所述充电区是用来给agv充电的,agv在充电前需要确保自身未携带停车板或者车辆,所述agv也有三种状态,分别是:携带停车板且携带车辆、携带停车板但并未携带车辆、未携带停车板;在初始化环境的时候,agv同样进行随机初始化,由于设置了禁止进入区域,agv的初始位置将不在禁止区域内,所述agv的动作,共有八种,分别是:上下左右移动、转向、静止不动以及托举车辆或者车板至一层或者二层。
4.根据权利要求2所述的一种多智能体合作控制方法实现的停车场agv调度算法,其特征在于,所述agv状态观察空间是将其设置为39维的向量,其中前三十维表示网格世界的车位信息(一共有15个网格,每个网格有上下两层信息),需要表示的信息为:禁止区域、取车点、agv可以通行的区域(下层没有停车板)、有停车板但是没有停车、已经停车、上层没有停车板,这些信息分别用数字-1、0、1、2、3、4表示;第31-34维表示agv的位置以及是否携带停车板和车辆;第35-39维传递的是五个任务的one-hot编码。
5.根据权利要求2所述的一种多智能体合作控制方法实现的停车场agv调度算法,其特征在于,所述agv可用动作空间信息是将其设置为八维向量,经过动作屏蔽后...
【专利技术属性】
技术研发人员:刘维维,刘勇,袁童节,黄涛,
申请(专利权)人:浙江大学湖州研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。