本发明专利技术公开了一种无信号灯交叉路口车辆协同控制方法及系统。该方法包括:获取各车辆的车辆信息;构建动作值网络模型;将车辆信息输入至动作值网络模型,输出各车辆当前状态下的动作评估值;构建混合网络模型;将动作评估值以及所有车辆的状态信息输入至混合网络模型,得到混合网络模型的输出;基于混合网络模型的输出以及动作评估值,采用基于夏普里值的贡献度分配机制模组对动作值网络模型进行训练,得到训练好的动作值网络模型;基于训练好的动作值网络模型以及ε
【技术实现步骤摘要】
一种无信号灯交叉路口车辆协同控制方法及系统
[0001]本专利技术涉及车辆控制
,特别是涉及一种无信号灯交叉路口车辆协同控制方法及系统。
技术介绍
[0002]城市化的深入大幅增加了城市中的人口数量,城市中的车辆数量,不可避免地引起交通拥堵问题,进而造成社会生产效率的降低,带来环境污染,增加交通事故发生的概率,影响市容市貌,这对目前的交通系统提出了挑战,尤其是如何高效地对城市交叉路口进行车辆管控。一般地,搭建交通信号灯等基础设施是普遍情况下有效缓解交叉路口车辆拥堵甚至事故频发问题的解法之一。基于基础设施,学者们在优化交通信号灯的时间与相位上做了大量的探索(包括基于优化理论的算法和基于深度强化学习的人工智能算法)。1992年,Michael G.H.Bell在其论文中论述仅靠交通信号灯本身是无法解决交通拥堵问题的,而是需要集成一些其他信息,例如未来自动驾驶车辆能够获取当前道路的一些其他信息(路况信息、其他车辆的位置、速度等相关信息)。
[0003]尽管交通信号灯一直是交叉路口管控的主流解法,但在该情况下车辆的等待时间无法被消除。因此,这也激发了大量相关专家们对基于无信号灯的交叉路口车辆协同控制的探索。如今智能网联车相关技术正在不断发展,如V2V(Vehicles to Vehicles),V2I(Vehicles to Infrastructure)等技术促进了无信号灯下车辆协同技术的发展。
[0004]目前针对无信号灯交叉路口的车辆协同管控的问题,学术界相关学者大多尝试用集中式协同方法(例如,基于经典控制方法MPC)。但这类方法的局限性在于其计算复杂度高,实时性与鲁棒性较差。而机器学习技术的发展与应用(尤其是基于深度学习的机器学习算法)解决了过往一些较为困难的问题,例如目标识别、图像生成,自然语言处理、癌症检测、机器人控制等领域。目前也有学者创造性地使用了多智能体深度强化学习解决交叉路口协同控制问题,具体而言,采用集中式多智能体深度强化学习算法。但随着经过交叉路口的车辆数增加,这类算法的计算复杂度会指数级上升,从而遇到维数灾难的问题。此外,集中式多智能体深度强化学习算法在解决合作任务时候会遇到智能体之间的信用分配问题,如何在合作的过程中公平有效地分配各智能体的信用是目前的一个难题之一。分布式多智能体强化学习是另一种方法思路,但该类方法严重受环境的非平稳性所影响(该问题指的是每个智能体把其他智能体当作环境的一部分,其他智能体的策略发生变化的同时环境一直在发生变化)。目前在多智能体强化学习领域中一类流行的算法范式是集中式训练,分布式执行,该方法假设每个智能体只能观测到部分环境信息,而在算法的训练阶段可以获取环境完整的状态信息。此类方法能够避免环境非平稳性带来的问题,一般通过参数共享的方式在一定程度上缓解维数灾难问题。但其也存在一些问题,其无法明确解释合作过程中各智能体的贡献度。
技术实现思路
[0005]基于上述问题,本专利技术提供了一种无信号灯交叉路口车辆协同控制方法及系统。
[0006]为实现上述目的,本专利技术提供了如下方案:
[0007]一种无信号灯交叉路口车辆协同控制方法,包括:
[0008]根据给定的真实十字交叉路口场景搭建十字交叉路口仿真场景,并获取所述仿真场景中各车辆的车辆信息;所述车辆信息包括各车辆状态信息、各车辆上一时刻动作信息以及各车辆ID信息;
[0009]构建动作值网络模型;所述动作值网络模型包括三层神经网络,第一层为全连接前馈神经网络,第二层为门控循环神经网络,第三层为全连接前馈神经网络;
[0010]将所述车辆信息输入至所述动作值网络模型,输出各车辆当前状态下的动作评估值;
[0011]构建混合网络模型;所述混合网络模型包括多个全连接前馈神经网络;
[0012]将所述动作评估值以及所有车辆的状态信息输入至所述混合网络模型,得到所述混合网络模型的输出;
[0013]基于所述混合网络模型的输出以及所述动作评估值,采用基于夏普里值的贡献度分配机制模组对所述动作值网络模型进行训练,得到训练好的动作值网络模型;
[0014]基于训练好的动作值网络模型以及∈
‑
贪婪策略确定各车辆下一时刻的动作。
[0015]可选地,基于所述混合网络模型的输出以及所述动作评估值,采用基于夏普里值的贡献度分配机制模组对所述动作值网络模型进行训练,得到训练好的动作值网络模型,具体包括:
[0016]将所述混合网络模型的输出以及所述动作评估值输入至所述基于夏普里值的贡献度分配机制模组中,得到所述基于夏普里值的贡献度分配机制模组的输出;
[0017]根据所述基于夏普里值的贡献度分配机制模组的输出确定所述动作值网络模型的损失函数;
[0018]根据所述动作值网络模型的损失函数,采用随机梯度下降法更新所述动作值网络模型的参数,得到训练好的动作值网络模型。
[0019]可选地,还包括:
[0020]基于所述混合网络模型的输出确定所述混合网络模型的损失函数;
[0021]根据所述混合网络模型的损失函数,采用随机梯度下降法调整所述混合网络模型的参数。
[0022]可选地,所述动作值网络模型的损失函数如下:
[0023][0024]其中,Q
ij
表示由动作值网络输出的智能体i的动作估计值,j表示所取数据批量的索引,表示由基于夏普里值的贡献度分配机制模组输出的智能体i的目标动作估计值,b表示用于训练的数据批量的总维数。
[0025]可选地,所述混合网络模型的损失函数如下:
[0026][0027]其中,r表示所有车辆得到的共享奖赏值,γ表示折扣因子,Q
tot
(
·
)表示整个混合网络模型,τ'表示下一时刻的历史信息轨迹,s'表示下一时刻环境的状态信息,u
′
表示车辆在下一时刻的动作序列,θ、θ
′
分别表示混合网络模型的参数和目标参数。
[0028]可选地,所述∈
‑
贪婪策略如下:
[0029][0030]其中,表示第a个车辆的策略,表示第a个车辆在t
‑
1时刻的动作,表示第a个车辆在t
‑
1时刻的状态信息,∈表示从[0,1]区间内按照均匀分布采样得到的概率值,U表示车辆动作集合,表示第a个车辆的动作评估值。
[0031]本专利技术还提供了一种无信号灯交叉路口车辆协同控制系统,包括:
[0032]车辆信息获取模块,用于无信号灯交叉路口中各车辆的车辆信息;所述车辆信息包括各车辆状态信息、各车辆上一时刻动作信息以及各车辆ID信息;
[0033]第一输入模块,用于将所述车辆信息输入至动作值网络模型,输出各车辆当前状态下的动作评估值;所述动作值网络模型包括三层神经网络,第一层为全连接前馈神经网络,第二层为门控循环神经网络,第三层为全连接前馈神经网络;
[0034]第二输入模块,用于将所述动作评估值以本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种无信号灯交叉路口车辆协同控制方法,其特征在于,包括:根据给定的真实十字交叉路口场景搭建十字交叉路口仿真场景,并获取所述仿真场景中各车辆的车辆信息;所述车辆信息包括各车辆状态信息、各车辆上一时刻动作信息以及各车辆ID信息;构建动作值网络模型;所述动作值网络模型包括三层神经网络,第一层为全连接前馈神经网络,第二层为门控循环神经网络,第三层为全连接前馈神经网络;将所述车辆信息输入至所述动作值网络模型,输出各车辆当前状态下的动作评估值;构建混合网络模型;所述混合网络模型包括多个全连接前馈神经网络;将所述动作评估值以及所有车辆的状态信息输入至所述混合网络模型,得到所述混合网络模型的输出;基于所述混合网络模型的输出以及所述动作评估值,采用基于夏普里值的贡献度分配机制模组对所述动作值网络模型进行训练,得到训练好的动作值网络模型;基于训练好的动作值网络模型以及∈
‑
贪婪策略确定各车辆下一时刻的动作。2.根据权利要求1所述的无信号灯交叉路口车辆协同控制方法,其特征在于,基于所述混合网络模型的输出以及所述动作评估值,采用基于夏普里值的贡献度分配机制模组对所述动作值网络模型进行训练,得到训练好的动作值网络模型,具体包括:将所述混合网络模型的输出以及所述动作评估值输入至所述基于夏普里值的贡献度分配机制模组中,得到所述基于夏普里值的贡献度分配机制模组的输出;根据所述基于夏普里值的贡献度分配机制模组的输出确定所述动作值网络模型的损失函数;根据所述动作值网络模型的损失函数,采用随机梯度下降法更新所述动作值网络模型的参数,得到训练好的动作值网络模型。3.根据权利要求1所述的无信号灯交叉路口车辆协同控制方法,其特征在于,还包括:基于所述混合网络模型的输出确定所述混合网络模型的损失函数;根据所述混合网络模型的损失函数,采用随机梯度下降法调整所述混合网络模型的参数。4.根据权利要求1所述的无信号灯交叉路口车辆协同控制方法,其特征在于,所述动作值网络模型的损失函数如下:其中,Q
ij
表示由动作值网络输出的智能体...
【专利技术属性】
技术研发人员:吴艳,郭子涵,王丽芳,张俊智,苟晋芳,
申请(专利权)人:中国科学院电工研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。