【技术实现步骤摘要】
基于联邦强化学习的多路口智能交通信号灯控制方法及系统
[0001]本专利技术属于计算机
,涉及一种基于联邦强化学习的多路口智能交通信号灯控制方法及系统。
技术介绍
[0002]随着人工智能和物联网技术的繁荣,强化学习在智慧交通中变得越来越流行,尤其是自治交通灯系统的控制模型设计。为了实现交通网络中基于强化学习的自主信号控制,通常每个交叉路口都配备有强化学习智能体,该强化学习智能体基于物联网设备(例如交通摄像头、路边传感器)捕获的实时交通数据,生成向交叉口所有交通灯发送信号的动作。对于每个交通路口,应用在所有相关交通灯上的一组动作形成一个控制相位,向车辆发出信号,引导对应方向道路上的车辆通过路口。基于强化学习智能体的智能优化控制,可以有效降低路网中车辆的平均行驶时间。同时,所有收集到的交通数据及历史动作被用于强化学习智能体的训练学习,以逐步构建更精确的控制模型。
[0003]虽然基于强化学习的方法在获得准确的交通控制策略方面很有前途,但其使用受到可扩展性问题的极大限制。这是因为用于交通控制的强化学习智能体其训练的复杂性依赖于两个关键因素:1.用于交通网络的环境模拟建模,和2.用于每个状态的可能动作的数量。当一个交通网络中涉及到更多的路口时,由于路口动作的组合,强化学习智能体在训练时的探索空间会呈现指数级增长。因此,现有的基于强化学习的方法大多侧重于单个交叉口的信号控制优化,而不是应用在整个交通网络上。这将不可避免地降低控制质量,因为由各个路口的强化学习智能体做出的信号动作是相关的。如果不考虑强化学习智能体 ...
【技术保护点】
【技术特征摘要】
1.一种基于联邦强化学习的多路口智能交通信号灯控制方法,其特征在于,包括:步骤1:使用开源交通模拟软件Cityflow对城市交通和交通流量进行模拟,对路网中的真实路口情况和信号灯控制相位进行精准建模,生成用于仿真实验的真实道路场景数据,并通过Cityflow的可视化功能,观察道路的情况和车流量的运动情况;步骤2:在路网中的每个交叉路口上均部署了一个强化学习智能体,在每个强化学习智能体上使用A2C强化学习算法,根据路口车流情况实时协调控制当前路口的交通信号灯相位,每个交叉路口的强化学习智能体由云服务器协调训练,来最大化路网中各个路口的吞吐量,即最小化所有车辆的平均行驶时间;步骤3:结合实际场景构建一个新的基于云
‑
边协同的联邦强化学习框架,所述框架包括:将道路网络中的每个路口及部署于路口的物联网设备以及所述强化学习智能体视为一个边缘节点,在一个路网中存在多个边缘节点与一个中央云服务器,在强化学习智能体学习过程中,由一个中央云服务器负责协调控制各个边缘节点上的强化学习智能体训练学习过程,实现知识的共享;步骤4:引入梯度共享与参数传递机制,所述梯度共享包括:在训练时,每个强化学习智能体在本地训练后,计算出自己Actor网络和Critic网络的梯度,边缘节点将各个强化学习智能体中的神经网络学习到的梯度信息上传至云端,云服务器对其进行梯度平均后再将聚合后将其下发至各个强化学习智能体,边缘节点再使用聚合后的梯度信息进行学习;所述参数传递则是在按照预先设置的固定时间间隔后云服务器收集各个路口的模型参数与累积奖励上传,云服务器从中选择表现最好的模型参数并将其下发给其他路口的强化学习智能体,对于表现较差的路口可以直接获得当前性能最优的模型,从一个更好的起点开始下一轮学习。2.如权利要求1所述的基于联邦强化学习的多路口智能交通信号灯控制方法,其特征在于,所述精准建模包括:一个路口包含了所有进入车道的有限集合L
arrive
以及离开车道的有限集合L
depart
;路口的一条道路由一条进入车道和一条离开车道组成,表示为一个二元组(l
a
,l
d
),其中l
a
∈L
arrive
而l
d
∈L
depart
;对每一条直行、左转、右转的进入车道,都有一条离开车道与其对应;定向道路指的是一条进入车道和其对应的离开车道的二元组,同时默认所有右转的车道在任何时刻均可以通行,不受路口信号灯的控制;因此一个路口总共有8组信号灯相位。3.如权利要求1所述的基于联邦强化学习的多路口智能交通信号灯控制方法,其特征在于,在模拟过程中,通过Cityflow模拟器提供的数据访问接口,获得所有的当前路口信息,所述路口信息包括各条道路上的车辆数量、分别在进入路口道路与离开路口的道路上的等待车辆数量以及车辆行驶速度;从模拟器环境中获得路口信息,计算出各个定向道路上的压力,一条定向道路(l
a
,l
d
)的压力定义为V(l
a
)
‑
V(l
d
),其中V(l
a
)与V(l
d
)分别表示在进入车道l
a
与离开车道l
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。