基于联邦强化学习的多路口智能交通信号灯控制方法及系统技术方案

技术编号:30781457 阅读:75 留言:0更新日期:2021-11-16 07:42
本发明专利技术提出了一种基于联邦强化学习的多路口智能交通信号灯控制方法,主要包含以下几方面的内容:步骤1:通过对真实路口的精准建模,使用交通模拟软件Cityflow对城市交通和交通流量进行模拟。步骤2:每个强化学习智能体使用Advantage Actor

【技术实现步骤摘要】
基于联邦强化学习的多路口智能交通信号灯控制方法及系统


[0001]本专利技术属于计算机
,涉及一种基于联邦强化学习的多路口智能交通信号灯控制方法及系统。

技术介绍

[0002]随着人工智能和物联网技术的繁荣,强化学习在智慧交通中变得越来越流行,尤其是自治交通灯系统的控制模型设计。为了实现交通网络中基于强化学习的自主信号控制,通常每个交叉路口都配备有强化学习智能体,该强化学习智能体基于物联网设备(例如交通摄像头、路边传感器)捕获的实时交通数据,生成向交叉口所有交通灯发送信号的动作。对于每个交通路口,应用在所有相关交通灯上的一组动作形成一个控制相位,向车辆发出信号,引导对应方向道路上的车辆通过路口。基于强化学习智能体的智能优化控制,可以有效降低路网中车辆的平均行驶时间。同时,所有收集到的交通数据及历史动作被用于强化学习智能体的训练学习,以逐步构建更精确的控制模型。
[0003]虽然基于强化学习的方法在获得准确的交通控制策略方面很有前途,但其使用受到可扩展性问题的极大限制。这是因为用于交通控制的强化学习智能体其训练的复杂性依赖于两个关键因素:1.用于交通网络的环境模拟建模,和2.用于每个状态的可能动作的数量。当一个交通网络中涉及到更多的路口时,由于路口动作的组合,强化学习智能体在训练时的探索空间会呈现指数级增长。因此,现有的基于强化学习的方法大多侧重于单个交叉口的信号控制优化,而不是应用在整个交通网络上。这将不可避免地降低控制质量,因为由各个路口的强化学习智能体做出的信号动作是相关的。如果不考虑强化学习智能体之间的合作,强化学习智能体很容易陷入局部最优解,而不是找到全局最优解,从而导致控制效果不佳。更糟糕的是,由于缺乏强化学习智能体之间协作,在许多实际场景中,基于强化学习的方法收敛非常慢,甚至无法收敛。因此,如何使各个路口上的强化学习智能体之间的协作快速学习形成整个交通网络的最优控制方案,成为基于强化学习的交通信号控制设计的一个主要挑战。

技术实现思路

[0004]为了应对上述挑战,本专利技术的目的是提出一种新的基于联邦强化学习的多路口智能交通信号灯控制方法,该方法可以快速导出多路口交通场景下的最优交通信号控制策略,本专利技术涉及联邦学习技术和深度强化学习算法,还有云

边架构设计,尤其涉及联邦学习与强化学习的结合。在多个路口的强化学习智能体之间,基于联邦学习,本专利技术提出了一种新的云

边协作框架,并引入了梯度共享与参数传递过程,实现了全局的知识共享,最终实现一个多路口交通环境下的智能信号灯控制系统,即所有车辆在道路网中的平均行驶时间最短。
[0005]本专利技术包括以下步骤:
[0006]步骤1:模拟城市道路与交通流的方法:本专利技术基于交通学中的最大压力理论,提
出定向道路与其压力的概念,对路网中的真实路口情况和信号灯控制相位进行精确建模,生成用于仿真实验的真实道路场景数据,更好地表达路口的交通情况。采用开源交通模拟软件“Cityflow”使用公开数据集对城市交通网络和交通流量进行模拟,并通过Cityflow的可视化功能,可以观察到道路的情况和车流量的运动情况。
[0007]Cityflow是一个针对大规模城市交通场景的多智能体强化学习环境。它具有以下特点:1.作为一款微观交通模拟器,可以模拟每辆车的行为,通过接口函数可以获取车辆的详细信息。2.支持对道路网络和交通流的灵活定义,允许模拟由单个车辆组成的给定交通需求在给定的道路网络中移动。每辆车都是明确建模的,有自己的路线,并在网络独立移动。3.提供了友好的python语言支持以便支持强化学习算法,因为对python的良好支持和丰富的接口,本专利技术可以获得实时的道路情况和车流量运动情况。4.高效快速,得益于精心设计的多线程数据结构和仿真算法,能够进行城市级别的交通模拟,并且在性能上优于传统交通模拟软件,比传统的微观交通模拟器更加简洁快速。
[0008]对路网中的真实路口情况和信号灯控制相位进行精确建模具体包括:一个路口包含了所有进入车道的有限集合L
arrive
以及离开车道的有限集合L
depart
。路口的一条道路由一条进入车道和一条离开车道组成,表示为一个二元组(l
a
,l
d
),其中l
a
∈L
arrive
而l
d
∈L
depart
。需要注意的是对每一条直行、左转、右转的进入车道,都有一条离开车道与其对应。定向道路指的是一条进入车道和其对应的离开车道的二元组。同时默认所有右转的车道在任何时刻均可以通行,不受路口信号灯的控制。因此一个路口总共有8组信号灯相位。智能体的动作即是在这8个信号灯相位种选择最合适的相位。
[0009]在模拟过程中,通过Cityflow模拟器提供的数据访问接口,获得当前路口的所有信息,路口信息包括各条道路上的车辆数量、分别在进入路口道路与离开路口的道路上的等待车辆数量以及车辆行驶速度等。
[0010]采用源自交通领域中的最大压力控制理论,使用压力来反映路口与道路的拥挤程度。因此需要对从模拟器环境中获得路口信息进行加工,计算出各个定向道路上的压力,一条定向道路(l
a
,l
d
)的压力定义为V(l
a
)

V(l
d
),其中V(l
a
)与V(l
d
)分别表示在进入车道l
a
与离开车道l
d
上的车辆数。除此之外,再加上路口当前的信号灯相位,作为该强化学习智能体对当前路口情况的观测。智能体根据获得的当前路口情况,选择出最适合的信号灯相位以最大化路口流量。
[0011]在将智能体选择的信号灯相位返回环境后,调用模拟器引擎,将模拟过程推进一步即进行下1s的模拟,当信号灯相位时间未结束则继续执行模拟。
[0012]若信号灯相位时间结束则计算当前路口的压力的相反数,作为强化学习智能体控制信号灯相位后从环境中获得的奖励,其中路口的压力计算公式为即当前路口中所有进入车道上的车辆数与离开道路上的车辆数之差的绝对值。随后开始新一轮控制过程(获取状态—选择动作—推进模拟)。
[0013]步骤2:对交通信号灯的强化学习控制方法:本专利技术在路网中的每个交叉路口上均部署了一个强化学习智能体,在每个强化学习智能体上使用Advantage Actor

Critic(A2C)强化学习算法,用于控制当前路口的信号灯相位,每个交叉路口的强化学习智能体由
云服务器协调训练,实现了根据路口车流情况对交通信号灯的实时协调控制。根据交通运输学中的最大压力控制理论,采用基于压力理论的方式设计智能体,可以让智能体以最小化路口压力为目标进行学习。而对于相同的交通状况,如果路口的压力能被控制在较低的水准,将会最大化路口的吞吐量,因此可以最小化所有车辆的平均行驶时间。
[0014本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦强化学习的多路口智能交通信号灯控制方法,其特征在于,包括:步骤1:使用开源交通模拟软件Cityflow对城市交通和交通流量进行模拟,对路网中的真实路口情况和信号灯控制相位进行精准建模,生成用于仿真实验的真实道路场景数据,并通过Cityflow的可视化功能,观察道路的情况和车流量的运动情况;步骤2:在路网中的每个交叉路口上均部署了一个强化学习智能体,在每个强化学习智能体上使用A2C强化学习算法,根据路口车流情况实时协调控制当前路口的交通信号灯相位,每个交叉路口的强化学习智能体由云服务器协调训练,来最大化路网中各个路口的吞吐量,即最小化所有车辆的平均行驶时间;步骤3:结合实际场景构建一个新的基于云

边协同的联邦强化学习框架,所述框架包括:将道路网络中的每个路口及部署于路口的物联网设备以及所述强化学习智能体视为一个边缘节点,在一个路网中存在多个边缘节点与一个中央云服务器,在强化学习智能体学习过程中,由一个中央云服务器负责协调控制各个边缘节点上的强化学习智能体训练学习过程,实现知识的共享;步骤4:引入梯度共享与参数传递机制,所述梯度共享包括:在训练时,每个强化学习智能体在本地训练后,计算出自己Actor网络和Critic网络的梯度,边缘节点将各个强化学习智能体中的神经网络学习到的梯度信息上传至云端,云服务器对其进行梯度平均后再将聚合后将其下发至各个强化学习智能体,边缘节点再使用聚合后的梯度信息进行学习;所述参数传递则是在按照预先设置的固定时间间隔后云服务器收集各个路口的模型参数与累积奖励上传,云服务器从中选择表现最好的模型参数并将其下发给其他路口的强化学习智能体,对于表现较差的路口可以直接获得当前性能最优的模型,从一个更好的起点开始下一轮学习。2.如权利要求1所述的基于联邦强化学习的多路口智能交通信号灯控制方法,其特征在于,所述精准建模包括:一个路口包含了所有进入车道的有限集合L
arrive
以及离开车道的有限集合L
depart
;路口的一条道路由一条进入车道和一条离开车道组成,表示为一个二元组(l
a
,l
d
),其中l
a
∈L
arrive
而l
d
∈L
depart
;对每一条直行、左转、右转的进入车道,都有一条离开车道与其对应;定向道路指的是一条进入车道和其对应的离开车道的二元组,同时默认所有右转的车道在任何时刻均可以通行,不受路口信号灯的控制;因此一个路口总共有8组信号灯相位。3.如权利要求1所述的基于联邦强化学习的多路口智能交通信号灯控制方法,其特征在于,在模拟过程中,通过Cityflow模拟器提供的数据访问接口,获得所有的当前路口信息,所述路口信息包括各条道路上的车辆数量、分别在进入路口道路与离开路口的道路上的等待车辆数量以及车辆行驶速度;从模拟器环境中获得路口信息,计算出各个定向道路上的压力,一条定向道路(l
a
,l
d
)的压力定义为V(l
a
)

V(l
d
),其中V(l
a
)与V(l
d
)分别表示在进入车道l
a
与离开车道l

【专利技术属性】
技术研发人员:陈铭松叶豫桐赵吴攀
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1