城市路网交通信号配时优化控制方法技术

技术编号:39847581 阅读:22 留言:0更新日期:2023-12-29 16:45
本发明专利技术城市路网交通信号配时优化控制方法,在传统

【技术实现步骤摘要】
城市路网交通信号配时优化控制方法


[0001]本专利技术涉及交通信号配时
,特别是城市路网交通信号配时优化控制方法


技术介绍

[0002]交通信号控制是城市交通管理的重要手段,交通信号控制的水平在很大程度上决定了城市道路网络的运行质量,同时,在紧急事件发生后,城市应急车辆需要在最短时间内安全到达第一现场,若面临交通拥堵,则可能会由于时间延误,耽误救援任务,造成生命财产的损失,故在交通正常的情况下,保证应急车辆快速通过路口,预防交通拥堵的发生;或在交通拥堵的情况下,保证应急车辆快速通行,同时疏导交通运行具有很大的实际意义

[0003]美国标准工程协会最早意识到了交通对应急车辆的影响,并提出了“应急车辆优先”一词,随着深度学习和强化学习结合的提出,衍生了深度强化学习
(Deep Reinforcement learning

DRL)
这一机器学习分支,更多的学者注意到了深度强化学习在交通控制领域中的潜力,近几年,随着运算设备算力的提升,越来越多的学者将单一智能体的
DRL
模型扩展到多智能体强化学习
(Multi

agent Reinforcement Learning

MARL)
模型,并在区域交通信号自适应控制领域迅速发展且已有实际应用,
MARL
控制可以根据控制效果的反馈信息自主学习并优化策略知识,精确推理多个路口间的最优联合动作,丰富了区域交通协调控制的内容及形式,它采用秒级的即时决策,可以实时响应时变交通流的变化,同时分散式
MARL
控制具有统一的结构模型,可以针对特定路网结构和交通流特性进行相应改造,它仅需要系统的输入和输出数据,对数据具体采集的技术和形式没有要求

[0004]目前,现有的交通信号控制方法存在以下问题:绝大多数国内研究以单路口为对象,部分状态合作的
MARL、
动作联动的
MARL
长期处于跟踪国外最新研究成果的阶段,多数
MARL
研究仅考虑了社会车辆,并未涉及应急车辆

公共交通及行人等模式,且反馈激励仅以乘用车车辆数为建模的基本单元,这样就忽略了紧急车辆及公共交通等的综合效益


技术实现思路

[0005]针对现有技术存在的不足,本专利技术目的是提供城市路网交通信号配时优化控制方法,能适用于城市路网的多交叉口协同自适应信号控制

[0006]其解决的技术方案是,包括以下步骤:
[0007]步骤
S1
,建立基于深度强化学习的交通信号控制模型;
[0008]步骤
S2
,训练基于深度强化学习的多交叉口协同自适应信号配时优化控制模型;
[0009]步骤
S3
,在步骤
S2
的基础上,生成交通信号配时优化控制策略和持续更新模型

[0010]优选的,所述建立基于深度强化学习的交通信号控制模型,包括以下步骤:
[0011]S11.
定义深度强化学习控制模型的状态,构造联合状态
[0012][0013]其中,分别为包括应急车辆在内的交叉口上游和下游车辆数,
w
t
为交叉口上游排头车辆的等待时间,
d
t

emv
为应急车辆距离交叉口
i
的最短距离;
[0014]s12.
定义深度强化学习控制模型的动作,每个交叉口的动作切换在其动作集合
A
i
中进行选择:
[0015]A
i

{NS

NSL

WE

WEL}
[0016]其中,
NS
表示南北方向直行;
NSL
表示南北方向左转;
WE
表示东西方向直行;
WEL
东西方向左转;
[0017]s13.
定义深度强化学习控制模型的奖励值函数;
[0018]s14.
设计行动者
Actor
网络和和评论家
Critic
网络

[0019]本专利技术的有益效果:
(1)
在传统
A2C
算法的基础上引入重要性采样实现了邻近交叉口经验共享方法,通过离线数据共享使邻近智能体进行学习,提高数据利用率,提高系统收敛效率;
[0020](2)
在奖励函数设置方面,提出了一种交叉口动态密度法的混合奖励函数模型,在最大化社会车辆通行效率的同时,强调
EMV
优先级,解决了交通路网环境中深度强化学习奖励稀疏的问题;
[0021](3)
通过基于合成网络以及摩纳哥交通网络中仿真实验,结果表明:本方法不仅可以明显提高多交叉口路网效率,还可以有效地减少交叉口的平均延误和车辆的平均行程时间,从而提高车辆的通过量,与社会车辆相比,
EMV
提取延迟率低于社会车辆,在道路资源利用率较低的时候,算法表现出较好的信号优先性

稳定性

实用性

安全性

附图说明
[0022]图1为本专利技术的步骤流程图

[0023]图2为本专利技术的建立基于深度强化学习的交通信号控制模型步骤流程图

具体实施方式
[0024]为有关本专利技术的前述及其他
技术实现思路


特点与功效,在以下配合参考附图1至2对实施例的详细说明中,将可清楚的呈现

以下实施例中所提到的结构内容,均是以说明书附图为参考

[0025]下面将参照附图描述本专利技术的各示例性的实施例

[0026]实施例一,城市路网交通信号配时优化控制方法,包括以下步骤:
[0027]步骤
S1
,建立基于深度强化学习的交通信号控制模型,强化学习方法解决交通信号配时优化问题的核心思想是通过前期的模型设定来获取延后的奖励,持续让智能体在交通路网环境中执行定义在动作空间当中的动作,以此来获取相应的收益,最终让智能体学习到最优的动作策略并实现回报最大化,实现交通路网信号配时的优化目标,独使用强化学习在高维复杂的交通路网环境中进行优化控制的效果并不理想,因此,在进行多交叉口的信号配时优化控制的时候会用强化学习结合深度学习方法的神经网络,最终实现需要优化控制的目标;
[0028]步骤
S2
,训练基于深度强化学习的多交叉口协同自适应信号配时优化控制模型;
[0029]步骤
S3
,在步骤
S2
的基础上,生成交通信号配时优化控制策略和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
城市路网交通信号配时优化控制方法,其特征在于,包括以下步骤:步骤
S1
,建立基于深度强化学习的交通信号控制模型;步骤
S2
,训练基于深度强化学习的多交叉口协同自适应信号配时优化控制模型;步骤
S3
,在步骤
S2
的基础上,生成交通信号配时优化控制策略和持续更新模型
。2.
如权利要求1所述的城市路网交通信号配时优化控制方法,其特征在于,所述建立基于深度强化学习的交通信号控制模型,包括以下步骤:
S11.
定义深度强化学习控制模型的状态,构造联合状态定义深度强化学习控制模型的状态,构造联合状态其中,分别为包括应急车辆在内的交叉口上游和下游车辆数,
w
t
为交叉口上游排头车辆的等待时间,
d
t

emv
为应急车辆距离交叉口
i
的最短距离;
s12.
定义深度强化学习控制模型的动作,每个交叉口的动作切换在其动作集合
A
i
中进行选择:
A
i

{NS

NSL

WE

WEL}
其中,
NS
表示南北方向直行;
NSL
表示南北方向左转;
WE
表示东西方向直行;
WEL
东西方向左转;
s13.
定义深度强化学习控制模型的奖励值函数;
s14.
设计行动者
Actor
网络和和评论家
Critic
网络
。3.
如权利要求2所述的城市路网交通信号配时优化控制方法,其特征在于,所述定义深度强化学习控制模型的奖励值函数,包括以应急车辆为对象的奖励函数,步骤为:
S131A
,将应急车辆所在车道的最低动态密度作为优化目标,均衡疏散车道社会车辆的同时优化应急车辆的道路资源,其动态密度奖励表示为:其中,
x(l)
表示车道
l
的车辆数,
x
max
(l)
表示该车道的最大容量;相应地,
x(m)

x
max
(l)
分别表示下游车道
m
的车辆数和最大容量,交叉口转向模型定义为从交叉口的进车道
l
到下一个边对应的出车道
m
的二元组
(l

m)∈M
,箭头表示车辆从上游车道驶入下游车道时
,
有两种选择
,

h(m)
=2;
S132A
,应急车辆交叉口行车状态奖励为:其中,
v
emv
为应急车辆速度,
v
max
为车道的最大允许速度;
S133A
,应急车辆的奖励函数为:
r
emv,t
=

10r
des
(l)+r
s
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)。4.
如权利要求2所述的城市路网交通信号配时优化控制方法,其特征在于,所述定义深度强化学习控制模型的奖励值函数,包括以社会车辆为对象的奖励函数,步骤为:
s131B.
交叉口
i
的排头车辆平均等待奖励函数可表示为:
其中,
N
t
表示排头车辆数,
r
h

t
为车辆等待负奖励,具体为:其中,
W
h

t
表示车辆
h
截止
t
时刻的总的等待时间;
s132B.
单位时间内通过的奖励函数可表示为:其中,
φ1与
φ2分别表示通过车辆数与车道排队车辆数的权重因子,且
φ1+
φ2=1,
r

pass
被定义为一个时间步长内通过交叉口的车辆数:上式中
m
为交叉口边的数量,
n
为每一条边包含的车道数,为每一条边包含的车道数,...

【专利技术属性】
技术研发人员:李龙王志文
申请(专利权)人:兰州理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1