【技术实现步骤摘要】
城市路网交通信号配时优化控制方法
[0001]本专利技术涉及交通信号配时
,特别是城市路网交通信号配时优化控制方法
。
技术介绍
[0002]交通信号控制是城市交通管理的重要手段,交通信号控制的水平在很大程度上决定了城市道路网络的运行质量,同时,在紧急事件发生后,城市应急车辆需要在最短时间内安全到达第一现场,若面临交通拥堵,则可能会由于时间延误,耽误救援任务,造成生命财产的损失,故在交通正常的情况下,保证应急车辆快速通过路口,预防交通拥堵的发生;或在交通拥堵的情况下,保证应急车辆快速通行,同时疏导交通运行具有很大的实际意义
。
[0003]美国标准工程协会最早意识到了交通对应急车辆的影响,并提出了“应急车辆优先”一词,随着深度学习和强化学习结合的提出,衍生了深度强化学习
(Deep Reinforcement learning
,
DRL)
这一机器学习分支,更多的学者注意到了深度强化学习在交通控制领域中的潜力,近几年,随着运算设备算力的提升,越来越多的学者将单一智能体的
DRL
模型扩展到多智能体强化学习
(Multi
‑
agent Reinforcement Learning
,
MARL)
模型,并在区域交通信号自适应控制领域迅速发展且已有实际应用,
MARL
控制可以根据控制效果的反馈信息自主学习并优化策略知识,精确推理多个路口间的最优联合动作,丰富了区域交通协调控制 ...
【技术保护点】
【技术特征摘要】
1.
城市路网交通信号配时优化控制方法,其特征在于,包括以下步骤:步骤
S1
,建立基于深度强化学习的交通信号控制模型;步骤
S2
,训练基于深度强化学习的多交叉口协同自适应信号配时优化控制模型;步骤
S3
,在步骤
S2
的基础上,生成交通信号配时优化控制策略和持续更新模型
。2.
如权利要求1所述的城市路网交通信号配时优化控制方法,其特征在于,所述建立基于深度强化学习的交通信号控制模型,包括以下步骤:
S11.
定义深度强化学习控制模型的状态,构造联合状态定义深度强化学习控制模型的状态,构造联合状态其中,分别为包括应急车辆在内的交叉口上游和下游车辆数,
w
t
为交叉口上游排头车辆的等待时间,
d
t
,
emv
为应急车辆距离交叉口
i
的最短距离;
s12.
定义深度强化学习控制模型的动作,每个交叉口的动作切换在其动作集合
A
i
中进行选择:
A
i
=
{NS
,
NSL
,
WE
,
WEL}
其中,
NS
表示南北方向直行;
NSL
表示南北方向左转;
WE
表示东西方向直行;
WEL
东西方向左转;
s13.
定义深度强化学习控制模型的奖励值函数;
s14.
设计行动者
Actor
网络和和评论家
Critic
网络
。3.
如权利要求2所述的城市路网交通信号配时优化控制方法,其特征在于,所述定义深度强化学习控制模型的奖励值函数,包括以应急车辆为对象的奖励函数,步骤为:
S131A
,将应急车辆所在车道的最低动态密度作为优化目标,均衡疏散车道社会车辆的同时优化应急车辆的道路资源,其动态密度奖励表示为:其中,
x(l)
表示车道
l
的车辆数,
x
max
(l)
表示该车道的最大容量;相应地,
x(m)
及
x
max
(l)
分别表示下游车道
m
的车辆数和最大容量,交叉口转向模型定义为从交叉口的进车道
l
到下一个边对应的出车道
m
的二元组
(l
,
m)∈M
,箭头表示车辆从上游车道驶入下游车道时
,
有两种选择
,
即
h(m)
=2;
S132A
,应急车辆交叉口行车状态奖励为:其中,
v
emv
为应急车辆速度,
v
max
为车道的最大允许速度;
S133A
,应急车辆的奖励函数为:
r
emv,t
=
‑
10r
des
(l)+r
s
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)。4.
如权利要求2所述的城市路网交通信号配时优化控制方法,其特征在于,所述定义深度强化学习控制模型的奖励值函数,包括以社会车辆为对象的奖励函数,步骤为:
s131B.
交叉口
i
的排头车辆平均等待奖励函数可表示为:
其中,
N
t
表示排头车辆数,
r
h
,
t
为车辆等待负奖励,具体为:其中,
W
h
,
t
表示车辆
h
截止
t
时刻的总的等待时间;
s132B.
单位时间内通过的奖励函数可表示为:其中,
φ1与
φ2分别表示通过车辆数与车道排队车辆数的权重因子,且
φ1+
φ2=1,
r
′
pass
被定义为一个时间步长内通过交叉口的车辆数:上式中
m
为交叉口边的数量,
n
为每一条边包含的车道数,为每一条边包含的车道数,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。