【技术实现步骤摘要】
基于深度强化学习的瓶颈区换道控制方法、设备及介质
[0001]本专利技术涉及换道控制
,具体涉及基于深度强化学习的瓶颈区换道控制方法
、
设备及介质
。
技术介绍
[0002]交通拥堵时常发生在由于交通事故
、
道路施工维修和路线设计等导致上下游可通行车道数不等的瓶颈区域
。
瓶颈区域是通行能力最低的路段,即单位时间内最大可通行车辆数最少的路段
。
为了顺利汇入瓶颈下游,上游的车辆被迫采取换道行为,致使后方以及相邻车道的车流速度下降,车辆出现“排队”现象,上游密度增加
。
当瓶颈上游密度大于临界密度时,会产生瓶颈“通行能力下降
(Capacity drop)”现象,即瓶颈区车流量会随着上游密度的增加而突然下降
。
通行能力下降导致瓶颈处的交通流动态极不稳定,进一步加重交通拥堵程度,出行时间增加,降低了道路通行效率和安全性
。
此外,瓶颈区的流量决定整个道路的通行能力
。
故此,解决瓶颈区通行能力下降的问题十分重要
。
[0003]针对临近瓶颈处车辆的强制换道行为引发的瓶颈区通行能力下降问题,可以在保证交通顺畅的情况下,通过使瓶颈区上游的车辆提前变道,来减少靠近瓶颈区位置集中换道的车辆数,最大限度减少车辆汇入瓶颈区的干扰,以减少通行能力下降的影响
。
并且,还要限制车辆为了追求更高行驶速度的频繁换道行为,这将加重交通流的混乱程度
。 ...
【技术保护点】
【技术特征摘要】
1.
基于深度强化学习的瓶颈区换道控制方法,其特征在于,包括:
S1、
沿车辆行驶方向依次将路网划分为换道区和瓶颈区,将所述换道区设置为环境,观测所述环境,并获取
t
时刻所述环境的整体状态
s
t
;
S2、
构建代理,所述代理通过
ε
‑
贪婪策略确定整体状态
s
t
下
t
时刻的换道动作
a
t
;
S3、
代理执行所述换道动作
a
t
,并获取执行所述换道动作
a
t
后各车道的车辆密度,根据各车道的车辆密度确定
t
时刻的奖励
r
t
,并获取所述环境在
t+1
时刻的整体状态
s
t+1
;
S4、
将整体状态
s
t
、
换道动作
a
t
、
奖励
r
t
、
整体状态
s
t+1
整合成经验并存入经验回放池中,使用所述经验回放池中的经验训练代理;
S5、
重复步骤
S1
至步骤
S4
的环境与代理交互训练直至达到最大迭代次数,此时,所述代理得到最优换道控制行动的
Q
值表
。2.
根据权利要求1所述的基于深度强化学习的瓶颈区换道控制方法,其特征在于,所述换道区包括4条车道,将4条车道从右至左依次编号为
0、1、2、3。3.
根据权利要求2所述的基于深度强化学习的瓶颈区换道控制方法,其特征在于,观测所述环境,并获取
t
时刻所述环境的整体状态
s
t
具体包括:分别获取所述换道区各条车道在
t
时刻的车辆密度,并采用向量
S
i,j
(t)
表示
t
时刻第
i
区域的第
j
条车道的车辆密度;其中,所述换道区包括非控制区和控制区,
i
=0表示非控制区,
i
=1表示控制区;此时,将
t
时刻的所述环境的整体状态
s
t
表示为
s
t
=
{S
0,0
(t),S
0,1
(t),
…
,S
1,2
(t),S
1,3
(t)}。4.
根据权利要求3所述的基于深度强化学习的瓶颈区换道控制方法,其特征在于,所述代理通过
ε
‑
贪婪策略确定整体状态
s
【专利技术属性】
技术研发人员:段垚鑫,张慧,聂文迪,刘超凡,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。