基于深度强化学习的瓶颈区换道控制方法技术

技术编号:39496845 阅读:12 留言:0更新日期:2023-11-24 11:25
本发明专利技术公开了基于深度强化学习的瓶颈区换道控制方法

【技术实现步骤摘要】
基于深度强化学习的瓶颈区换道控制方法、设备及介质


[0001]本专利技术涉及换道控制
,具体涉及基于深度强化学习的瓶颈区换道控制方法

设备及介质


技术介绍

[0002]交通拥堵时常发生在由于交通事故

道路施工维修和路线设计等导致上下游可通行车道数不等的瓶颈区域

瓶颈区域是通行能力最低的路段,即单位时间内最大可通行车辆数最少的路段

为了顺利汇入瓶颈下游,上游的车辆被迫采取换道行为,致使后方以及相邻车道的车流速度下降,车辆出现“排队”现象,上游密度增加

当瓶颈上游密度大于临界密度时,会产生瓶颈“通行能力下降
(Capacity drop)”现象,即瓶颈区车流量会随着上游密度的增加而突然下降

通行能力下降导致瓶颈处的交通流动态极不稳定,进一步加重交通拥堵程度,出行时间增加,降低了道路通行效率和安全性

此外,瓶颈区的流量决定整个道路的通行能力

故此,解决瓶颈区通行能力下降的问题十分重要

[0003]针对临近瓶颈处车辆的强制换道行为引发的瓶颈区通行能力下降问题,可以在保证交通顺畅的情况下,通过使瓶颈区上游的车辆提前变道,来减少靠近瓶颈区位置集中换道的车辆数,最大限度减少车辆汇入瓶颈区的干扰,以减少通行能力下降的影响

并且,还要限制车辆为了追求更高行驶速度的频繁换道行为,这将加重交通流的混乱程度

然而,如何实现对特定车辆的换道控制呢?车联网技术的出现使该控制策略成为可能

在该网络中,可以根据车载传感器获取控制决策所需的交通环境信息和车辆行驶信息,并通过各种通信技术,实现人与车

车与车

车与路测单元等之间的信息交流,以便控制单元做出更好地控制决策

相对于传统的通过建立固定设施获得检测数据的方法,该技术所收集到的数据更加准确且全面

基于这些数据,有助于做出更加合适地决策

此外,无人驾驶车辆技术的出现,更好地展现了控制技术的性能

因为相对于人为驾驶车辆,其不受驾驶员驾驶技术的限制与干扰,可以更准确及时地执行控制指令

[0004]传统的换道控制策略是通过建立换道决策规则库,判断车辆是否满足某些特定的换道规则,进而决定车辆是否有必要进行换道,该方法可解释性强且结构简单,较为常用

但是,该方案仅对于由路线设计产生的固定性瓶颈区是可行的,对于处理由于交通事故产生的偶发性瓶颈区则不可行

因为基于规则的决策算法,只能应对规则库里面的驾驶场景,无法应对交通场景的变化和不确定性

[0005]作为强化学习领域里程碑式的突破,深度强化学习为解决传统换道控制的这一弊端提供办法

深度强化学习算法是一种无模型算法,其结合了深度学习的感知能力和强化学习的决策能力,能够应对具有大量动态和不确定信息的交通环境,并在复杂环境中做出合适的决策

如今,采用该算法解决智能交通问题是一大研究热点,被广泛应用于如交通信号控制

匝道控制等策略,显著地优化了这些控制技术的性能

然而,目前基于该算法以解决强制换道行为的控制方案很少,并且其中的方案大多仅仅考虑微观上单一车辆的换道控制,而没有从宏观的角度考虑换道控制对整个交通流的影响

未能有效地发挥基于深度强
化学习的换道控制方案的效能,难以有效地解决瓶颈区通行能力下降的问题


技术实现思路

[0006]针对
技术介绍
所提出的问题,本专利技术目的在于提供基于深度强化学习的瓶颈区换道控制方法

设备及介质,解决了基于深度强化学习的换道控制方案仅考虑微观上单一车辆的换道控制,而没有从宏观的角度考虑换道控制对整个交通流的影响,难以有效地解决瓶颈区通行能力下降的问题

[0007]本专利技术通过下述技术方案实现:
[0008]本专利技术第一方面提供了基于深度强化学习的瓶颈区换道控制方法,包括
[0009]S1、
沿车辆行驶方向依次将路网划分为换道区和瓶颈区,将所述换道区设置为环境,观测所述环境,并获取
t
时刻所述环境的整体状态
s
t

[0010]S2、
构建代理,所述代理通过
ε

贪婪策略确定整体状态
s
t

t
时刻的换道动作
a
t

[0011]S3、
代理执行所述换道动作
a
t
,并获取执行所述换道动作
a
t
后各车道的车辆密度,根据各车道的车辆密度确定
t
时刻的奖励
r
t
,并获取所述环境在
t+1
时刻的整体状态
s
t+1

[0012]S4、
将整体状态
s
t

换道动作
a
t

奖励
r
t

整体状态
s
t+1
整合成经验并存入经验回放池中,使用所述经验回放池中的经验训练代理;
[0013]S5、
重复步骤
S1
至步骤
S4
的环境与代理交互训练直至达到最大迭代次数,此时,所述代理得到最优换道控制行动的
Q
值表

[0014]在上述技术方案中,沿车辆行驶方向依次将路网划分为换道区和瓶颈区,将换道区设置为环境,通过对瓶颈区上游两个区域的整体状态进行观测,通过整体状态结合
ε

贪婪策略选出一个对应的换道动作,相较于现有技术而言,本专利技术通过观测非控制区和控制区两个区域内整体的车辆密度,从宏观的角度考虑换道区整体状态对整个交通流的影响,从而协调换道区内所有车辆的换道行为

[0015]代理确定换道动作后将其作用于环境,环境则在执行换道动作后得到奖励和下一时刻环境的整体状态,将整体状态
s
t

换道动作
a
t
与从环境中得到的
t
时刻的奖励
r
t

t+1
时刻的整体状态
s
t+1
一并整合进经验回放池中,并将经验回放池中的经验用于训练代理

通过重复步骤
S1
至步骤
S4
的环境与代理交互训练直至达到最大迭代次数,通过多次的迭代,代理可以学习到一个能够本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于深度强化学习的瓶颈区换道控制方法,其特征在于,包括:
S1、
沿车辆行驶方向依次将路网划分为换道区和瓶颈区,将所述换道区设置为环境,观测所述环境,并获取
t
时刻所述环境的整体状态
s
t

S2、
构建代理,所述代理通过
ε

贪婪策略确定整体状态
s
t

t
时刻的换道动作
a
t

S3、
代理执行所述换道动作
a
t
,并获取执行所述换道动作
a
t
后各车道的车辆密度,根据各车道的车辆密度确定
t
时刻的奖励
r
t
,并获取所述环境在
t+1
时刻的整体状态
s
t+1

S4、
将整体状态
s
t

换道动作
a
t

奖励
r
t

整体状态
s
t+1
整合成经验并存入经验回放池中,使用所述经验回放池中的经验训练代理;
S5、
重复步骤
S1
至步骤
S4
的环境与代理交互训练直至达到最大迭代次数,此时,所述代理得到最优换道控制行动的
Q
值表
。2.
根据权利要求1所述的基于深度强化学习的瓶颈区换道控制方法,其特征在于,所述换道区包括4条车道,将4条车道从右至左依次编号为
0、1、2、3。3.
根据权利要求2所述的基于深度强化学习的瓶颈区换道控制方法,其特征在于,观测所述环境,并获取
t
时刻所述环境的整体状态
s
t
具体包括:分别获取所述换道区各条车道在
t
时刻的车辆密度,并采用向量
S
i,j
(t)
表示
t
时刻第
i
区域的第
j
条车道的车辆密度;其中,所述换道区包括非控制区和控制区,
i
=0表示非控制区,
i
=1表示控制区;此时,将
t
时刻的所述环境的整体状态
s
t
表示为
s
t

{S
0,0
(t),S
0,1
(t),

,S
1,2
(t),S
1,3
(t)}。4.
根据权利要求3所述的基于深度强化学习的瓶颈区换道控制方法,其特征在于,所述代理通过
ε

贪婪策略确定整体状态
s

【专利技术属性】
技术研发人员:段垚鑫张慧聂文迪刘超凡
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1