【技术实现步骤摘要】
一种基于深度强化学习的自适应交通灯控制方法
[0001]本专利技术涉及一种自适应交通灯控制方法,尤其是基于深度强化学习的自适应交通灯控制方法。
技术介绍
[0002]在城市化进程中交通拥堵和交通事故等问题的日益加剧,传统的定时信号灯已经难以适应城市道路交通的需要。随着人工智能、计算机视觉等技术的不断发展,智能信号灯得以应运而生。智能信号灯通过利用传感器、摄像头、计算机等技术,实时感知和分析路口交通状况,并根据状况智能控制信号灯,从而减少交通拥堵,提高道路通行效率,降低交通事故的风险。智能信号灯还可以与车辆、行人、交通网络等其他交通设施连接,形成更加智能的交通管理体系。
[0003]在智能信号灯控制算法研究方面,现有的研究大多没有考虑到交通路口之间的互相影响和协作,部分研究只停留在对信号灯时长进行动态控制,也有部分研究通过对交通路网的整体控制实现对信号灯的调控,即利用图神经网络实现整体把控。但是,现实的情况比实验中的更加复杂。这么设计的信号灯会尽可能的将车辆从进车道输出到出车道上,而这有可能会出现某条出车道完全堵死的情况。
[0004]在CN115578870A中公开了在Actor New信号策略网络中采用ε
‑
greedy算法对信号相位概率分布进行采样并得到第n回合下t时刻的信号相位,但ε
‑
greedy方法容易陷入局部最优,从而得到概率分布中局部最大值对应的信号相位;在CN113868113A中也直接使用了Actor
‑
Critic算法和ε />‑
greedy方法,并对奖励函数进行设计,但会存在探索与利用困境这一问题,即该方法无法对环境进行充分探索,容易陷入局部最优。
技术实现思路
[0005]专利技术目的:本专利技术的目的是提供一种依据交通节点之间道路的状况以及相邻节点之间的互相影响程度且避免陷入局部最优的交通信号灯控制方法。
[0006]技术方案:本专利技术所述的基于深度强化学习的自适应交通灯控制方法,其特征在于,将交通数据集和车流数据集导入Dueling Actor
‑
Critic深度强化学习框架进行训练得到最优动作,动作a用于对信号灯时长进行调控;
[0007]所述Dueling Actor
‑
Critic深度强化学习框架包括Actor网络和Critic网络;根据车道上的车辆数量得到状态集S,将所述状态集S输入到Critic网络中的Q网络,得到优势值X,进而计算相对状态下的ε值,将所述ε值输入到Actor网络中获得最优动作;
[0008]优势函数为:ε值的计算公式为:
[0009]其中A为动作集合,ω是共享网络参数,α和β分别是价值函数网络和优势函数网络的网络参数;V为价值函数,Q为状态动作值函数;动作a用于对信号灯时长进行调控,a
′
为下
一时刻动作。
[0010]进一步地,利用所述ε值指导当前时刻状态s下的动作a以获取最优动作。
[0011]进一步地,每隔一段时间间隔,将所述Q网络的网络参数输入Critic网络中的目标Q网络,对目标Q网络的参数进行更新,并计算得到最大Q值。
[0012]进一步地,所述交通数据集包括城市中所有交通节点的位置坐标信息和车道长度;所述车流数据集包括城市一段时间内所有车辆进入路网时间、离开路网时间及行动轨迹。
[0013]进一步地,所述动作a用于对信号灯时长进行调控包括对红灯时长或绿灯时长进行加减。
[0014]进一步地,利用Cityflow平台将所述交通数据集和车流数据集在Dueling Actor
‑
Critic深度强化学习框架中训练的结果进行可视化展示。
[0015]本专利技术所述的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于深度强化学习的自适应交通灯控制方法。
[0016]本专利技术所述的计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于深度强化学习的自适应交通灯控制方法。
[0017]有益效果:与现有技术相比,本专利技术的优点在于:对ε
‑
greedy方法进行了优化:将ε值进行动态化处理,允许ε的值在整个执行的过程中以一种控制的方式进行不断变化,即在学习过程的开始,使其更具有探索性;同时本专利技术根据Dueling Actor
‑
Critic输出的优势值对ε值进行计算,优势值是用于评价一个动作的好坏,由此计算得出的ε值是在该状态下最合适的值,从而构建出Dueling Actor
‑
Critic的深度强化学习框架;其最终目标是为了获得最优动作并控制交通灯时长,避免了陷入局部最优的问题。
附图说明
[0018]图1为本专利技术的自适应交通灯控制方法流程图。
[0019]图2为本专利技术Dueling Actor
‑
Critic深度强化学习框架图。
[0020]图3为本专利技术实施例中自适应交通灯控制可视化结果图。
具体实施方式
[0021]下面结合附图对本专利技术的技术方案作进一步说明。
[0022]如图1所示,本专利技术所述的基于深度强化学习自适应交通灯控制方法,包括以下步骤:
[0023]步骤1、对城市内交通网络数据进行预处理,具体如下:
[0024]步骤1.1、采集一个城市内所有交通节点的信息,形成交通数据集。
[0025]对城市中所有交通节点,记录节点的位置坐标信息、所有车道长度,存入txt文件中,形成交通数据集。
[0026]步骤1.2、采集一个城市一段时间内的车流信息,形成车流数据集。
[0027]对城市一段时间内的车流,记录所有车辆进入路网、离开路网的时间,并记录车辆
的行动轨迹,形成车流数据集。
[0028]步骤2、建立基于自适应ε
‑
greedy算法构建Dueling Actor
‑
Critic(对抗演员评论家)深度强化学习框架。
[0029]自适应ε
‑
greedy算法具体如下:
[0030]步骤2.1、根据车道上的车辆数量得到状态集S,动作a用于对信号灯时长进行调控。状态值函数表示的是当前路口所有车道上的车辆情况,利用动作函数对红灯时长或绿灯时长进行加减,动作函数对信号灯时长每次加减10秒或者保持不变。
[0031]步骤2.2、将状态集合作为输入,输入到Q网络,得到优势值X,则优势函数的公式为:
[0032][0033]其中S为状态集,A为动作集,V为状态值函数,表示当前路口所有车道上的车辆情况,Q为状态动作值函数,ω为共享网络参数,α和β分别是状态值函数和优势函数的网络参数。
[0034]优势函数是计算后续ε值的一个重要因素。优势函数用于评估在状态s下采取各动作本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的自适应交通灯控制方法,其特征在于,将交通数据集和车流数据集导入Dueling Actor
‑
Critic深度强化学习框架进行训练得到最优动作,动作a用于对信号灯时长进行调控;所述Dueling Actor
‑
Critic深度强化学习框架包括Actor网络和Critic网络;根据车道上的车辆数量得到状态集S,将所述状态集S输入到Critic网络中的Q网络,得到优势值X,进而计算相对状态下的ε值,将所述ε值输入到Actor网络中获得最优动作;优势函数为:ε值的计算公式为:其中A为动作集合,ω是共享网络参数,α和β分别是价值函数网络和优势函数网络的网络参数;V为价值函数,Q为状态动作值函数;动作a用于对信号灯时长进行调控,a
′
为下一时刻动作。2.根据权利要求1所述的基于深度强化学习的自适应交通灯控制方法,其特征在于,利用所述ε值指导当前时刻状态s下的动作a以获取最优动作。3.根据权利要求1所述的基于深度强化学习的自适应交通灯控制方法,其特征在于,每隔一段时间间隔,将所述Q网络的网络参数输入Critic网络中的目标Q网络,对目标Q网络的参数进行更新,并计算...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。