基于双策略网络的强化学习智能交通信号灯控制方法技术

技术编号:35446817 阅读:14 留言:0更新日期:2022-11-03 12:00
本发明专利技术公开了一种基于双策略网络的强化学习智能交通信号灯控制方法,包括:步骤1:定义满意度指标,在车辆个体层面刻画车辆行驶质量,在全局层面对路口交通情况进行准确建模;步骤2:利用双策略网络的可变时长交通信号控制方法根据步骤1中对路口交通情况的建模选择合适的路口信号灯相位与相应的持续时间;步骤3:基于步骤1的满意度指标设计强化学习方法中的状态与奖励,基于步骤2中的双策略网络设计强化学习方法中的动作,利用每个路口的强化学习智能体使用带有两个策略网络的Deep Q Network强化学习算法,根据路口车流情况对交通信号灯实时控制。本发明专利技术的强化学习智能体可以快速收敛到一个好的控制策略,在学习速度与控制质量上均优于现有方法。控制质量上均优于现有方法。控制质量上均优于现有方法。

【技术实现步骤摘要】
基于双策略网络的强化学习智能交通信号灯控制方法


[0001]本专利技术属于计算机
,涉及一种基于双策略网络的强化学习智能交通信号灯控制方法。尤其涉及在高度复杂动态变化的交通环境中,如何对路口交通情况进行精确建模,如何设计强化学习方法以快速准确地进行高质量的信号灯控制的方法。

技术介绍

[0002]随着全球城市化的快速增长和经济的飞速发展,全球机动车保有量持续快速增长,各地交通设施的供给与交通需求之间的矛盾日益突出,由此导致交通拥堵问题越来越严重,已经成为了困扰各地可持续发展的重大民生问题。交通拥堵不单单会造成巨大的时间与经济成本的损失,而且会导致温室气体排放等环境污染问题。因此,改善交通状况、缓解交通拥堵是加快城市和经济发展、提高人民生活质量的关键。
[0003]作为交通系统中最小的控制单位之一,缓解交通拥堵的一个有效方法就是智能地控制交通信号灯。因此,如何设计智能的交通信号灯控制方法成为了目前的一个难题。由于人工智能和物联网技术的繁荣,强化学习成为智能交通系统中交通控制模型设计的一种很有希望的方法。通常,基于强化学习的方法在每个交叉口部署一个智能体来控制相关的红绿灯。基于捕捉到的实时交通状况,智能体为交叉口选择最佳控制相位,该相位指示向车辆发送的路权信号。同时,智能体评估相位选择决策并相应地更新其控制策略。以一种进化的方式,最终可以实现最优的交通信号控制策略,以自适应地提高交通控制的质量。
[0004]随着人工智能和物联网技术的繁荣,强化学习在智慧交通中变得越来越流行,尤其是自治交通灯系统的控制模型设计。为了实现交通网络中基于强化学习的自主信号控制,通常每个路口都配备有强化学习智能体,该智能体基于物联网设备(例如交通摄像头、路边传感器)捕获的实时交通数据,生成向路口所有交通灯发送信号的动作。对于每个交通路口,应用在所有相关交通灯上的一组动作形成一个控制相位,向车辆发出信号,引导对应方向道路上的车辆通过路口。基于智能体的智能优化控制,可以有效降低路网中车辆的平均行驶时间。同时,所有收集到的交通数据及历史动作被用于智能体的训练学习,以逐步构建更精确的控制模型。
[0005]尽管基于强化学习的交通信号控制方法在平均行驶时间等总体指标方面优于传统方法,但优于对交通环境建模的不精确,现有的基于强化学习的信号灯控制方法在对路口的交通场景建模时,往往难以抽取到有效的信息来对路口交通情况进行精确建模。同时现有的方法为了简化交通模型,通常都只为信号灯设置了固定的持续时间,这造成空余时长的浪费与频繁的相位切换,影响了信号灯的控制质量。因此如何对路口环境精确建模同时更加智能地控制交通信号灯成为了基于强化学习的交通信号控制方法设计中的一个主要挑战。

技术实现思路

[0006]为了应对上述挑战,本文专利技术的目的是提出一种新的基于双策略网络的强化学习
智能交通信号灯控制方法。
[0007]本专利技术方法在交通信号控制时兼顾了对路口环境的精确建模与可变时长的交通信号灯相位控制,包括以下步骤:
[0008]1.对路口交通环境的精确建模
[0009]经过对现有方法的广泛研究,现有的大部分强化学习方法都主张在对路口情况建模时尽可能多的包含交通状态信息。然而过多的信息并不都会带来提升,过于复杂的状态信息使得强化学习智能体难以学习,导致漫长的训练过程。本专利技术在充分调研了各种交通数据的有效性基础上,提出了一种满意度指标,在个体层面可以有效刻画车辆的行驶质量,在全局层面可以对路口交通情况进行准确建模。通过物联网与车联网技术,通过路口数据采集设备可以获得车辆的出行时间、驾驶时间与等待时间。基于满意度指标的状态与奖励设计可以有效提高强化学习智能体的控制质量。
[0010]首先定义单个车辆的满意度指标。假设当前该车辆的出行时间为t
出行
,其中驾驶时间为t
驾驶
,等待时间为t
等待
,出行时间=驾驶时间+等待时间,即t
出行
=t
驾驶
+t
等待
,此时该车辆的满意度指标为:
[0011][0012]在此基础上,本专利技术将其扩展到车道层面,定义一条车道上的满意度指标为当前车道上所有车辆的满意度指标之和,即
[0013][0014]其中车辆i表示当前车道上的第i辆车,I
车辆i
表示当前车道上第i辆车的满意度指标。
[0015]基于以上定义,在完整的路口层面,路口的满意度指标定义为当前路口所有进入车道的满意度指标之和,即
[0016][0017]其中进入车道l表示当前路口中的第l条进入车道,I
进入车道l
表示当前路口中第l条进入车道的满意度指标。
[0018]2.基于双策略网络的可变时长交通信号控制方法
[0019]现有的强化学习方法为了简化交通模型,往往采用了固定时长的控制策略。对于固定的相位持续时间通常存在两种问题,当设置的持续时间过长时,会导致空余的时长被浪费,当指定的持续时间较短时又会使信号灯频繁切换相位。以上问题均会影响对路口信号灯的控制质量。为了智能地控制信号灯的相位持续时间,本专利技术提出了一种双策略网络的结构,基于此设计的强化学习智能体包含了两个策略网络,分别是相位选择策略网络与时长分配策略网络。两个策略网络根据路口的交通情况分别选择适合的路口信号灯相位同时给选择出的相位分配相应的持续时间。
[0020]具体地,相位选择策略网络负责根据当前路口的交通情况选择出合适的信号灯相位,时长分配策略网络负责根据当前路口的交通情况给选择出的下一相位分配合适的持续
时间。单个相位包括信号灯的颜色及方向。
[0021]所述相位选择策略网络与时长分配策略网络均为全连接网络,包括输出层、2层各由20个神经元构成的隐藏层、输出层,具体结构见附图1所示的策略网络结构图。所述的两种策略网络均遵循DQN方法,采用Adam优化器通过随机梯度下降法进行优化。
[0022]所述DQN方法,其目标为优化真实值函数V与学习到的值函数V
θ
之间的最小平方误差即L=(V(s,a)

V
θ
(s,a))2,其中θ为学习到的参数,s与a分别为当前时刻的状态与动作。参数θ采用随机梯度下降法进行更新,其更新公式为其中η为学习率,设置为0.001,运算符计算V
θ
(s,a)的梯度。
[0023]对于相位选择策略网络,其输入为当前路口各个进入车道的满意度指标与当前路口信号灯的相位状态,输出为选择的下一个路口信号灯相位。对于时长分配策略网络,其输入为相位选择策略网络选择出的下一个相位与各个进入车道的满意度指标,输出为下一相位应该分配的持续时间。
[0024]3.强化学习智能体的设计
[0025]基于步骤1的满意度指标设计强化学习方法中的状态与奖励,基于步骤2中的双策略网络设计强化学习方法中的动作。每个路口上都部署了一个包含两个策略网络的Deep Q Network本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双策略网络的强化学习智能交通信号灯控制方法,其特征在于,所述控制方法包括:步骤1:定义满意度指标,在车辆个体层面刻画车辆的行驶质量,在全局层面对路口交通情况进行准确建模;步骤2:利用双策略网络的可变时长交通信号控制方法根据步骤1中对路口交通情况的建模选择合适的路口信号灯相位与相应的持续时间;步骤3:基于步骤1的满意度指标设计强化学习方法中的状态与奖励,基于步骤2中的双策略网络设计强化学习方法中的动作,利用每个路口的强化学习智能体使用带有两个策略网络的Deep Q Network强化学习算法,根据路口车流情况对交通信号灯实时控制。2.如权利要求1所述的控制方法,其特征在于,所述满意度指标包括单个车辆的满意度指标、当前车道的满意度指标、当前路口的满意度指标;所述单个车辆的满意度指标通过以下公式计算:其中,t
出行
为当前车辆的出行时间,t
驾驶
为当前车辆的驾驶时间,t
等待
为当前车辆的等待时间,出行时间=驾驶时间+等待时间,即t
出行
=t
驾驶
+t
等待
;所述当前车道的满意度指标为当前车道上所有车辆的满意度指标之和,通过以下公式计算:其中,车辆i表示当前车道上的第i辆车,I
车辆i
表示当前车道上第i辆车的满意度指标;所述当前路口的满意度指标为当前路口所有进入车道的满意度指标之和,通过以下公式计算:其中,进入车道l表示当前路口中的第l条进入车道,I
进入车道l
表示当前路口中第l条进入车道的满意度指标。3.如权利要求1所述的控制方法,其特征在于,所述双策略网络包括相位选择策略网络、时长分配策略网络;所述相位选择策略网络根据当前路口的交通情况选择出合适的信号灯相位;所述时长分配策略网络根据当前路口的交通情况给选择出的信号灯相位分配合适的持续时间。4.如权利要求1所述的控制方法,其特征在于,所述相位选择策略网络和时长分配策略网络均为全连接网络,包括输出层、2层各由20个神经元构成的隐藏层、输出层;所述的两种策略网络均遵循DQN方法,采用Adam优化器通过随机梯度下降法进行优化;所述相位选择策略网络的输入为当前路口各个进入车道的满意度指标与当前路口信号灯的相位状态,输出为选择的下一个路口信号灯相位;所述时长分配策略网络的输入为相位选择策略网络选择出的下一个相位与各个进入车道的满意度指标,输出为下一相位应
该分配的持续时间。5.如权利要求1所述的控制方法,其特征在于,...

【专利技术属性】
技术研发人员:陈铭松叶豫桐丁捷频李一鸣王嘉莉
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1