基于双策略网络的强化学习智能交通信号灯控制方法技术

技术编号：35446817 阅读：14 留言：0更新日期：2022-11-03 12:00

本发明专利技术公开了一种基于双策略网络的强化学习智能交通信号灯控制方法，包括：步骤1：定义满意度指标，在车辆个体层面刻画车辆行驶质量，在全局层面对路口交通情况进行准确建模；步骤2：利用双策略网络的可变时长交通信号控制方法根据步骤1中对路口交通情况的建模选择合适的路口信号灯相位与相应的持续时间；步骤3：基于步骤1的满意度指标设计强化学习方法中的状态与奖励，基于步骤2中的双策略网络设计强化学习方法中的动作，利用每个路口的强化学习智能体使用带有两个策略网络的Deep Q Network强化学习算法，根据路口车流情况对交通信号灯实时控制。本发明专利技术的强化学习智能体可以快速收敛到一个好的控制策略，在学习速度与控制质量上均优于现有方法。控制质量上均优于现有方法。控制质量上均优于现有方法。

全部详细技术资料下载

【技术实现步骤摘要】
基于双策略网络的强化学习智能交通信号灯控制方法

[0001]本专利技术属于计算机
，涉及一种基于双策略网络的强化学习智能交通信号灯控制方法。尤其涉及在高度复杂动态变化的交通环境中，如何对路口交通情况进行精确建模，如何设计强化学习方法以快速准确地进行高质量的信号灯控制的方法。

技术介绍

[0002]随着全球城市化的快速增长和经济的飞速发展，全球机动车保有量持续快速增长，各地交通设施的供给与交通需求之间的矛盾日益突出，由此导致交通拥堵问题越来越严重，已经成为了困扰各地可持续发展的重大民生问题。交通拥堵不单单会造成巨大的时间与经济成本的损失，而且会导致温室气体排放等环境污染问题。因此，改善交通状况、缓解交通拥堵是加快城市和经济发展、提高人民生活质量的关键。
[0003]作为交通系统中最小的控制单位之一，缓解交通拥堵的一个有效方法就是智能地控制交通信号灯。因此，如何设计智能的交通信号灯控制方法成为了目前的一个难题。由于人工智能和物联网技术的繁荣，强化学习成为智能交通系统中交通控制模型设计的一种很有希望的方法。通常，基于强化学习的方法在每个交叉口部署一个智能体来控制相关的红绿灯。基于捕捉到的实时交通状况，智能体为交叉口选择最佳控制相位，该相位指示向车辆发送的路权信号。同时，智能体评估相位选择决策并相应地更新其控制策略。以一种进化的方式，最终可以实现最优的交通信号控制策略，以自适应地提高交通控制的质量。
[0004]随着人工智能和物联网技术的繁荣，强化学习在智慧交通中变得越来越流行，尤其是自治交通灯系统的控...

【技术保护点】

【技术特征摘要】
1.一种基于双策略网络的强化学习智能交通信号灯控制方法，其特征在于，所述控制方法包括：步骤1：定义满意度指标，在车辆个体层面刻画车辆的行驶质量，在全局层面对路口交通情况进行准确建模；步骤2：利用双策略网络的可变时长交通信号控制方法根据步骤1中对路口交通情况的建模选择合适的路口信号灯相位与相应的持续时间；步骤3：基于步骤1的满意度指标设计强化学习方法中的状态与奖励，基于步骤2中的双策略网络设计强化学习方法中的动作，利用每个路口的强化学习智能体使用带有两个策略网络的Deep Q Network强化学习算法，根据路口车流情况对交通信号灯实时控制。2.如权利要求1所述的控制方法，其特征在于，所述满意度指标包括单个车辆的满意度指标、当前车道的满意度指标、当前路口的满意度指标；所述单个车辆的满意度指标通过以下公式计算：其中，t
出行
为当前车辆的出行时间，t
驾驶
为当前车辆的驾驶时间，t
等待
为当前车辆的等待时间，出行时间＝驾驶时间+等待时间，即t
出行
＝t
驾驶
+t
等待
；所述当前车道的满意度指标为当前车道上所有车辆的满意度指标之和，通过以下公式计算：其中，车辆i表示当前车道上的第i辆车，I
车辆i
表示当前车道上第i辆车的满意度指标；所述当前路口的满意度指标为当前路口所有进入车道的满意度指标之和，通过以下公式计算：其中，进入车道l表示当前路口中的第l条进入车道，I
进入车道l
表示当前路口中第l条进入车道的满意度指标。3.如权利要求1所述的控制方法，其特征在于，所述双策略网络包括相位选择策略网络、时长分配策略网络；所述相位选择策略网络根据当前路口的交通情况选择出合适的信号灯相位；所述时长分配策略网络根据当前路口的交通情况给选择出的信号灯相位分配合适的持续时间。4.如权利要求1所述的控制方法，其特征在于，所述相位选择策略网络和时长分配策略网络均为全连接网络，包括输出层、2层各由20个神经元构成的隐藏层、输出层；所述的两种策略网络均遵循DQN方法，采用Adam优化器通过随机梯度下降法进行优化；所述相位选择策略网络的输入为当前路口各个进入车道的满意度指标与当前路口信号灯的相位状态，输出为选择的下一个路口信号灯相位；所述时长分配策略网络的输入为相位选择策略网络选择出的下一个相位与各个进入车道的满意度指标，输出为下一相位应
该分配的持续时间。5.如权利要求1所述的控制方法，其特征在于，...

【专利技术属性】
技术研发人员：陈铭松，叶豫桐，丁捷频，李一鸣，王嘉莉，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人