一种基于强化学习的区域交通信号配时方法及系统技术方案

技术编号:36749209 阅读:8 留言:0更新日期:2023-03-04 10:34
本发明专利技术涉及一种基于强化学习的区域交通信号配时方法及系统,属于交通信号配时处理技术领域。本发明专利技术在对区域交通环境数据和车辆轨迹数据进行数据抽取得到路口和信号灯构成元素后,基于路口和信号灯构成元素确定区域交通信号配时任务,然后,基于区域交通信号配时任务构建区域交通等待模型,最后,采用多智能体强化学习算法学习训练区域交通等待模型,结合优化后的基于策略的NAC算法完成区域中各智能体策略的协调优化过程,并引入RNN循环神经网络对协调优化过程中产生的优化协调结果进行处理得到区域交通信号配时方案,进而解决现有交通信号配时过程中存在的维度灾难问题。交通信号配时过程中存在的维度灾难问题。交通信号配时过程中存在的维度灾难问题。

【技术实现步骤摘要】
一种基于强化学习的区域交通信号配时方法及系统


[0001]本专利技术涉及交通信号配时处理
,特别是涉及一种基于强化学习的区域交通信号配时方法及系统。

技术介绍

[0002]目前世界研究形成了若干类交通信号配时方法。从控制范围上看,由单点控制发展至干线控制,再到如今的区域控制。方法由最初的统计方案,慢慢演进到各类人工智能算法学习控制的新方案。
[0003]1.历史数据统计预测方法
[0004]历史数据统计预测方法应用在交通信号配时算法的时间最长。一方面,囿于之前交通流数据收集手段的匮乏,往往只能获得路口的通过车辆数等简单数据,数据本身能被提取到的特征较少;另一方面,基于历史数据统计预测的方法操作简单,统计某一时间段的车流量,累加求解各个车道方向的最值,建立流量数学模型,进行相应的阈值检测即可得到初步的单一路口交通信号配时方案,最终对区域内部路口进行配时周期统一联调即可得到区域交通信号配时结果。虽然历史数据统计预测方法应用简单,落地效果不俗,但随着交通流数据采集的多样性和智能化,仅通过简单的流量数据预测已经不足以支撑区域交通信号配时,没有考虑各个路口的关联性,交通流的许多特征没有被提取到,缺乏对真实交通状况的仿真。
[0005]2.基于价值的强化学习算法
[0006]近年来随着人工智能技术的发展,越来越多的人工智能算法广泛应用于交通领域之中。其中,基于强化学习的方法在交通信号控制与配时中表现出了其优越性。强化学习可以根据环境反馈调节代理采取的行动,它需要较少的环境先验知识,可以适应交通状况的实时变化,具有较优的交通解释性。强化学习具有“数据驱动、自学习、无模型”的特点。其重点过程在于:智能体采取行动,从而改变自己的状态,获得奖励,并与环境发生交互的循环过程。强化学习的目的是最大化长期未来奖励,即求解优化奖励函数使其最大化。通过多个智能体联动,从局部最优化慢慢扩展到全局最优化,找到区域内多个路口全局优化的最优解或较优解,这是多智能体强化学习比较擅长的方向。
[0007]早期的多智能体强化学习交通信号控制的方法,一方面囿于当时收集数据的能力有限,交通数据量较小,其成果没有引起广泛关注;另一方面,这一方法只在较小规模城市交通的城市区域多路口场景下适用。在实施过程中,将评估函数和Q学习算法相结合来进行多交叉路口的交通信号控制时采取了交叉路口交通状态描述,由于城市交通状态复杂,该方法产生了区域交通典型的维数灾难问题。对于维数爆炸问题,是区域交通信号配时不可忽视的一点。随着交叉口数量的增加和路线空间的成倍增长,维数灾难会发生,所以在交通网络很大的情况下,这一方法并不可行。还有一些学者使用非线性估计、函数逼近或神经网络等方法结合强化学习,但是会出现模型学习和预测时间过长、收敛性可能得不到保证等问题。
[0008]此外,交通信号配时过程中产生的另一个问题是路口相位协调问题。许多方法基于各自独立智能体研究,在城市多交叉路口中应用并行计算;有的直接将强化学习应用到多个交叉路口,处理城市交通产生的随机交通模式问题。这些方法在城市交通信号决策过程中,已经考虑了相邻交叉路口的交通流量、等待时长等信息,但是缺乏协调机制,没有将各个路口的关联关系合理利用。为解决这一问题,一般通过多智能体强化学习自动发现更高效的区域信号控制器实现。其中,每个智能体控制一个信号灯,扩展到相邻信号灯之间的协调,使用Max

Plus算法实现。Max

Plus算法较为简单,仅考虑相邻路口间的协调。在研究外在协调机制,来进行区域多路口多智能强化学习的控制问题时,同样利用Max

Plus算法来预测,但Max

Plus算法有一定局限性,计算复杂度高,仅适用于树形网络。
[0009]3.基于策略的强化学习算法
[0010]策略梯度算法属于强化学习的另一个分支,主要解决了深度强化学习中的动作空间离散的问题。策略梯度算法是一种更为直接的方法。对于确定性策略,让神经网络直接输出策略函数,即在某状态下应该执行何种动作;对于非确定性策略,输出这种状态下执行各种动作的概率值。有的方法提出了一种基于Q学习的交通信号控制方法,Q学习通过Q值表进行值函数的存储,该方法无法适应复杂的环境,而且若状态空间过大会带来存储与收敛慢的问题。
[0011]策略梯度思想最早体现在NAC算法中。由于梯度估计的高方差,PG方法与值方法相比收敛速度较慢。自然actor

critic方法(NAC)通过结合PG方法、自然梯度、值估计和最小二乘时间差分Q学习改进了这一点。深度确定性策略梯度(DDPG)算法是NAC算法的变种,针对每个交叉口考虑整个路网的状态信息,实行状态共享模式。通过估计交叉口的相互关联推导出全局最优Q值,使得多个智能体能够根据全局状态获取彼此的时空信息,合理调整自身策略,实现协同优化。根据不同相位、不同车道的车流量信息,智能决策配时周期、相位顺序以及各相位持续时间,解决了现有智能算法基于离散动作决策空间而带来的次优配时问题。
[0012]综上所述,虽然强化学习算法在区域信号配时问题中的应用和效果都有了较快的发展,但是针对到具体的区域相位协调和多智能体交互、区域路网规模改变带来的维数灾难等问题,仍旧存在改进和优化的空间。具体表现在以下的两个方面:
[0013]一是对区域路口之间的相位协调和多智能体交互的深入研究。在划分的交通区域中,一般路口之间的距离不超过500米,车辆按其行驶轨迹通过区域内的各个路口,使得相邻的路口呈现出时空的关联性,是一个由点到线到面的建模问题。路口的交通流特性并非孤立存在,其时空特性的关联关系需重点考虑,因为单个路口的拥堵会对周边交通区域造成影响;而单个路口的优化改善可能会造成相邻交叉口拥堵加重。而现有的诸多强化学习算法,每个智能体只考虑自身路口环境,完成局部路口最优化,或未深入考虑各路口之间的多相位的协调控制,这导致了车辆可能在某几个路口等待时间较短,以绿灯相位快速通过,但在区域内的其他路口等待时间过长,导致学习结果不佳。此外,许多交通仿真过程以车辆随机到达模型和过渡延误模型等为例,一定程度忽视了实际区域交通流数据的内部特性,没有以真实数据去提取内部交通特征。因此,设计适宜的多智能体的状态、动作和奖励,算法将通过智能体互相之间的通信交互和更新,使得多个智能体能够根据区域多路口全局的状态获取彼此的时空状态特征,调整自身的策略函数,实现区域路口的协同优化,完成区域
全局的奖励的最大化。
[0014]二是对区域路网规模改变带来的维数灾难问题的解决。随着区域内路口数量的增加,车辆的路线选择空间更大,交通数据的时空特征更加高维,维数灾难问题需要重点解决。维数灾难是指算法的性能随着特征个数的变化不断增加,但个数超过某一数值后,性能不升反降,这会导致模型学习和预测时间过长,收敛性得不到保证的问题。现有研究中的区域交通信号配时的实验仿真往往围绕2至4路口区域等少量小规模区域路口开展,仿真车辆数较少,未出现维数灾难的问题。而在区域本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的区域交通信号配时方法,其特征在于,包括:对区域交通环境数据和车辆轨迹数据进行数据抽取得到路口和信号灯构成元素;基于所述路口和信号灯构成元素确定区域交通信号配时任务;基于所述区域交通信号配时任务构建区域交通等待模型;采用多智能体强化学习算法学习训练所述区域交通等待模型,结合优化后的基于策略的NAC算法完成区域中各智能体策略的协调优化过程,并引入RNN循环神经网络对协调优化过程中产生的优化协调结果进行处理得到区域交通信号配时方案。2.根据权利要求1所述的基于强化学习的区域交通信号配时方法,其特征在于,所述基于所述区域交通信号配时任务构建区域交通等待模型,具体包括:构建区域交通环境仿真模型;提取车辆轨迹数据特征;所述车辆轨迹数据特征包括信号灯的周期、信号灯的绿信比和信号灯的相位差;采用Python编程算法将所述车辆轨迹数据特征加入所述区域交通环境仿真模型生成所述区域交通等待模型。3.根据权利要求2所述的基于强化学习的区域交通信号配时方法,其特征在于,所述区域交通等待模型包括:路网环境配置模块,用于对区域内的各个交通元素进行搭建生成基础环境模型;数据采集模块,用于采用区域内的车辆行驶数据,并用于提取车辆轨迹时空特征;信号灯配置模块,用于对区域中每一路口的信号灯进行基本配置;基本配置的内容包括:信号灯的灯色、周期时长和相位顺序;评价指标输出模块,用于确定区域交通环境的评价指标数据。4.根据权利要求1所述的基于强化学习的区域交通信号配时方法,其特征在于,所述采用多智能体强化学习算法学习训练所述区域交通等待模型,结合优化后的基于策略的NAC算法完成区域中各智能体策略的协调优化过程,并引入RNN循环神经网络对协调优化过程中产生的优化协调结果进行处理得到区域交通信号配时方案,具体包括:设计多智能体的基础要素;所述基础要素包括:状态、动作和奖励;基于所述多智能体的基础要素设置多智能体协同优化模型;采用所述多智能体协同优化模型对区域中各路口车道的状态信息进行更新;对更新后的各路口车道的状态信息进行聚合得到聚合状态信息;采用注意力机制筛选所述聚合状态信息得到筛选状态信息;采用优化后的基于策略的NAC算法根据所述筛选状态信息生成策略函数;所述策略函数为状态集合到动作集合的映射;所述NAC算法包括:...

【专利技术属性】
技术研发人员:王海泉费云帆
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1