本发明专利技术公开了一种基于合作式多智能体强化学习的交通信号灯控制方法。该方法克服了传统强化学习单独控制各个路口的信号灯,没有考虑它们之间的相关性的缺点,提出了一种双层协调控制策略,通过局部合作机制和全局合作机制对路网中的交通信号灯进行协调控制。同时,该方法将车辆排放因素考虑在内,可以在改善路网交通状态的同时尽可能的减少车辆排放。交通状态的同时尽可能的减少车辆排放。交通状态的同时尽可能的减少车辆排放。
【技术实现步骤摘要】
一种基于合作式多智能体强化学习的交通信号灯控制方法
[0001]本专利技术涉及智能交通信号控制
,尤其涉及一种基于合作式多智能体强化学习的交通信号灯控制方法。
技术介绍
[0002]我国机动车移动污染源保有量大、增速快,极易造成交通拥堵,并引发严重的空气污染、噪声污染等环境问题。相比于新建、扩建道路等改善交通状况的方法,利用路口交通信号灯对路网交通状况进行调度优化具有更强的经济性、实用性,这也符合我国提出的数字城市和智慧城市的发展理念,强化学习是解决交通信号灯控制问题的代表性方法。
[0003]传统交通信号灯,无论交叉路口各个方向车辆数目如何变化,信号时间间隔都是不变的,这就很容易导致交通堵塞,增加车辆排放。为了改善路口的交通状况,人们将强化学习应用到交通信号灯控制任务中,与传统交通信号灯控制方法相比取得了更好的控制效果。然而很多基于强化学习的控制算法都单独的控制各个路口的交通信号灯,没有明确的考虑相邻路口之间的相互作用,即一个路口信号灯变化如何影响附近路口的交通状况。
[0004]随着经济的发展和社会的进步,道路运输对环境造成了严重的影响,引起了人们的广泛关注。交通规划师和交通工程师在解决交通问题或优化交通系统时,不再只关注拥堵,如何减少车辆排放问题也得到重视。车辆的运行模式与车辆排放密切相关,如车辆加速、减速、怠速和走走停停等情况都会增加车辆排放。而在交通网络中,路口的交通情况最为复杂,车辆在路口反复分流、合并、交叉。交通情况复杂,使得路口成为制约城市道路交通功能的瓶颈,该区域车辆排放明显高于其他区域。因此,通过合理的交通信号灯调控可以有效减少车辆排放。
[0005]综上所述,需要设计一种基于合作式多智能强化学习的交通信号灯方法,从而在改善路网交通状态的同时尽可能的减少车辆排放。
技术实现思路
[0006]本专利技术针对上述问题及技术需求,提出了一种基于合作式多智能体强化学习的交通信号灯控制方法。本专利技术通过减少因红灯产生的车辆等待情况,从而最小化路口车辆的等待时间和排放,进而达到在改善交通拥堵的同时尽可能的减少通过交叉口的车辆排放的目的。
[0007]本专利技术的包括以下步骤:
[0008]步骤一:构建道路交叉口和交通信号灯的路网模型;
[0009]路网模型使用交通仿真软件SUMO附带的软件Netedit搭建;
[0010]搭建的道路交叉口中,分为左转、直行和右转车道。交通信号灯的控制分信号分别为南北方向直行、南北方向左转、东西方向直行、东西方向直行。为了保证安全,防止直接切换相位引发交通事故,在上述四个相位切换之间设计一个黄信号灯进行过渡。
[0011]步骤二:基于强化学习的交通信号灯控制模型构建;
[0012](a)状态空间State设计
[0013]对于单个交叉口,使用当前信号灯的相位、每个车道车辆等待队列的长度、每个车道的车辆密度以及每个车道的车辆排放浓度来表示状态。其中,表示当前信号灯相位的矩阵P表示信号灯的当前状态;每个车道车辆等待队列的长度矩阵Q和每个车道的车辆密度矩阵D用来描述交叉口的实时交通状况;每个车道的车辆排放浓度矩阵E用来描述交叉口的实时车辆排放。
[0014](b)动作空间Action设计
[0015]交通信号灯的相位选择称为信号灯控制Agent的动作,我们设计了四种动作分别为:(1)南北方向直行(SN
‑
G);(2)南北方向左转(SNL
‑
G);(3)东西方向直行(EW
‑
G);(4)东西方向左转(EWL
‑
G)。
[0016](c)奖励函数Reward设计
[0017]每个智能体的任务是最小化交叉口的拥堵同时尽可能的减少车辆排放。因此,定义的奖励函数分为以下两类:车辆等待时间部分奖励函数和车辆排放部分奖励函数。
[0018]定义时间步t时刻的奖励函数:
[0019]R=kR
E
+(1
‑
k)R
W
[0020]其中,k为权重系数,R
E
表示车辆排放部分奖励函数,R
W
表示车辆等待时间部分奖励函数。
[0021]步骤三:构建合作式多智能体强化学习模型。
[0022]在合作式多智能体强化学习模型中包括四个神经网络分别为个体价值网络,邻近价值网络,全局价值网络和策略网络。模型的输入为路网中各个路口的交通状态,输出信息为四种动作的概率值,并根据动作概率值进行随机抽样选择动作。其中,个体价值网络和邻近价值网络组成局部合作机制,来权衡个体奖励和邻近奖励。全局价值网络属于全局合作机制,以最大化全局奖励。策略价值网络根据局部合作机制和全局合作机制的配合来确定目标智能体的动作。
[0023]步骤四:信号灯控制Agent学习信号灯控制策略;
[0024]将单个信号灯控制Agent的局部观测信息输入个体价值网络,所述信号灯控制Agent会在环境中获取奖励和下一时刻的观测信息,更新所述Agent的个体价值网络参数;将所述信号控制Agent的个体奖励信息和邻近信号控制Agent的奖励信息输入邻近价值网络;为求得所述局部合作因子,将所有信号灯控制Agent的奖励输入全局价值网络来寻找最优的局部合作因子,通过对全局目标进行梯度运算来实现这个双层全局协调,将得到的最优局部合作因子输入策略网络,并在动作空间中选择最合适的动作发送给路网环境,路网执行动作并转移到下一个状态;
[0025]本专利技术的有益效果:
[0026]本专利技术使得路网中的交通信号灯相互合作,根据实时交通信息动态的调节交通信号灯的相位,在缓解交通拥堵的同时尽可能的减少通过交叉口的车辆排放。
[0027]本专利技术不依赖历史交通数据,不依赖先前交通信号灯控制模型,无需人工干预的情况下,信号灯控制Agent通过与环境进行实时交互,感知并作用于环境。信号灯控制Agent根据交叉口的实时交通状况指定信号灯控制策略,通过减少因红灯产生的车辆等待情况,从而最小化路口车辆的等待时间和排放,达到缓解交通拥堵和减少车辆排放的目的,实现
自适应交通信号灯控制。
附图说明
[0028]图1是本专利技术方法的流程示意图;
[0029]图2是本专利技术信号灯控制Agent的动作示意图;
[0030]图3是本专利技术相邻路口的示意图;
[0031]图4是本专利技术合作式多智能体强化学习模型示意图。
具体实施方式
[0032]下面结合附图对本专利技术的具体实施方式做进一步说明。
[0033]本专利技术公开了一种基于合作式多智能体强化学习的交通信号灯控制方法。该方法克服了传统强化学习单独控制各个路口的信号灯,没有考虑它们之间的相关性的缺点,提出了一种双层协调控制策略,通过局部合作机制和全局合作机制对路网中的交通信号灯进行协调控制。同时,该方法将车辆排放因素考虑在内,可以在改善路网交通状态的同时尽可能的减少车辆排放。
[0本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于该方法包括以下步骤:步骤一:构建道路交叉口和交通信号灯的路网模型;步骤二:基于强化学习的交通信号灯控制模型构建;(a)状态空间State设计对于单个交叉口,使用当前信号灯的相位、每个车道车辆等待队列的长度、每个车道的车辆密度以及每个车道的车辆排放浓度来表示状态;(b)动作空间Action设计设计四种动作分别为:南北方向直行、南北方向左转、东西方向直行、东西方向左转;(c)奖励函数Reward设计时间步t时刻的奖励函数:R=kR
E
+(1
‑
k)R
W
其中,k为权重系数,R
E
表示车辆排放部分奖励函数,R
W
表示车辆等待时间部分奖励函数;步骤三:构建合作式多智能体强化学习模型;所述合作式多智能体强化学习模型包括个体价值网络,邻近价值网络,全局价值网络和策略网络;该模型的输入为路网中各个路口的交通状态,输出信息为四种动作的概率值,并根据动作概率值进行随机抽样选择动作;所述合作式多智能体强化学习模型采用了局部合作机制和全局合作机制,其中局部合作机制利用局部合作因子来权衡个体奖励和邻近奖励,全局合作机制通过梯度更新协调因子来最大化全局目标;步骤四:信号灯控制Agent学习信号灯控制策略;将单个信号灯控制Agent的局部观测信息输入个体价值网络,所述信号灯控制Agent在环境中获取奖励和下一时刻的观测信息,更新所述Agent的个体价值网络参数;将所述信号控制Agent的个体奖励信息和...
【专利技术属性】
技术研发人员:任付越,赵晓东,张帆,董伟,赵晓丹,孔亚广,邹洪波,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。