一种基于强化学习的动态最大压交通信号控制方法技术

技术编号：43912301 阅读：4 留言：0更新日期：2025-01-03 13:19

本发明专利技术涉及一种基于强化学习的动态最大压交通信号控制方法，属于交通技术领域。该方法包括交通流量数据收集和实时交通状态观测；建立动态交通压力参数和上下游压力动态关联的动态最大压交通信号控制方法；建立基于强化学习的动态最大压交通信号控制模型；仿真环境与参数设定及训练和测试动态最大压交通信号控制模型；动态最大压交通信号配时优化策略。本发明专利技术结合数据驱动的方法和理论控制模型的优势，基于具有高度自适应特性的深度强化学习技术来优化最大压控制模型。本发明专利技术克服了最大压信号控制模型仅以单一压力参数作为压力权重和交叉口上下游压力关联的考虑不足，模型对复杂多变的交通状况适应性更强。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于强化学习的动态最大压交通信号控制方法，属于交通。

技术介绍

1、随着机动车与非机动车保有量的持续增加，道路拥堵的交通状态已逐渐呈现常态化。采用先进的交通信号控制手段调节交通流运行的管控技术是缓解交通拥堵、提高出行效率、助力碳达峰与碳中和的重要途径。最大压交通信号控制是一种先进的分布式信号控制方法，它能够有效防止排队溢出，确保车辆能够有效且流畅地在网络中通行，同时最大化路网吞吐量。然而，现有的最大压交通信号控制大多只考虑了单一交通压力参数作为最大压控制器的输入，且对相邻路口压力关联的考虑不足，使得最大压信号控制难以适应复杂多变的交通状况。

2、目前人工智能算法如强化学习是解决复杂城市交通网络交通信号灯控制的一种很有前途的数据驱动方法。因此，为了解决最大压现有的局限性问题，本专利技术结合数据驱动的方法和理论控制模型的优势，建立动态交通压力参数和上下游压力动态关联的动态最大压交通信号控制模型，利用具有高度自适应特性的深度强化学习技术来优化模型。现有基于强化学习的交通信号控制方法得到的控制策略通常用神经网络来表示，由于神经网络泛化能力的问题，如训练得到的模型不进行额外的调整，直接将在模拟环境中离线学习的强化学习策略应用到现实世界中是不可取的，本专利技术结合理论控制模型的优势，使用强化学习去优化最大压控制模型，最终的控制策略由优化后的最大压控制模型得到。

技术实现思路

1、本专利技术要解决的技术问题是提供一种基于强化学习的动态最大压交通信号控制方法，用于进一

2、为了实现上述目的，本专利技术采用了如下技术方案：

3、本专利技术提供一种基于强化学习的动态最大压交通信号控制方法，包括以下步骤：

4、步骤1：收集交通流量数据；

5、步骤2：建立动态交通压力参数和上下游压力动态关联的动态最大压交通信号控制方法；

6、步骤3：建立基于强化学习的动态最大压交通信号控制模型；

7、步骤4：设定仿真环境与参数，完成基于强化学习的动态最大压交通信号控制模型训练。

8、进一步地，所述交通流量数据用于模型训练；

9、进一步地，所述步骤2包括：

10、步骤2.1：基于可变元胞传输模型，根据自由流密度、拥塞流密度和路段长度，划分出四类动态交通压力参数，表示为：

11、

12、

13、

14、

15、其中，为拥塞流密度的压力；为拥塞流密度与自由流密度组合的压力；为结合路段长度下的拥塞流密度的压力；为结合路段长度下的拥塞流密度与自由流密度组合的压力；为拥塞流密度压力；为自由流密度压力；，，表示压力种类；为路段长度；为时间；，为路段编号；

16、步骤2.2：根据上下游相邻交叉口压力动态关联，用上下游关联参数来表征相邻交叉口是否关联，的取值为0和1，其中，0表示不关联，1表示关联；

17、步骤2.3：采用固定相位相序，建立动态交通压力参数和上下游压力动态关联的动态最大压交通信号控制方法，在每个信号周期结束时，根据每个相位的压力占比计算各相位绿灯时间。

18、进一步地，所述步骤2.3，具体描述如下：

19、首先计算压力权重，在每个时间时，控制器根据所选交通压力参数及上下游关联参数来计算压力权重：

20、

21、其中，和为交通压力参数；为压力种类；，，为路段编号；为从路段到路段的车流比例，为起始路段为的所有下游路段的集合；

22、计算车流压力，以最大压压力权重与饱和流率的乘积来表示车流压力，即：

23、

24、计算相位压力，为相位编号，每个相位包含若干个车流，因此相位压力等于相位内所包含的所有车流压力之和：

25、

26、其中，表示相位内从到转向车流；

27、根据每个相位的压力占比计算各相位绿灯时间为：

28、

29、其中，，分别为相位和相位内所包含的所有车流压力之和；为节点编号；，为相位编号；为信号周期；为相位集合；

30、为保证行人过街，设置最小绿灯时间为，同时设置最大绿灯时间为，则相位绿灯时间最终表示为：

31、。

32、进一步地，所述步骤3包括：

33、步骤3.1：强化学习智能体，包括状态、动作和奖励的设计；

34、步骤3.2：建立基于强化学习的动态最大压交通信号控制模型，包括时空特征提取模块、深度q网络（dqn）动作决策模块和值分解混合网络模块。

35、进一步地，所述步骤3.1包括：

36、所述动作的设计具体为将划分出的四类动态交通压力参数和上下游关联参数的离散组合作为强化学习动作，通过dqn动作决策出交通压力参数和关联参数之后，将输入到所述动态交通压力参数和上下游压力动态关联的动态最大压交通信号控制方法中，输出各相位绿灯时间；

37、所述状态的设计具体为所述状态包括当前交叉口每个进口道排队车辆数，进口道车辆密度，当前交叉口出口道车辆密度，上一动作和交叉口编号，状态表示为一个状态向量state={,,,,}；

38、所述奖励的设计具体为所述奖励为相邻时间步的交叉口排队车辆数与交叉口吞吐量的组合：

39、

40、其中，为在时刻状态下交叉口执行动作后获得的奖励，为时刻下一周期的持续时间，为交叉口进口道总排队车辆数，为交叉口车辆吞吐量，为权重系数。

41、进一步地，所述步骤3.2包括：

42、所述时空特征提取模块，由图注意力网络gat和门控循环单元gru组成串联而成，将各交叉口的状态特征输入到所述时空特征提取模块，输出包含邻近交叉口和历史信息的新的交叉口状态特征，具体为：

43、所述图注意力网络gat具体构建为：

44、输入特征矩阵x，形状为n×f，n为交叉口个数，f为交叉口状态维度；对于每个交叉口a及相邻交叉口b，对应的状态向量为和，计算交叉口a和相邻交叉口b之间的注意力系数为：

45、

46、其中，为注意力机制，是一个可学习的参数向量；t表示矩阵转置；leakyrelu为激活函数；是一个可学习的权重向量；||表示矩阵拼接操作；

47、使用softmax函数对注意力系数进行归一化，得到相邻交叉口b对交叉口a的注意力权重为：

48、

49、其中，为交叉口a和相邻交叉口b之间的注意力系数，为交叉口a和相邻交叉口c之间的注意力系数；exp为自然指数函数；是交叉口a的相邻交叉口集合；c为交叉口编号；

50、将交叉口a的所有相邻交叉口的特征进行加权求和，得到交叉口a的新特本文档来自技高网...

【技术保护点】

1.一种基于强化学习的动态最大压交通信号控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于强化学习的动态最大压交通信号控制方法，其特征在于，所述步骤2包括：

3.根据权利要求2所述的一种基于强化学习的动态最大压交通信号控制方法，其特征在于，所述步骤2.3，具体描述如下：

4.根据权利要求1所述的一种基于强化学习的动态最大压交通信号控制方法，其特征在于，所述步骤3包括：

5.根据权利要求4所述的一种基于强化学习的动态最大压交通信号控制方法，其特征在于，所述步骤3.1包括：

6.根据权利要求4所述的一种基于强化学习的动态最大压交通信号控制方法，其特征在于，所述步骤3.2包括：

7.根据权利要求1所述的一种基于强化学习的动态最大压交通信号控制方法，其特征在于，所述步骤4包括：

8.根据权利要求7所述的一种基于强化学习的动态最大压交通信号控制方法，其特征在于，所述步骤4.3包括：

【技术特征摘要】

1.一种基于强化学习的动态最大压交通信号控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于强化学习的动态最大压交通信号控制方法，其特征在于，所述步骤2包括：

3.根据权利要求2所述的一种基于强化学习的动态最大压交通信号控制方法，其特征在于，所述步骤2.3，具体描述如下：

4.根据权利要求1所述的一种基于强化学习的动态最大压交通信号控制方法，其特征在于，所述步骤3包括：

5....

【专利技术属性】
技术研发人员：李冰，李宏，陆大志，张灵，殷炬元，赵刚，何欣东，杨欣宇，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人