一种基于深度强化学习的区域边界主交叉口信号控制方法技术

技术编号:30038623 阅读:22 留言:0更新日期:2021-09-15 10:35
本发明专利技术公开了一种基于深度强化学习的区域边界主交叉口信号控制方法,包括步骤:将路网分为关键区域与外围区域两大部分;基于Sumo搭建仿真平台,导入真实的公交出行数据,合理设置社会车流量,借助仿真获取关键区域MFD;建立关键区域与外围区域之间的交通流动态守恒方程;基于步骤S3建立的交通流动态守恒方程,结合模型预测控制MPC与遗传算法,求取最优边界控制参数;在求得最优边界控制参数的情况下,进行深度强化学习,得到最优的区域边界主交叉口信号控制方案,使得实际转移车流量与预期转移车流量之间的差距最小。本发明专利技术实现了城市路网的边界交叉口信号智能控制,动态的调节各区域间的进出比,以达到缓解交通拥堵的目的。的。的。

【技术实现步骤摘要】
一种基于深度强化学习的区域边界主交叉口信号控制方法


[0001]本专利技术涉及智能交通的
,尤其涉及到一种基于深度强化学习的区域边界主交叉口信号控制方法。

技术介绍

[0002]随着经济的快速发展,城市交通拥堵问题变得非常严重,造成了巨大的经济损失,尤其是在中国。道路交叉口的短时交通需求具有时变性、非线性、复杂性等特征,很难建立起精确的数学模型,简单的定时控制、感应控制方法难以适应交通流量的动态、复杂、快速变化,控制效果不好。智能交通的发展,利用人工智能知识,加强对城市交通信号的有效控制,可以有效缓解城市拥堵。
[0003]目前存在的边界控制方案:以两个交通区域为研究对象的一种最优边界控制方法,即模型预测控制法(MPC),构建一个预测控制模型,最后以城市不同拥挤程度下MFD的稳定性作为分析指标,证明该方法比反馈调节算法更优。
[0004]目前存在的信号控制方案:一种基于信号灯组的交通信号强化学习控制方法,其每个流向的信号灯组为一个RL智能体,并采用Q学习算法根据交通流状态自动优化相位结构及顺序。
[0005]虽然基于MFD理论的边界控制已有较为成熟的发展历程,但也存在以下不足:以往的研究多是确定控制方案使路网运行效率最大化,并不从系统角度考虑寻找一个策略使路网运行效率在研究时段内整体最高。

技术实现思路

[0006]本专利技术的目的在于克服现有技术的不足,提供一种基于深度强化学习的区域边界主交叉口信号控制方法,以提升城市道路对居民出行的服务能力为导向,围绕基于MFD边界控制理论,开展相应调研、仿真路网搭建、数据采集处理、人工智能算法设计与优化,旨在实现城市路网的边界交叉口信号智能控制,动态的调节各区域间的进出比,以达到缓解交通拥堵的目的。本专利技术有利于对交通信息资源的管理和利用,提升城市道路基础设施、路况信息的服务质量,为社会公众提供安全、优质、便捷、高效的运输服务。
[0007]为实现上述目的,本专利技术所提供的技术方案为:
[0008]一种基于深度强化学习的区域边界主交叉口信号控制方法,包括以下步骤:
[0009]S1、将路网分为关键区域与外围区域两大部分;
[0010]S2、基于Sumo搭建仿真平台,导入真实的公交出行数据,合理设置社会车流量,借助仿真获取关键区域MFD;
[0011]S3、建立关键区域与外围区域之间的交通流动态守恒方程;
[0012]S4、基于步骤S3建立的交通流动态守恒方程,结合模型预测控制MPC与遗传算法,求取最优边界控制参数;
[0013]S5、在求得最优边界控制参数的情况下,进行深度强化学习,得到最优的区域边界
主交叉口信号控制方案,使得实际转移车流量与预期转移车流量之间的差距最小。
[0014]进一步地,所述步骤S3建立的状态平衡方程如下:
[0015]n
ij
(k+1)=n
ij
(k)+d
ij
(k)

m
ij
(k)*μ
ij
(k)
ꢀꢀ
(1)
[0016]n
ii
(k+1)=n
ii
(k)+d
ii
(k)

m
ji
(k)*μ
ji
(k)

m
ii
(k)
ꢀꢀ
(2)
[0017]式(1)和式(2)中,n
ij
(k+1)和n
ii
(k+1)分别表示k+1时刻区域i内的目的地是区域j的车辆数和区域i内的目的地是区域i的车辆数,n
ij
(k)和n
ii
(k)分别表示k时刻区域i内的目的地是区域j的车辆数和区域i内的目的地是区域i的车辆数,d
ij
(k)和d
ii
(k)分别表示k

1到k时间段内区域i产生的目的地是区域j的车辆需求和区域i产生的目的地是区域j的车辆需求,m
ij
(k)和m
ji
(k)分别表示k

1到k时间段内区域i到区域j的转移流和区域j到区域i的转移流,μ
ij
(k)和μ
ji
(k)分别表示k

1到k时间段内区域i到区域j转移流的控制比率和区域j到区域i转移流的控制比率,m
ii
(k)表示k

1到k时间段内区域i到区域i的完成流,区域i和区域j为两个不同的区域。
[0018]进一步地,所述步骤S4求取最优边界控制参数的具体过程如下:
[0019]S4

1)获取当前的区域的车辆状态n
ij
(k)和n
ii
(k),同时获得已假设的区域之间的车辆需求d
ij
(k)和d
ii
(k);
[0020]S4

2)通过以下公式获得当前时刻k控制时长T时间内的区域转移流值:
[0021][0022][0023]G(N
i
(k))=A1*N
i3
(k)+A2*N
i2
(k)+A3N
i
(k)+A4;
[0024]其中,N
i
(k)表示K时刻区域i的累计车辆数,G(N
i
(k))表示k时刻区域i的总的输出量,A1,A2,A3,A4为常数,由实际路网决定;
[0025]S4

3)初始化M个优化方案,每个方案中含有K个控制参数(即预测时域为K),:U
kM
,U
k+1M
,U
k+2M
,

,U
k+K

1M
,U
kM
表示第M个方案中k时刻的边界控制参数;
[0026]S4

4)将M个方案输入交通流动态守恒方程预测出关键区域路网未来K时域内的交通状态;
[0027]S4

5)将未来K时域内的交通状态(目标值)作为适应度,通过对原种群进行选择,交叉和变异得到新一代种群;
[0028]S4

6)重复步骤4)至步骤5),在满足设置的迭代次数后停止迭代;
[0029]S4

7)选取最优方案(U
k*
,U
k+1*
,U
k+2*
,

U
k+K

1*
)的第一步即U
k*
作为k时刻的最优边界控制参数;
[0030]S4

8)得到执行U
k*
之后区域的车辆状态n
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的区域边界主交叉口信号控制方法,其特征在于,包括以下步骤:S1、将路网分为关键区域与外围区域两大部分;S2、基于Sumo搭建仿真平台,导入真实的公交出行数据,合理设置社会车流量,借助仿真获取关键区域MFD;S3、建立关键区域与外围区域之间的交通流动态守恒方程;S4、基于步骤S3建立的交通流动态守恒方程,结合模型预测控制MPC与遗传算法,求取最优边界控制参数;S5、在求得最优边界控制参数的情况下,进行深度强化学习,得到最优的区域边界主交叉口信号控制方案,使得实际转移车流量与预期转移车流量之间的差距最小。2.根据权利要求1所述的一种基于深度强化学习的区域边界主交叉口信号控制方法,其特征在于,所述步骤S3建立的状态平衡方程如下:n
ij
(k+1)=n
ij
(k)+d
ij
(k)

m
ij
(k)*μ
ij
(k)
ꢀꢀꢀꢀꢀꢀꢀ
(1)n
ii
(k+1)=n
ii
(k)+d
ii
(k)

m
ji
(k)*μ
ji
(k)

m
ii
(k)
ꢀꢀ
(2)式(1)和式(2)中,n
ij
(k+1)和n
ii
(k+1)分别表示k+1时刻区域i内的目的地是区域j的车辆数和区域i内的目的地是区域i的车辆数,n
ij
(k)和n
ii
(k)分别表示k时刻区域i内的目的地是区域j的车辆数和区域i内的目的地是区域i的车辆数,d
ij
(k)和d
ii
(k)分别表示k

1到k时间段内区域i产生的目的地是区域j的车辆需求和区域i产生的目的地是区域j的车辆需求,m
ij
(k)和m
ji
(k)分别表示k

1到k时间段内区域i到区域j的转移流和区域j到区域i的转移流,μ
ij
(k)和μ
ji
(k)分别表示k

1到k时间段内区域i到区域j转移流的控制比率和区域j到区域i转移流的控制比率,m
ii
(k)表示k

1到k时间段内区域i到区域i的完成流,区域i和区域j为两个不同的区域。3.根据权利要求2所述的一种基于深度强化学习的区域边界主交叉口信号控制方法,其特征在于,所述步骤S4求取最优边界控制参数的具体过程如下:S4

1)获取当前的区域的车辆状态n
ij
(k)和n
ii
(k),同时获得已假设的区域之间的车辆需求d
ij
(k)和d
ii
(k);S4

2)通过以下公式获得当前时刻k控制时长T时间内的区域转移流值:2)通过以下公式获得当前时刻k控制时长T时间内的区域转移流值:G(N
i
(k))=A1*N
i3
(k)+A2*N
i2
(k)+A3N
i
(k)+A4;其中,N
i
(k)表示K时刻区域i的累计车辆数,G(N
i
(k))表示k时刻区域i的总的输出量,A1,A2,A3,A4为常数,由实际路网决定;S4

3)初始化M个优化方案,每个方案中含有K个控制参数:U
kM
,U
k+1M
,U
k+2M


,U
k+K

1M
,U
kM
表示第M个方案中k时刻的边界控制参数;S4

4)将M个方案输入交通流动态守恒方程预测出关键区域路网未来K时域内的交通状态;S4

5)将未来K时域内的交通状态作为适应度,通过对原种群进行选择,交叉和变异得
到新一代种群;S4

6)重复步骤S4

4)至步骤S4

5),在满足设置的迭代次数后停止迭代;S4

7)选取最优方案(U
k*
,U
k+1*
,U
k+2*


U
k+K

1*
)的第一步即U
k*
作为k时刻的最优边界控制参数;S4

8)得到执行U
k*
之后区...

【专利技术属性】
技术研发人员:王银银金雷杨大鹏傅惠周家诠林梓潼欧锦赛黄立荣吴嘉明
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1