一种针对稀疏路网的基于Q学习的交通信号控制方法技术

技术编号:34881035 阅读:17 留言:0更新日期:2022-09-10 13:37
本发明专利技术公开了一种针对稀疏路网的基于Q学习的交通信号控制方法,包括以下步骤:路网的建立和车辆数据的生成;建立Q函数的数学表达式;在得到Q函数的数学表达式之后,利用迭代的方法求得Q值;使SUMO模拟平台仿真,使得Q值收敛模拟结束。本方法具有适应道路车流动态变化的自适应控制策略,更加充分的压榨路网性能。同时,基于稀疏路网的特征,假定交叉路口之间的车流数据是相互独立的,这样便可以针对每个交叉路口进行单独的自适应调节,而不需要考虑路口与路口之间的数据共享问题,从最终实现了分布式的信号控制策略,减少了算力资源的需求。求。求。

【技术实现步骤摘要】
一种针对稀疏路网的基于Q学习的交通信号控制方法


[0001]本专利技术涉及一种交通信号控制方法,具体为一种针对稀疏路网的基于Q学 习的交通信号控制方法,属于交通控制


技术介绍

[0002]随着私家车保有量的逐年上升,城市交通拥堵问题也变得日益严重,可 能的缓解逐渐严重的城市拥堵问题的方式是大力修建公共基础设施如地铁和 公交站台或者不断拓展现有路网,但是这种方式往往建设周期长同时成本高 昂。另一种较好的缓解方式是充分压榨现有道路的吞吐能力,最容易想到的 方式就是针对交叉路口的信号控制算法进行优化。同时,现在的城市交叉路 口的配时方式大都基于定时控制的方法,而这种方法固定配时信号的不足, 如难以根据变化的车流量实时调节信号灯的配时策略等缺点。因此对该类方 法进行替换或者改进具有十分重要的现实意义。
[0003]
技术实现思路

[0004]本专利技术的目的就在于为了解决问题而提供一种针对稀疏路网的基于Q学 习的交通信号控制方法,通过恰当的选取奖励函数,自适应的调节信号策略 并最终达到提升路网吞吐率的目的。
[0005]本专利技术通过以下技术方案来实现上述目的:一种针对稀疏路网的基于Q 学习的交通信号控制方法,包括以下步骤:
[0006]步骤1)路网的建立和车辆数据的生成;
[0007]步骤2)建立Q函数的数学表达式;
[0008]步骤3)在得到Q函数的数学表达式之后,利用迭代的方法求得Q值;
[0009]步骤4)使SUMO模拟平台仿真,使得Q值收敛模拟结束。<br/>[0010]作为本专利技术的进一步技术方案:所述步骤1中,路网的建立和车辆数据 的生成,包括:
[0011]路网和车辆数据的生成采用xml文件的形式定义,分别命名为net.xml 和rou.xml,其中net.xml文件表示道路网络信息文件,rou.xml文件表示车 辆路由信息,即车辆流动信息文件;
[0012]路网信息的文件采用SUMO自带的绘图工具进行绘制然后保存并最终生成 net.xml文件,rou.xml文件自定义车流数据,包括车辆类型和起始点信息。
[0013]作为本专利技术的进一步技术方案:所述步骤2中,建立Q函数的数学表达 式,包括:
[0014]某个交叉道口的压力具体定义为:该交叉路口进入车道的车辆排队数目 总数目和离开车道的交叉道口排队总数目,即p(i,t)=n
in
(i,t)+n
out
(i,t), 其中:p(i,t)为在t时刻交叉路口i的压强,n
in
(i,t)为t时刻进入i交叉道 口车道的车辆排队数目,n
out
(i,t)为t时刻出交叉道口的车辆排队数目;
[0015]交叉道口为i,则路口i的压强为p(i)=3+2

1=4,每个智能体/信号控 制器的奖励函数为r=

p;
[0016]求得预期回报,即Q函数:
[0017]q(s,a)=R(s,a)+γ∑
s

∈s
P(s

|s,a)∑
a

∈A
π(a

|s

)q(s

,a

)
ꢀꢀ
(1)
[0018]作为本专利技术的进一步技术方案:所述步骤3中,在得到Q函数的数学表 达式之后,利用迭代的方法求得Q值,包括:式(1)写成如下的迭代式:
[0019]Q(St,At)

Q(St,At)+α[Rt+1+γmaxQ(St+1,At+1)

Q(St,At)];
[0020]其中,α为学习率,γ为贴现因子,R为奖励函数。
[0021]作为本专利技术的进一步技术方案:所述步骤4中,使SUMO模拟平台仿真, 使得q值收敛模拟结束,包括:使用Simulation of Urban Mobility作为模 拟平台,路网文件net.xml和车流数据rou.xml作为输入,当所有状态的q 值收敛模拟结束。
[0022]本专利技术的有益效果是:
[0023]1)针对稀疏路网的交叉路口进行建模,建立了交叉路口拥堵通畅的状态 模型,并最终将交通信号控制问题抽象为一个马尔科夫决策过程,同时通过 设计建立回报函数的数值模型,利用Q学习算法针对稀疏交叉路口求解最优 策略并利用这一最优策略调节交叉道口的信号指示灯;
[0024]2)通过直觉和实际观察发现,稀疏路网的交叉路口之间的交通流是互相 独立的但是未必是同分布的,因此针对每个交叉路口单独设立智能体(agent) 进行调节,采用去中心化的学习方式,使学习时间大大缩短。
附图说明
[0025]图1为本专利技术的方法组织过程示意图;
[0026]图2为本专利技术实施例建立的一个4*4的双交叉路口的稀疏路网示意图;
[0027]图3为本专利技术压力的示意图。
具体实施方式
[0028]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而 不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0029]实施例一
[0030]一种针对稀疏路网的基于Q学习的交通信号控制方法,包括以下步骤:
[0031]第一:路网的建立和车辆数据的生成。
[0032]其包括:路网和车辆数据的生成采用xml文件的形式定义,分别命名为 net.xml和rou.xml,其中net.xml文件表示道路网络信息文件,rou.xml文 件表示车辆路由信息,即车辆流动信息文件;
[0033]路网信息的文件采用SUMO自带的绘图工具进行绘制然后保存并最终生成 net.xml文件,rou.xml文件自定义车流数据,包括车辆类型和起始点信息。
[0034]第二:建立Q函数的数学表达式。
[0035]其包括:某个交叉道口的压力具体定义为:该交叉路口进入车道的车辆 排队数目总数目和离开车道的交叉道口排队总数目,即p(i,t)=n
in
(i,t)+ n
out
(i,t),其中:p(i,t)为在t时刻交叉路口i的压强,n
in
(i,t)为t时刻进 入i交叉道口车道的车辆排队数目,n
out
(i,t)为t时刻出交叉道口的车辆排队 数目;
[0036]交叉道口为i,则路口i的压强为p(i)=3+2

1=4,每个智能体/信号控 制器的奖励函数为r=

p;
[0037]求得预期回报,即Q函数:
[0038]q(s,a)=R(s,a)+γ∑
s

∈s
P(s
...

【技术保护点】

【技术特征摘要】
1.一种针对稀疏路网的基于Q学习的交通信号控制方法,其特征在于:包括以下步骤:步骤1)路网的建立和车辆数据的生成;步骤2)建立Q函数的数学表达式;步骤3)在得到Q函数的数学表达式之后,利用迭代的方法求得Q值;步骤4)使SUMO模拟平台仿真,使得Q值收敛模拟结束。2.根据权利要求1所述的一种针对稀疏路网的基于Q学习的交通信号控制方法,其特征在于:所述步骤1中,路网的建立和车辆数据的生成,包括:路网和车辆数据的生成采用xml文件的形式定义,分别命名为net.xml和rou.xml,其中net.xml文件表示道路网络信息文件,rou.xml文件表示车辆路由信息,即车辆流动信息文件;路网信息的文件采用SUMO自带的绘图工具进行绘制然后保存并最终生成net.xml文件,rou.xml文件自定义车流数据,包括车辆类型和起始点信息。3.根据权利要求1所述的一种针对稀疏路网的基于Q学习的交通信号控制方法,其特征在于:所述步骤2中,建立Q函数的数学表达式,包括:某个交叉道口的压力具体定义为:该交叉路口进入车道的车辆排队数目总数目和离开车道的交叉道口排队总数目,即p(i,t)=n
in
(i,t)+n
out
(i,t),其中:p(i,t)为在t时刻交叉路口i的压强,n
in
(i,t)为t时刻进入i交叉道口车道的车辆排队数目,n
out
(i,t)为t时刻出交叉道口的车辆排队数目;交叉道...

【专利技术属性】
技术研发人员:龙水
申请(专利权)人:上海评驾科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1