当前位置: 首页 > 专利查询>东南大学专利>正文

基于图元学习和深度强化学习的大规模交通灯信号控制方法技术

技术编号:37635666 阅读:23 留言:0更新日期:2023-05-20 08:55
本发明专利技术公开了一种基于图元学习和深度强化学习的大规模交通灯信号控制方法,使用交通灯的相位和进入车道的队列长度作为状态值,交通灯的相位作为输出值,将交通路网建模成图结构数据,每个交通灯都为一个节点,并对该路网中每个节点提取多跳邻居节点形成以该节点为中心的子图,再使用基于局部子图的图元学习方法进行深度强化学习训练,使智能体能够根据路网实时状况,进行智能信号控制;本发明专利技术适用于一千个以上交通灯的大规模场景,利用基于局部子图的图元学习的优势,将小规模路网中训练的模型迁移至大规模交通灯的场景,减小了大规模路网的训练难度,提高了训练效率。提高了训练效率。提高了训练效率。

【技术实现步骤摘要】
基于图元学习和深度强化学习的大规模交通灯信号控制方法


[0001]本专利技术属于智能交通控制
,主要涉及了一种基于图元学习和深度强化学习的大规模交通灯信号控制方法。

技术介绍

[0002]交通信号控制是一个重要而具有挑战性的现实问题,其目的是通过协调车辆在十字路口的运动来最小化车辆的行驶时间。现在城市里所广泛使用的交通信号控制系统都依赖人工设计,这种方法配时效率比较低,不够灵活。深度强化学习这类机器学习算法越来越受到关注,多种深度多智能体强化学习算法不断被提出,以优化给定场景中多个智能体的对抗与合作。深度多智能体强化学习被研究用于智能交通信号控制,这类方法灵活,不需要依赖人工配时。目前用于交通信号控制的深度强化学习模型大多基于DQN框架,比如IG

RL、CoLight、PressLight、FRAP、MPLight。选择合适的状态定义和奖励定义是强化学习用于交通信号控制的重要环节,所选择的状态量要能准确快速地反应交通路网的情况,经常使用的状态值有队列长度、等待时间、交通灯相位等。需要找到能反应智能体学习目标的因素作为奖励函数,奖励函数的设计常常考虑队列长度、等待时间、吞吐量等。动作定义通常考虑选择一个交通灯相位,基于DQN框架的模型会根据对应交通灯相位的各个动作的Q值选取动作。为了让智能体充分捕捉路网的结构信息,一些模型采用了图神经网络算法,将路网表示成图结构数据,CoLight把每个交叉口都用一个节点表示,用GAT来考虑邻居交叉口的时空影响。
[0003]这些技术大多只考虑小规模的交通路网场景,难以用于大规模的场景,CoLight可以用于196个交通灯的场景,但未考虑一千以上交通灯的场景,在大规模的多交叉口环境中,交叉口数量庞大,路网复杂,难以训练,智能体更加难以学会合作交流,学习效率大大降低。MPLight考虑了一千个以上交通灯的场景,但是没有考虑将小规模路网训练的模型转移到大规模路网上训练来提高训练效率,减小训练难度。此外,运用图神经网络的模型都把交通路网作为整图来处理,在大规模的场景下,在整图上直接采用图神经网络不能让智能体充分捕捉复杂大路网的结构信息。

技术实现思路

[0004]本专利技术正是针对现有技术中深度强化学习模型难以用于大规模交通路网场景的问题,提供一种基于图元学习和深度强化学习的大规模交通灯信号控制方法,考虑使用交通灯的相位和进入车道的队列长度作为状态值,交通灯的相位作为输出值,将交通路网建模成图结构数据,每个交通灯都为一个节点,并对该路网中每个节点提取多跳邻居节点形成以该节点为中心的子图,再使用基于局部子图的图元学习方法进行深度强化学习训练,使智能体能够根据路网实时状况,进行智能信号控制;本专利技术适用于一千个以上交通灯的大规模场景,利用基于局部子图的图元学习的优势,将小规模路网中训练的模型迁移至大规模交通灯的场景,减小了大规模路网的训练难度,提高了训练效率。
[0005]为了实现上述目的,本专利技术采取的技术方案是:基于图元学习和深度强化学习的大规模交通灯信号控制方法,包括如下步骤:
[0006]S1:分别对小规模交通路网和大规模交通路网构建图结构数据G=(V,E),V表示节点集合,E表示边集合;对两种交通路网图结构数据中的每个节点提取第1跳到第L跳的邻居节点,形成以该节点为中心的子图;
[0007]S2:设置超参数,搭建双深度Q网络,所述双深度Q网络由L层GraphSAGE层和一层全连接层构成;
[0008]S3:定义离散控制器对应交通灯底层的控制信号,控制器的动作指令对应交通灯的相位,设计状态值,设计奖励函数;
[0009]S4:使用基于局部子图的图元学习方法在小规模交通路网上进行深度强化学习训练,得到训练后的模型;
[0010]S5:将步骤S4中在小规模交通路网上训练的模型转移到大规模交通路网上,继续用基于局部子图的图元学习方法进行深度强化学习训练,实现交通信号灯的控制。
[0011]作为本专利技术的一种改进,所述步骤S1中的节点为交通路网中的交通灯,若两个交通灯有道路连接,则在图结构数据中对应这两个交通灯的节点之间有无向边连接;以每个节点i为中心节点n
center(i)
提取第1跳到第L跳邻居节点,形成以该节点为中心的子图U
i
=(V
i
,E
i
),同时获得该中心节点在所在子图节点集合u
i
中的索引index
i

[0012]作为本专利技术的一种改进,所述步骤S2的双深度Q网络中,初始化内环参数θ
inner
,内环目标参数外环参数θ
meta
和外环目标参数置时间步数t
step
为0,初始化ε

greedy算法中ε值,初始化经验回放池D,设置经验回放池上限D
max

[0013]作为本专利技术的一种改进,所述步骤S3的状态值设置为该智能体所控制的交通灯的相位和该交通灯路口进入车道的队列长度;奖励函数设置为交通灯路口所有进入车道的队列长度之和的相反数,即其中r
i
表示智能体i的奖励,是交叉口i进入车道的集合,q(l)表示车道l的队列长度。
[0014]作为本专利技术的另一种改进,所述步骤S4具体包括:
[0015]S41:路网中每个交叉口都由一个智能体控制,每个智能体是参数共享的,收集小规模路网的交通数据,对交通数据进行处理,生成交通路网中各个交通灯的状态值s={s1,s2,

,s
i


},其中表示智能体i也即i节点的状态值,e是节点状态值的特征维数;根据小规模路网子图集合{U1,U2,

,U
k


},得到输入节点集合{u1,u2,

,u
k


}以及对应的状态集合其中u
k
表示第k个子图的节点集合对每个子图U
k
,累加计算出前k

1个子图{U1,U2,

,U
k
‑1}的节点数之和sum
k
=n1+n2+

+n
k
‑1,其中n
i
表示子图U
i
的节点数之和,接着把该子图的中心节点n
center(k)
∈u
k
在所在子图节点集合u
k
中的索引index
k
加上sum
k
,得到该中心节点在所有输入节点集合{u1,u2,

,u
k


}中的索引将子图状态值和子图集合{U1,U2,

,U
k


}输入双深度Q网络,经过L层GraphSAGE层前向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于图元学习和深度强化学习的大规模交通灯信号控制方法,其特征在于,包括如下步骤:S1:分别对小规模交通路网和大规模交通路网构建图结构数据G=(V,E),V表示节点集合,E表示边集合;对两种交通路网图结构数据中的每个节点提取第1跳到第L跳的邻居节点,形成以该节点为中心的子图;S2:设置超参数,搭建双深度Q网络,所述双深度Q网络由L层GraphSAGE层和一层全连接层构成;S3:定义离散控制器对应交通灯底层的控制信号,控制器的动作指令对应交通灯的相位,设计状态值,设计奖励函数;S4:使用基于局部子图的图元学习方法在小规模交通路网上进行深度强化学习训练,得到训练后的模型;S5:将步骤S4中在小规模交通路网上训练的模型转移到大规模交通路网上,继续用基于局部子图的图元学习方法进行深度强化学习训练,实现交通信号灯的控制。2.如权利要求1所述的基于图元学习和深度强化学习的大规模交通灯信号控制方法,其特征在于:所述步骤S1中的节点为交通路网中的交通灯,若两个交通灯有道路连接,则在图结构数据中对应这两个交通灯的节点之间有无向边连接;以每个节点i为中心节点n
center(i)
提取第1跳到第L跳邻居节点,形成以该节点为中心的子图U
i
=(V
i
,E
i
),同时获得该中心节点在所在子图节点集合u
i
中的索引index
i
。3.如权利要求2所述的基于图元学习和深度强化学习的大规模交通灯信号控制方法,其特征在于:所述步骤S2的双深度Q网络中,初始化内环参数θ
inner
,内环目标参数外环参数θ
meta
和外环目标参数置时间步数t
step
为0,初始化ε

greedy算法中ε值,初始化经验回放池D,设置经验回放池上限D
max
。4.如权利要求3所述的基于图元学习和深度强化学习的大规模交通灯信号控制方法,其特征在于:所述步骤S3的状态值设置为该智能体所控制的交通灯的相位和该交通灯路口进入车道的队列长度;奖励函数设置为交通灯路口所有进入车道的队列长度之和的相反数,即其中r
i
表示智能体i的奖励,是交叉口i进入车道的集合,q(l)表示车道l的队列长度。5.如权利要求4所述的基于图元学习和深度强化学习的大规模交通灯信号控制方法,其特征在于:所述步骤S4具体包括:S41:路网中每个交叉口都由一个智能体控制,每个智能体是参数共享的,收集小规模路网的交通数据,对交通数据进行处理,生成交通路网中各个交通灯的状态值s={s1,s2,

,s
i
,

},其中表示智能体i也即i节点的状态值,e是节点状态值的特征维数;根据小规模路网子图集合{U1,U2,

,U
k
,

},得到输入节点集合{u1,u2,

,u
k
,

}以及对应的状态集合其中u
k
表示第k个子图的节点集合对每个子图U
k
,累加计算出前k

1个子图{U1,U2,

,U
k
‑1}的节点数之和sum
k
=n1+n2+

+n
k
‑1,其中n
i
表示子图U
i
的节点数之和,接着把该子图的中心节点n
center(k)
∈u
k
在所在子图节点集合u
k
中的索引index
k
加上sum
k
,得到该中心节点在所有输入
节点集合{u1,u2,

,u
k
,

}中的索引将子图状态值和子图集合{U1,U2,

,U
k
,

}输入双深度Q网络,经过L层GraphSAGE层前向传播得到所有输入节点的变换后特征层前向传播得到所有输入节点的变换后特征其中一层GraphSAGE的前向传播表达式如...

【专利技术属性】
技术研发人员:张亚周志成张辉
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1