System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及交通信号控制,特别是涉及基于多智能体强化学习和路口重要性的交通信号控制方法。
技术介绍
1、传统的交通信号控制(tsc)方法依赖于固定的时间表和历史数据,无法适应实时交通波动。尽管tsc的优化控制方法在建模和信号调节方面有效,但其参数易受波动因素的影响。
2、现有的自适应交通信号控制(atsc)中的多智能体强化学习(marl)通常将多个交叉口的协同控制建模为一个合作马尔可夫博弈,以优化所有交叉口的平均交通效率。通过实时交通变化动态优化信号时序,提高交通效率;多个rl智能体联合控制所有交叉口的交通信号,以提升整体网络效率。马尔可夫博弈中的每个智能体都有自己的奖励,这虽然提高了训练效率,但也带来了混合博弈的挑战;并且其中纳什均衡(ne)与全局最优性不一致,限制了性能的提高;平等对待交叉口不足以满足真实atsc场景的需求。在真实交通场景中,交叉口的重要性因位置和周围环境等静态特性而异。现有方法忽视了交叉口重要性变化所带来的现实因素,如位置和环境,导致优化交通效率时未能均衡考虑所有交叉口。例如,医院或消防站附近的交叉口需要更高的关注度,以确保交通顺畅并应对时间紧迫的紧急情况。忽视不同交叉口的异质重要性可能会影响特殊交叉口的交通效率。
3、因此,需要一种考虑路口重要性优先级的交通信号控制方法。
技术实现思路
1、有鉴于此,本专利技术提供了基于多智能体强化学习和路口重要性的交通信号控制方法,构建针对路口不同重要优先级的交通信号控制的多智能体强化学习框架,提
2、为此,本专利技术提供了以下技术方案:
3、基于多智能体强化学习和路口重要性的交通信号控制方法,包括:
4、基于交叉口优先级构建cm-mg模型,为交通网格中所有智能体设置决策序列;
5、通过gnsd-light网络为决策序列中每个智能体选择最佳动作;
6、所述gnsd-light网络,包括:
7、通过观测表示层获取环境信息;
8、通过前驱动作表示层提取每个智能体的历史动作特征,使成员智能体理解并协作前驱的决策;
9、通过q输出层顺序输出每个智能体的最佳动作;
10、所述观测表示层,包括:
11、通过基于相对位置编码的简洁空间处理模块,提取空间特征;
12、通过残差图注意力网络整合邻域观测特征。
13、进一步地,所述基于交叉口优先级构建cm-mg模型,为交通网格中所有智能体设置决策序列,包括:
14、交通网格中重要的交叉口智能体称为队长节点,基于自身的观测做出决策;
15、所述队长节点具有最高的决策优先级,且作为成员节点的前驱节点;
16、交通网格中普通交叉口智能体称为成员节点,基于自身的观测信息以及相应前驱节点的决策来进行判断和决策;
17、将所有队长节点设为搜索的初始节点集,通过bfs算法获得决策序列。
18、进一步地,所述通过基于相对位置编码的简洁空间处理模块,提取空间特征:
19、通过多层感知器对交叉口的原始观测数据进行特征提取,生成输入嵌入;
20、将输入嵌入与维度为din的位置嵌入相加,得到用于残差图注意力网络的观测嵌入:
21、
22、其中,w和b是要学习的权重矩阵和偏置向量;位置嵌入是从transformer的相对位置编码导出的向量。
23、进一步地,所述通过残差图注意力网络整合邻域观测特征,包括:
24、通过gat层和剩余网络增强环境感知和多智能体协作:
25、
26、其中,h(t)是观测嵌入,l是gat层的数量,并且每个层的输入是来自前一层的输出;
27、残差模块将每个gats的输出进行组合:
28、
29、进一步地,所述前驱动作表示层,包括:
30、通过平均场模块平衡并整合每个成员受到的多个前驱影响;
31、通过基于相对位置编码的简洁时间处理模块提取时间信息。
32、进一步地,所述通过平均场模块平衡并整合每个成员受到的多个前驱影响,包括:
33、通过将平均向量乘以前驱动作向量矩阵,将agent的各种前驱动作向量合并为单个一维向量;其中的每个元素都是素数,以确保来自不同方向的唯一影响;前驱动作向量:
34、
35、其中,是主体τi的前驱的集合。
36、进一步地,所述通过基于相对位置编码的简洁时间处理模块提取时间信息,包括:
37、通过mlp对智能体τi的前驱历史动作向量进行特征提取,得到原始动作嵌入,形成具有时间信息的动作嵌入:
38、
39、其中,w和b是要学习的权重矩阵和偏置向量,位置嵌入pe是基于历史动作的时间顺序获得的向量矩阵。
40、进一步地,所述q输出层,包括:
41、来自观察表示模块的智能体τi的观察表示作为查询被输入到注意模块;
42、来自前驱动作表示模块的前驱历史动作表示作为键和值被输入到注意模块;
43、注意力模块根据历史前驱动作的重要性和相关性自适应地分配权重,优化决策。
44、进一步地,所述注意力模块根据历史前驱动作的重要性和相关性自适应地分配权重,以优化决策,包括:
45、在注意模块周围部署残差连接,输出为:
46、
47、经历线性层处理,导出每个动作的q值分布:
48、
49、其中,w和b是要学习的权重矩阵和偏置向量;
50、通过使用最大化操作并根据q值选择每个智能体的最佳动作。
51、本专利技术的优点和积极效果:
52、本专利技术方法使用自回归框架,使共享网络能够从队长交叉口开始,按照cm-mg的预定义顺序为多个交叉口做出顺序决策;gnsd-light采用rgats,结合了图注意力网络和残差网络,并引入了简洁的空间处理和时间处理模块,从交叉口观测和前驱动作中提取时空特征,获得充分的状态表示;通过经典的混合矩阵博弈对cm-mg的合理性进行了定性验证。提高了特殊交叉路口的通行效率,进而提高整体交通网络的通行效率。
本文档来自技高网...【技术保护点】
1.基于多智能体强化学习和路口重要性的交通信号控制方法,其特征在于,包括:
2.根据权利要求1所述基于多智能体强化学习和路口重要性的交通信号控制方法,其特征在于,所述基于交叉口优先级构建CM-MG模型,为交通网格中所有智能体设置决策序列,包括:
3.根据权利要求1所述的基于多智能体强化学习和路口重要性的交通信号控制方法,其特征在于,所述通过基于相对位置编码的简洁空间处理模块,提取空间特征:
4.根据权利要求1所述的基于多智能体强化学习和路口重要性的交通信号控制方法,其特征在于,所述通过残差图注意力网络整合邻域观测特征,包括:
5.根据权利要求1所述的基于多智能体强化学习和路口重要性的交通信号控制方法,其特征在于,所述前驱动作表示层,包括:
6.根据权利要求1所述的基于多智能体强化学习和路口重要性的交通信号控制方法,其特征在于,所述通过平均场模块平衡并整合每个成员受到的多个前驱影响,包括:
7.根据权利要求1所述的基于多智能体强化学习和路口重要性的交通信号控制方法,其特征在于,所述通过基于相对位置编码的简洁时间
8.根据权利要求1所述的基于多智能体强化学习和路口重要性的交通信号控制方法,其特征在于,所述Q值输出层,包括:
9.根据权利要求8所述的基于多智能体强化学习和路口重要性的交通信号控制方法,其特征在于,所述注意力模块根据历史前驱动作的重要性和相关性自适应地分配权重,以优化决策,包括:
...【技术特征摘要】
1.基于多智能体强化学习和路口重要性的交通信号控制方法,其特征在于,包括:
2.根据权利要求1所述基于多智能体强化学习和路口重要性的交通信号控制方法,其特征在于,所述基于交叉口优先级构建cm-mg模型,为交通网格中所有智能体设置决策序列,包括:
3.根据权利要求1所述的基于多智能体强化学习和路口重要性的交通信号控制方法,其特征在于,所述通过基于相对位置编码的简洁空间处理模块,提取空间特征:
4.根据权利要求1所述的基于多智能体强化学习和路口重要性的交通信号控制方法,其特征在于,所述通过残差图注意力网络整合邻域观测特征,包括:
5.根据权利要求1所述的基于多智能体强化学习和路口重要性的交通信号控制方法,其特征在于...
【专利技术属性】
技术研发人员:张程伟,刘婉婷,王祺超,周凯玲,李一鸿,
申请(专利权)人:大连海事大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。