交通信号控制方法、装置及系统和存储介质制造方法及图纸

技术编号：43303178 阅读：0 留言：0更新日期：2024-11-12 16:18

本发明专利技术属于道路交通技术领域，公开一种交通信号控制方法、装置及系统和存储介质，通过在线学习的多智能体顺序决策过程来建模多交叉口交通信号控制问题，遵照基于多智能体优势分解定理的异构智能体镜像学习理论设计算法，优化多智能体信用分配，结合Transformer实现整体算法框架。并且，简化了智能体的观测和奖励函数设计，在此基础上，进一步扩展出新型的可选择性多智能体策略理论，通过强化学习智能体自行学习选择策略决策方案，通过Transformer提供多智能体强化学习同时决策和顺序决策方案，多智能体强化学习选择方法可以根据当前状态自动选择最优方案，来进一步提升交通信号控制的效果和策略的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及道路交通，特别是涉及一种交通信号控制方法、装置及系统和存储介质。

技术介绍

1、随着城市化建设进程的加快和出行需求的增加，人们对于智能化交通信号控制技术也有了较高的要求，如何解决上述的困难，满足城市管理系统的智能化建设需求迫在眉睫。多智能体强化学习的训练和决策过程中主要面临信用分配、策略非稳定性、智能体之间的复杂交互作用、样本效率低下等问题，这些问题都将会导致算法最后的交通信号控制效果不理想。这种控制效果的不理想可能是由于其中一个问题主导引起的，也可能是多种问题联合作用的结果。

2、随着社会经济的持续发展和城市化进程的加速建设，交通拥堵已经演变成为一个日益严峻且具有挑战性的社会问题，当前的交通信号控制系统在应对日益复杂的交通状况方面仍存在一些挑战。研究者开始关注交通信号控制领域自适应控制的难点，并且，多交叉口信号灯的协调控制也是当前面临的一个重要而具有挑战性的问题。在实际交通场景中，每个交叉口的车流量、道路情况以及通行需求常常呈现多样性和动态变化，这使得传统的交通信号控制策略难以适应复杂的交通环境，实现良好的协调控制。

3、多智能体强化学习作为一种自学习的决策算法，在交通信号控制任务中，展示出了无与伦比的优势，然而，现有的方法在多智能体系统的决策过程中，仍然面临着算法训练的非平稳性、多智能体之间复杂的影响交互导致算法难以学习并收敛、样本学习效率低等问题，在交通信号控制任务中，关键是如何明确每个交叉口交通信号控制所做出贡献的大小，以及多个交叉口之间如何相互影响和协调，从而达到整个区域控制效果的提升，缓解整体的交通拥堵。

技术实现思路

1、提供了本专利技术以解决现有技术中存在的上述问题。因此，需要一种交通信号控制方法、装置及系统和存储介质，将孪生神经网络结合相似度预测思想，通过重新建模多交叉口交通信号控制问题，改进多智能体强化学习模型算法，包括深度神经网络结构、训练模式等，对当前的交通信号控制方法进行优化，选用最新的基准平台，在公开的交通模拟器和数据集上，完成对交通信号智能控制任务。

2、根据本专利技术的第一方案，提供了一种交通信号控制方法，所述方法包括：

3、基于多智能体优势分解定理来确定联合策略；

4、基于所述联合策略来确定异构智能体镜像学习框架；

5、构建多交叉口交通信号控制模型，所述多交叉口交通信号控制模型包括多交叉口智能体的集合联合观测空间联合动作空间联合奖励函数r：转移概率函数p：以及折扣因子γ∈[0，1)，联合观测空间是交叉口局部观测空间的乘积，联合动作空间是交叉口智能体局部动作空间的乘积，第i个智能体的奖励ri为交叉口处的压力负值，交叉口处的压力定义为交通流向压力总和的绝对值，第i个交叉口处的压力表示为pi，第i个交叉口的交通信号控制器被抽象为在多交叉口智能体的集合中的第i个智能体，奖励公式表示为ri＝-pi；

6、利用所述异构智能体镜像学习框架对所述多交叉口交通信号控制模型进行求解，以得到最终策略。

7、根据本专利技术的第二技术方案，提供一种交通信号控制装置，所述装置包括处理器，所述处理器被配置为：

8、基于多智能体优势分解定理来确定联合策略；

9、基于所述联合策略来确定异构智能体镜像学习框架；

10、构建多交叉口交通信号控制模型，所述多交叉口交通信号控制模型包括多交叉口智能体的集合联合观测空间联合动作空间联合奖励函数r：转移概率函数p：以及折扣因子γ∈[0，1)，联合观测空间是交叉口局部观测空间的乘积，联合动作空间是交叉口智能体局部动作空间的乘积，第i个智能体的奖励ri为交叉口处的压力负值，交叉口处的压力定义为交通流向压力总和的绝对值，第i个交叉口处的压力表示为pi，第i个交叉口的交通信号控制器被抽象为在多交叉口智能体的集合中的第i个智能体，奖励公式表示为ri＝-pi；

11、利用所述异构智能体镜像学习框架对所述多交叉口交通信号控制模型进行求解，以得到最终策略。

12、根据本专利技术的第三技术方案，提供一种交通信号控制系统，所述系统包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序以实现如上所述的方法。

13、根据本专利技术的第四技术方案，提供一种存储有指令的非暂时性计算机可读存储介质，当所述指令由处理器执行时，执行如上所述的方法。

14、根据本专利技术各个方案的交通信号控制方法、装置及系统和存储介质，其至少具有以下技术效果：

15、1)将多交叉口交通信号协调控制建模为多智能体序列决策过程。基于异构智能体镜像学习对交通信号控制进行建模，使得交通信号控制任务成为一个多智能体序列决策过程，并设计为在线学习强化学习方法，结合transformer实现，transformer的自注意力机制可以很好地捕获多智能体之间的高级交互关系，自回归的解码器很自然地实现了顺序决策过程，统一的transformer实现可以通过统一的损失函数直接训练整体算法。使用车辆的排队信息来做处理，精简了状态和奖励函数设计。

16、2)将切换控制策略、顺序决策和同时决策三者结合为一个强化学习算法过程，并理论上证明了算法的可求解性、收敛性等性质。除了全局切换控制策略的智能体，无论是顺序决策还是同时决策方案，整体的算法结构为transformer实现。使用transformer设计了共享参数的集中训练分散执行的交通信号控制方法，然后，额外设计了强化学习全局智能体，使用切换控制策略来学习，从而达到三者统一于一个强化学习算法过程的目标。所提出的多智能体强化学习选择方法可以证明添加了额外切换控制策略的强化学习全局智能体之后，该多智能体系统仍然收敛于原合作型多智能体强化学习的一个解，并且具有策略提升性质。

本文档来自技高网...

【技术保护点】

1.一种交通信号控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，基于多智能体优势分解定理来确定联合策略，包括：

3.根据权利要求1所述的方法，其特征在于，在所述异构智能体镜像学习框架中，一个异构智能体的漂移泛函由一个映射组成，所述映射表示为

4.根据权利要求1所述的方法，其特征在于，构建序列模型，在利用所述异构智能体镜像学习框架对所述多交叉口交通信号控制模型进行求解时，将多智能体输入观测序列和多智能体输出动作序列之间的映射作为序列建模任务，利用所述序列模型执行序列建模任务。

5.根据权利要求4所述的方法，其特征在于，所述序列模型包括编码器和解码器；

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，对于任何状态和所有联合动作全局智能体的策略通过如下公式给出：

8.一种交通信号控制装置，其特征在于，所述装置包括处理器，所述处理器被配置为：

9.一种交通信号控制系统，其特征在于：所述系统包括：</p>

10.一种存储有指令的非暂时性计算机可读存储介质，当所述指令由处理器执行时，执行根据权利要求1至7中任一项所述的方法。

...

【技术特征摘要】

1.一种交通信号控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，基于多智能体优势分解定理来确定联合策略，包括：

3.根据权利要求1所述的方法，其特征在于，在所述异构智能体镜像学习框架中，一个异构智能体的漂移泛函由一个映射组成，所述映射表示为

5...

【专利技术属性】
技术研发人员：王智文，张海鹏，王宇航，陈宥铭，
申请(专利权)人：广西科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人