当前位置: 首页 > 专利查询>吉林大学专利>正文

基于多智能体约束策略优化的无信号交叉口协同控制方法技术

技术编号:35864171 阅读:18 留言:0更新日期:2022-12-07 10:55
本发明专利技术属于交通控制技术领域,具体为基于多智能体约束策略优化的无信号交叉口协同控制方法,包括如下两个部分:第一部分:多智能体约束策略优化(MACPO)算法,Actor

【技术实现步骤摘要】
基于多智能体约束策略优化的无信号交叉口协同控制方法


[0001]本专利技术涉及交通控制
,具体为基于多智能体约束策略优化的无信号交叉口协同控制方法。

技术介绍

[0002]自动驾驶技术的应用能够避免人为错误,增加交通安全性、方便残疾人出行并缓解交通拥堵情况,极大地提高未来交通系统的智能化水平。安全性、舒适性与高效性是自动驾驶的功能设计目标。然而,当前自动驾驶技术仍然未具备全场景下的安全驾驶能力,安全性问题急需解决,同时在舒适性与高效性方面仍需进一步改善。道路交叉口是城市地区的典型场景,比高速公路上的自动驾驶更加复杂,更具挑战性。在交叉路口,车辆从不同的交叉路口入口进入,在交叉路口区域交叉其特定的轨迹,并在不同的出口离开交叉路口。车辆之间复杂的冲突关系导致在交叉路口避免碰撞的车辆决策复杂,需要复杂的多智能体协同的自动驾驶设计来保证交通安全,提高交通效率与驾乘舒适性。
[0003]传统自动驾驶决策通常基于形式化或公式化的方法设计,在庞大的解空间中搜索与计算令表征安全、舒适与效率的目标函数值最大化的最优控制量,该方式计算效率欠缺,通常需秒级的求解时间,对控制单元计算性能要求较高,无法匹配自动驾驶应用对控制输出的毫秒级高实时性要求;在高动态变化且高复杂度的交通场景中,由于优化问题的复杂性与计算资源的短缺性,该类基于计算的形式化方法在复杂的交通场景中难以实际应用。为解决传统基于计算的方法在实时性方面的问题,近年来越来越多的研究将深度学习用于自动驾驶领域,但深度神经网络存在只能根据既有数据学习以及无法在与环境交互中更新网络的缺点,少量已知交通场景训练得到的网络无法在未知海量的真实交通环境中保持训练网络时预期的性能。
[0004]强化学习能够通过智能体与环境不断交互来提升当前策略,并通过奖励函数来引导策略的更新;深度强化学习将深度神经网络引入强化学习中,结合神经网络的学习能力与强化学习的决策能力,近几年逐渐被尝试应用于自动驾驶领域,具有广阔的应用前景。然而,当前深度强化学习方法,如PPO(Proximal Policy Optimization)、DDPG(Deep Deterministic Policy Optimization)、A3C(Asynchronous Advantage Actor

Critic)等,均采用的单一奖励函数引导策略更新,无法保障策略满足特定约束,由于强化学习策略探索的随机性,在如交叉口等复杂场景探索新的策略时可能会发生碰撞风险,导致其应用于自动驾驶领域时无法始终满足安全基线,仍然难以被汽车行业广泛采用。例如,已有基于PPO算法的无信号道路交叉口协同控制,利用单一奖励函数来综合表征道路交叉口的效率与安全,导致策略在通行效率与安全性方面博弈,收敛后的神经网络模型性能仍然有10%的交叉口车辆碰撞概率,无法在真实交通场景中实际应用。安全性是自动驾驶的基线,而非与其他性能折衷权衡一个子方面,需设计全新的深度强化学习方法,能够在保障满足设定约束,如安全约束的前提下,以奖励函数最大化为目标更新策略。
[0005]综上,安全性、舒适性与高效性是自动驾驶功能设计追求的目标。当前自动驾驶技
术仍然未具备全场景下的安全驾驶能力,安全性问题急需解决,同时在舒适性与高效性方面仍需进一步改善。道路交叉口是城市地区的典型场景,比高速公路上的自动驾驶更加复杂,更具挑战性。为解决自动驾驶领域传统基于计算的方法由于计算效率低所导致的实时性违背问题,以及基于传统强化学习算法由于未考虑安全约束所导致的安全性违背问题,我们提出一种新型的基于多智能体约束策略优化的无信号交叉口协同控制方法。

技术实现思路

[0006]本部分的目的在于概述本专利技术的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0007]鉴于现有技术中存在的问题,提出了本专利技术。
[0008]因此,本专利技术的目的是提供基于多智能体约束策略优化的无信号交叉口协同控制方法,在实现了交叉口零碰撞的同时,确保通行的高效率与舒适性。
[0009]为解决上述技术问题,根据本专利技术的一个方面,本专利技术提供了如下技术方案:
[0010]基于多智能体约束策略优化的无信号交叉口协同控制方法,其包括如下两个部分:
[0011]第一部分:多智能体约束策略优化(MACPO)算法,Actor

Critic框架的基础上,引入了额外的基于损失函数的critic神经网络,用于保障策略更新时安全约束能够得到满足。MACPO算法主要包括以下两个子步骤:
[0012]步骤1:智能体轨迹采样,在多智能体环境中每个智能体都将独立与环境进行交互,并实时观测当前环境,假设第i个智能体观测到的局部空间为s
i
,MACPO算法收集到的当前策略π
k
下多智能体环境提供的状态空间为S=[s1,s2,...,s
N
]。策略神经网络将状态空间映射为N维动作空间A=[a1,a2,...,a
N
],并将该动作空间后依次分配给环境中的多智能体。多智能体根据获得的动作与环境进行交互,获得新的状态空间,奖励函数与开销函数,以此形成算法与环境交互的闭环,当策略更新次数达到一定程度时中止训练。
[0013]步骤2:策略评估优化,分别使用基于奖励函数与基于损失函数的价值函数来评估当前策略,并利用策略梯度算法更新神经网络。MACPO算法将综合利用搜集到的轨迹来分别更新策略神经网络与基于奖励函数和开销函数的价值神经网络。在更新策略神经网络时本专利技术在信任域理论的基础上提出安全等级的概念,当基于奖励函数的策略更新违背基于开销函数的安全约束时,使策略更新朝着不违背安全约束且使奖励函数值最大的方向进行。
[0014]第二部分:基于多智能体约束策略优化的无信号交叉口协同控制方法,将所提出的MACPO算法应用于道路交叉口协同控制,集中调控交叉口范围内的所有车辆,实现通行的安全性、高效性与舒适性。基于多智能体约束策略优化的无信号交叉口协同控制方法主要包括以下两个子部分:
[0015]步骤1:状态空间与行为空间建模,本专利技术定义多智能体环境中共有8台车,每台车均有自己独立的局部观测空间,包括离开道路交叉口的距离d
i
与当前的车速v
i
。定义全局状态空间为S=[d1,d2,...,d8,v1,v2,...,v8]。多智能体环境的行为空间由每个单独智能体的
局部动作组成,本专利技术将车辆的预期车速作为策略神经网络的输出,因此定义行为空间为A=[v
′1,v
′2....,v
′8]。
[0016]步骤2:奖励函数与开销函数设计,本专利技术的奖励函数与多智能体的车速、加速度以及是否有安全事故发生相联系,用奖励函数来引导策略向使多智能体环境安全、高效与舒适的方向更新;开销函本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多智能体约束策略优化的无信号交叉口协同控制方法,其特征在于,包括如下两个部分:第一部分:多智能体约束策略优化(MACPO)算法,Actor

Critic框架的基础上,引入了额外的基于损失函数的critic神经网络,用于保障策略更新时安全约束能够得到满足;MACPO算法主要包括以下两个子步骤:步骤1:智能体轨迹采样,在多智能体环境中每个智能体都将独立与环境进行交互,并实时观测当前环境,假设第i个智能体观测到的局部空间为s
i
,MACPO算法收集到的当前策略π
k
下多智能体环境提供的状态空间为S=[s1,s2,...,s
N
]。策略神经网络将状态空间映射为N维动作空间A=[a1,a2,...,a
N
],并将该动作空间后依次分配给环境中的多智能体。多智能体根据获得的动作与环境进行交互,获得新的状态空间,奖励函数与开销函数,以此形成算法与环境交互的闭环,当策略更新次数达到一定程度时中止训练。步骤2:策略评估优化,分别使用基于奖励函数与基于损失函数的价值函数来评估当前策略,并利用策略梯度算法更新神经网络。MACPO算法将综合利用搜集到的轨迹来分别更新策略神经网络与基于奖励函数和开销函数的价值神经网络。在更新策略神经网络时本发明在信任域理论的基础上提出安全等级的概念,当基于奖励函数的策略更新违背基于开销函数的安全约束时,使策略更新朝着不违背安全约束且使奖励函数值最大的方向进行。第二部分:基于多智能体约束策略优化的无信号交叉口协同控制方法,将所提出的MACPO算法应用于道路交叉口协同控制,集中调控交叉口范围内的所有车辆,实现通行的安全性、高效性与舒适性;基于多智能体约束策略优化的无信号交叉口协同控制方法主要包括以下两个子部分:步骤1:状态空间与行为空间建模,本发明定义多智能体环境中共有8台车,每台车均有自己独立的局部观测空间,包括离开道路交叉口的距离d
i

【专利技术属性】
技术研发人员:赵睿李云高菲高镇海张天瑶秦贵和
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1