当前位置: 首页 > 专利查询>浙江大学专利>正文

基于性格选择的自动驾驶汽车决策规划方法技术

技术编号:38208506 阅读:12 留言:0更新日期:2023-07-21 16:58
本发明专利技术公开了一种基于性格选择的自动驾驶汽车决策规划方法。本发明专利技术提出了基于性格选择的单智能体决策规划算法SelectSVO(Select Social Value Orientation);针对传统算法只优化自身利益的问题,引入了性格偏好(Social Value Orientation)的概念,并基于性格偏好设计了动态奖励函数;针对强化学习训练时所需要的数据空间较大的问题,提出了基于线段向量的表示方法;针对多源感知信息的关联问题,提出了基于DeepSet模型和注意力机制的网络结构。本发明专利技术通过协调自身利益和他车利益的冲突问题,以提高整个交通流的性能、提升安全效能。提升安全效能。提升安全效能。

【技术实现步骤摘要】
基于性格选择的自动驾驶汽车决策规划方法


[0001]本专利技术属于自动驾驶
,具体涉及一种用于城市、乡村公路的基于性格选择的自动驾驶汽车规划方法。

技术介绍

[0002]自动驾驶汽车是一种集成环境感知、决策规划、运动控制、语音交互和无线通信等技术的智能综合系统。它被认为将对交通系统和人类出行方式产生革命性影响,显著提高社会生产效率,是构建安全、便捷、高效、绿色、经济的现代综合交通体系的重要抓手之一。决策规划是自动驾驶汽车中的关键环节,对汽车智能化等级产生重要影响,备受业界广泛关注,并具有重要的研究意义。
[0003][0004]而自动驾驶汽车有望提高交通安全性、减少交通拥堵、提高交通效率,无需人类驾驶,为人们带来更多的舒适和便利。自动驾驶汽车受到业界广泛关注,同时得益于计算芯片、传感器技术和人工智能技术的发展,自动驾驶汽车在近十年内得以快速发展并从概念步入实践阶段。自动驾驶汽车有望解决现有的交通问题,但仍然面临许多挑战,其中决策规划技术是关键性技术需要攻克。
[0005]目前的自动驾驶汽车决策规划技术缺乏智能化,让其像人类一样进行思考仍具有挑战性。当前,自动驾驶汽车难以应对复杂的城市道路交通场景,因为这些场景中道路结构复杂、交通流动态变化,且交通参与者的行为也具有随机性。大多数决策策略都是基于人为规则设计的,如有限状态机、场景规则等,这些规则具有良好的可解释性,但均为人工设计。然而,这些规则的定义和修改都十分困难,设定驾驶规则需要不断测试和调整,重构或微调整个逻辑框架时常需要耗费大量的人力和时间成本来维护。
[0006]目前自动驾驶车辆尚未大规模商业应用,大多数的仿真或实车测试都是从单个自动驾驶车辆视角来考虑问题,而将环境中的其他车辆考虑为人类驾驶车辆,因此单车自动驾驶决策规划设计是目前主流的方案。现有的单车驾驶算法只考虑优化自身性能,但在高密度车流的复杂场景下,这样的设计方法导致了整体交通流效率的下降,因此本专利技术引入性格偏好的概念设计了基于性格选择的单车驾驶算法,在优化自身性能的同时提高了整体的交通流效率。

技术实现思路

[0007]为了解决
技术介绍
中的问题,本专利技术提供了一种用于城市、乡村公路的基于性格选择和强化学习的决策规划方法。
[0008]本专利技术的技术方案如下:
[0009]第一步:使用部分可观测马尔科夫决策过程对自动驾驶的行为决策过程进行建模,是一个八元组,其中代表智能体的状态空间,代表动作空间,P代表状态间的转移概率分布,代表奖励函数,代表状态空间,Ω代表条件观测
概率分布,γ代表奖励折扣因子。
[0010]第二步:根据感知模块感知到感知范围内的其他车辆的轨迹信息,以及道路信息包括道边和道路中心线,进行感知信息处理,用以表示状态空间和观测状态空间。采用线段向量的方式对感知信息进行表示,具体的,基于线段向量的方法将地图信息预处理为线段向量,包含了道路信息和车辆的轨迹信息等;与原始数据和鸟瞰栅格地图等其他方法相比,基于线段向量的方法在保留重要信息的同时显著的减少了神经网络需要的参数量以及强化学习过程所需要的储存空间开销。
[0011]第三步:构建基于性格选择的奖励函数。奖励函数的设计关乎驾驶任务的成功率以及训练的效率,通过合理地设计奖励函数来鼓励高效的驾驶行为并保证将事故风险降至最低。
[0012]原始的奖励函数只关注优化自车的性能例如效率和安全性等,从而忽略了他车的性能,为了解决车辆之间的利益冲突问题,本专利技术引入了性格偏好的概念。具体来说,性格偏好被定义为自动驾驶车辆的驾驶行为的特定模式,例如,激进或保守的驾驶风格。通过对奖励函数的修改使其能够在决策过程中考虑到这些性格偏好,并等价于考虑自动驾驶车辆的行为对其他车辆造成的成本,其中包括时间成本、任务成本、安全成本等。本专利技术通过最小化这些成本来降低与其他车辆的利益冲突,并同时满足自动驾驶车辆的任务要求,为此在原始的奖励函数基础上提出了基于性格偏好的奖励函数。
[0013]第四步,设计一个基于多头注意力机制和DeepSet模型的网络SelectSVO,整个网络可分成两个模块:特征提取模块和输出动作与选择性格模块。SelectSVO以全局路径信息、车道信息和车辆轨迹信息作为输入,对输出信息进行特征提取并得到特征信息包括自车特征、他车特征、道路信息特征和类型特征;多头注意力机制网络以特征信息作为输入,其中自车特征作为Query,自车特征、他车特征、道路信息特征和类型特征作为Keys,自车特征、他车特征、道路信息特征作为Values,并输出与自车相关的特征向量;该特征向量经由多层感知网络(MLP)得到了性格特征信息,并与特征向量拼接,拼接后的信息经过MLP网络,并最终输出控制车辆与选择车辆性格的指令。
[0014]本专利技术的有益效果:
[0015]1、本专利技术利用深度强化学习来解决复杂的场景的问题。
[0016]2、本专利技术利用注意力机制网络结合多源感知信息。
[0017]3、本专利技术利用基于性格偏好的心理学概念解决提升驾驶性能。
附图说明
[0018]图1为本专利技术用于自动驾驶系统的框架图。
[0019]图2为本专利技术用于决策规划模块的示意图。
具体实施方式
[0020]下面结合附图对本专利技术的技术方案进行具体说明。
[0021]如图1所示,概括了设计的自动驾驶汽车系统框架,分为包含了上层信息模块、端到端决策规划模块和控制执行模块。上层信息模块包括周围车辆的轨迹信息、道路信息和全局路径规划信息,端到端决策规划模块作为策略π接收上层信息后输出动作a给控制执行
模块,进而控制车辆运动。
[0022]第一步:构建部分可观测马尔科夫决策过程
[0023]自动驾驶的决策规划过程是典型的时间序列决策过程,可以被表示为部分可观测马尔科夫决策过程。部分可观测马尔科夫决策过程是一个八元组,
[0024]其中代表智能体的观测状态空间(智能体表示自身车辆),代表动作空间(即为所有可能的动作集合,动作为加速度、转向、性格值,性格值为奖励函数当中的φ),P代表状态间的转移概率分布,代表奖励函数,代表状态空间,Ω代表条件观测概率分布,γ代表奖励折扣因子。均根据仿真环境间接给出。
[0025]在某一时刻智能体处于状态并基于条件观测概率Ω(o|s)收到一个观测值并且根据策略π(a|o)做出动作并以状态转移概率转移到了新的状态根据奖励函数R(s,a)收到一个奖励值如式(1)所示:
[0026][0027]其中,为累积奖励;为期望累积奖励,s
t
根据状态转移概率分布得到,a
t
根据策略π得到。
[0028]通过SelectSVO网络模型表示策略π,网络训练的目标函数如式(1)所示,智能体的目的为找到最优策略π
*
,该策略能够在每一个时间步骤中选择合理的动作以最大化自己能得到的期望累积奖励。本专利技术使用基于策略梯度的深度强化学习算法训练网络。
[0029]在S本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于性格选择的自动驾驶汽车决策规划方法,其特征在于,包括以下步骤:S1:使用部分可观测马尔科夫决策过程对自动驾驶汽车的行为决策过程进行建模,构建的部分可观测马尔科夫决策过程为八元组,具体为其中:表示智能体的观测状态空间:通过感知模块感知车辆的道路信息和车辆的轨迹信息,采用线段向量的方法处理感知模块获得的感知信息,以表示观测状态空间;表示所有可能的动作集合,所有可能的动作a包括加速度、转向、性格值φ;表示基于性格偏好的奖励函数,通过在原始奖励函数基础上引入性格值φ得到基于性格偏好的奖励函数;π表示策略,通过SelectSVO网络模型表示策略π,根据策略π确定性格值φ;P表示状态间的转移概率分布;表示状态空间;Ω表示条件观测概率分布;γ表示奖励折扣因子;S2:根据构建的部分可观测马尔科夫决策过程描述自动驾驶汽车与环境的交互过程;S21:将车辆实时的观测状态o输入训练后的策略π中,根据策略π输出动作a,并根据条件观测概率分布Ω转移到新的观测状态o

,再根据策略π输出新的动作a

,通过动作指导驾驶行为和性格选择;S22:循环步骤S21,直至驾驶任务结束。2.根据权利要求1所述的基于性格选择的自动驾驶汽车决策规划方法,其特征在于,所述步骤S1中,采用线段向量的方法表示观测状态空间,所述的观测状态空间其中:χ
s
为道路信息集合,具体为其中centerline为道路中心线,sideline为道边线,route为全局路径;道路信息集合中的一个点集点集中一个点的信息表示为ξ
j
=[p
j
,width,i,j],其中p
j
=(x,y,ψ)表示车辆的坐标信息(x,y)与朝向角ψ,width表示点集的道路宽度,i表示点ξ
j
属于点集j表示该点是对应点集中的第j个点;χ
v
为车辆的轨迹信息集合,车辆的轨迹信息集合包含有环境中n辆车的轨迹信息,具体为车辆的轨迹信息集合χ
v
中一辆车的轨迹信息表示为点集中一辆车的轨迹信息表示为点集horizon为车辆的轨迹长度;点集中一个点的信息表示为其中p

j
=(x

,y

,ψ

,speed)表示轨迹点的位置(x

,y

)、朝向角以及速度信息,i表示点ζ
j
属于第i辆车的轨迹即点集j表示该点属于轨迹中的第j个点。3.根据权利要求1所述的基于性格选择的自动驾驶汽车决策规划方法,其特征在于,通过在原始奖励函数R

基础上引入性格值φ得到基于性格偏好的奖励函数具体为:
其中,为自车根据所有车的原始奖励函数得到的奖励函数;φ为性格值,为自车的奖励和他车的奖励的权衡比重,φ∈[0,1];当φ趋近于0时,基于性格偏好的奖励函数将退化为原始奖励函数,并表现出自私的驾驶策略,当φ趋近于1时,自车将更加考虑他车获得的奖励,进而表现出合作的驾驶策略;r为自车奖励,r
j
为他车奖励,所有车辆根据原始奖励函数R

得到某一时刻的自车奖励r和他车奖励[r0,r1,...,r

【专利技术属性】
技术研发人员:薛锦涛刘而云
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1