当前位置: 首页 > 专利查询>重庆大学专利>正文

基于最大熵强化学习的自动驾驶汽车决策规划方法技术

技术编号:33712643 阅读:18 留言:0更新日期:2022-06-06 08:48
本发明专利技术涉及一种基于最大熵强化学习的自动驾驶汽车决策规划方法,属于自动驾驶汽车领域。该方法包括:S1:构建基于最大熵强化学习的决策规划模型,该模型包括:状态空间、动作空间、奖励函数、策略函数与评价模型;S2:构建具有交互性的高速公路仿真训练场景:使用二自由度汽车运动学模型描述训练场景中车辆的运动,并利用基于规则的智能决策规划模型控制环境车辆,使环境具有交互特性;S3:训练基于最大熵强化学习的决策规划模型。本发明专利技术利用最大熵强化学习提高了自动驾驶汽车的高速公路决策规划策略的最优性与稳定性。划策略的最优性与稳定性。划策略的最优性与稳定性。

【技术实现步骤摘要】
基于最大熵强化学习的自动驾驶汽车决策规划方法


[0001]本专利技术属于自动驾驶汽车领域,涉及一种基于最大熵强化学习的自动驾驶汽车决策规划方法。

技术介绍

[0002]驾驶员操作不当已经成为交通系统中影响安全的主要因素。作为智能交通运输系统的一环,在改善交通安全方面有着巨大潜力的自动驾驶技术,引起了国内外研究人员的重视。
[0003]由于同时涉及横向与纵向运动,车辆换道行为风险较高、逻辑复杂。当前的决策规划方法主要分为基于规则的、基于优化的与基于学习的。基于规则的方法受限于人工设计的、僵化的规则,换道策略过于保守,并且只适用于特定场景。基于优化的方法将换道决策规划问题看作一个有约束的非线性、非凸优化问题。由于该优化问题求解难度高,该类方法难以满足实时性要求。基于学习的方法可利用驾驶数据,自动生成具有泛化性的驾驶经验,有适应各种场景的潜力。但当前基于学习的决策规划方法的数据利用率与稳定性不足。同时,驾驶数据采集成本高、采集风险大,并且数据难以体现环境车辆与目标车辆间的交互。
[0004]因此,需要一种新的自动驾驶汽车高速公路决策规划方法来解决以上问题。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种基于最大熵强化学习的自动驾驶汽车高速公路决策规划方法,通过仿真训练环境提供的交互性训练数据,提高基于学习的方法的数据利用率、最优性和稳定。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]一种基于最大熵强化学习的自动驾驶汽车高速公路决策规划方法,具体包括以下步骤:
[0008]S1:构建基于最大熵强化学习的决策规划模型,该模型包括:状态空间、动作空间、奖励函数、策略函数与评价模型;
[0009]S2:构建具有交互性的高速公路仿真训练场景:使用二自由度汽车运动学模型描述训练场景中车辆的运动,并利用基于规则的智能决策规划模型控制环境车辆,使环境具有交互特性;
[0010]S3:训练基于最大熵强化学习的决策规划模型。
[0011]进一步,步骤S1中,构建基于最大熵强化学习的决策规划模型,具体包括:
[0012]S11:搭建状态空间S:以关键的环境信息构建状态空间,包括目标车辆的位置、速度和航向角,一定范围内的环境车辆相对目标车辆的相对位置、相对速度及其航向角;状态空间表示环境中可能出现的全部状态。状态是目标车辆对环境的观测,最大熵强化学习模型将获得的状态作为决策规划的基础。
[0013]S12:确定动作空间A:动作空间由车辆加速度与前轮转向角组成,以此控制目标车
辆的移动;动作空间表示最大熵强化学习模型可采取的动作。
[0014]S13:构建奖励函数R:奖励函数是安全指标r
safe
、高效指标r
speed
、舒适指标r
comfort
和合规指标r
rule
四个指标的加权求和,即:
[0015]r=k1r
safe
+k2r
speed
+k3r
comfort
+k4r
rule
[0016]其中,k1、k2、k3、k4为各项的权重,安全指标r
safe
要求目标车辆未发生碰撞或者驶向道路外,高效指标r
speed
要求目标车辆的行驶速度接近期望速度,舒适指标r
comfort
要求车辆的侧向加速度较小,合规指标r
rule
鼓励车辆在最右侧车道行驶并鼓励车辆沿着所在车道中心线行驶;
[0017]S14:给定策略函数π的结构:使用多层感知机拟合策略函数π,其中;策略函数表示状态与动作间的映射关系;
[0018]S15:给定评价模型的结构:评价模型包括两对评价函数与目标评价函数;两个评价函数Q1、Q2与两个目标评价函数Q
tar
‑1、Q
tar
‑2均由相同结构的多层感知机拟合;目标评价函数的作用是提高模型的数据利用率,使用两对评价函数与目标评价函数是为了提高模型的稳定性。评价模型以最大化奖励与策略熵的加权和为评价标准,评估最大熵强化学习模型采取的动作。
[0019]进一步,步骤S2中,构建具有交互性的高速公路仿真训练场景,具体包括以下步骤:
[0020]S21:规定仿真环境中,车辆的运动皆由二自由度的运动学模型描述:
[0021][0022][0023]其中,x、y、v分别是车辆的纵向位置、横向位置、横摆角以及速度,x

、y

、v

分别是纵向位置、横向位置、横摆角以及速度的一阶导数,a是加速度,l
r
、l
f
是车辆的重心到前轴、后轴的距离,β是车辆的重心处的侧偏角,δ是转向角;
[0024]S22:搭建基于规则的环境车辆决策规划模型:为了使环境车辆能对环境的变化主动做出反应,从而使仿真环境具有交互性,赋予环境车辆一种基于规则的智能决策规划模型;
[0025]S23:随机初始化环境车辆在仿真环境中的初始位置、初始速度与期望速度。
[0026]进一步,步骤S3中,训练基于最大熵强化学习的决策规划模型,具体包括:模型初始化,生成交互式训练数据,更新评价模型、策略函数和温度系数,测试模型性能。
[0027]进一步,步骤S3中,训练最大熵强化学习模型,具体包括以下步骤:
[0028]S31:初始化最大熵强化学习的决策规划模型,包括模型的超参数、策略函数与评价函数;
[0029]S32:在仿真训练环境中加入目标车辆,生成交互性的训练数据(s
t
,a
t
,r
t
,s
t+1
),;将训练数据添加至数据库;
[0030]S33:从数据库中提取训练数据,以梯度下降法分别更新评价模型的两个评价函数,下降梯度为:
[0031][0032][0033]其中,M是采样的样本数,|M|表示样本集合的大小,s
t
、a
t
、r
t
分别是车辆在t时刻所处的状态、采取的动作、获得的奖励,Q
i
是第i个评价函数,θ
i
是评价函数Q
i
的参数,y(
·
)是对评价函数值的预测,Q
tar

j
是第j个目标函数,π(
·
|s
t
)表示策略函数,是在下一时刻的状态s
t+1
下,根据策略函数采样的下一时刻的行为;α是温度系数;γ是折扣因子;
[0034]S34:以梯度下降法更新策略函数,下降梯度为:
[0035][0036]其中,ψ是策略函数的参数,是在下一时刻的状态s
t+1
下,根据策略函数采样的下一时刻的行为;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,该方法具体包括以下步骤:S1:构建基于最大熵强化学习的决策规划模型,该模型包括:状态空间、动作空间、奖励函数、策略函数与评价模型;S2:构建具有交互性的高速公路仿真训练场景:使用二自由度汽车运动学模型描述训练场景中车辆的运动,并利用基于规则的智能决策规划模型控制环境车辆,使环境具有交互特性;S3:训练基于最大熵强化学习的决策规划模型。2.根据权利要求1所述的基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,步骤S1中,构建基于最大熵强化学习的决策规划模型,具体包括:S11:搭建状态空间S:以关键的环境信息构建状态空间,包括目标车辆的位置、速度和航向角,一定范围内的环境车辆相对目标车辆的相对位置、相对速度及其航向角;S12:确定动作空间A:动作空间由车辆加速度与前轮转向角组成,以此控制目标车辆的移动;S13:构建奖励函数R:奖励函数是安全指标r
safe
、高效指标r
speed
、舒适指标r
comfort
和合规指标r
rule
四个指标的加权求和,即:r=k1r
safe
+k2r
speed
+k3r
comfort
+k4r
rule
其中,k1、k2、k3、k4为各项的权重,安全指标r
safe
要求目标车辆未发生碰撞或者驶向道路外,高效指标r
speed
要求目标车辆的行驶速度接近期望速度,舒适指标r
comfort
要求车辆的侧向加速度较小,合规指标r
rule
鼓励车辆在最右侧车道行驶并鼓励车辆沿着所在车道中心线行驶;S14:给定策略函数π的结构:使用多层感知机拟合策略函数π;策略函数表示状态与动作间的映射关系;S15:给定评价模型的结构:评价模型包括两对评价函数与目标评价函数;两个评价函数Q1、Q2与两个目标评价函数Q
tar
‑1、Q
tar
‑2均由相同结构的多层感知机拟合;评价模型以最大化奖励与策略熵的加权和为评价标准,评估最大熵强化学习模型采取的动作。3.根据权利要求1所述的基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,步骤S2中,构建具有交互性的高速公路仿真训练场景,具体包括以下步骤:S21:规定仿真环境中,车辆的运动皆由二自由度的运动学模型描述:S21:规定仿真环境中,车辆的运动皆由二自由度的运动学模型描述:其中,x、y、v分别是车辆的纵向位置、横向位置、横摆角以及速度,x

、y

、v

分别是纵向位置、横向位置、横摆角以及速度的一阶导数,a是加速度,l
r
、l
f
是车辆的重心到前轴、后轴的距离,β是车辆的重心处的侧偏角,δ是转向角;
S22:搭建基于规...

【专利技术属性】
技术研发人员:唐小林黄冰刘腾杨丰阁杨凯李佳承
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1