【技术实现步骤摘要】
基于最大熵强化学习的自动驾驶汽车决策规划方法
[0001]本专利技术属于自动驾驶汽车领域,涉及一种基于最大熵强化学习的自动驾驶汽车决策规划方法。
技术介绍
[0002]驾驶员操作不当已经成为交通系统中影响安全的主要因素。作为智能交通运输系统的一环,在改善交通安全方面有着巨大潜力的自动驾驶技术,引起了国内外研究人员的重视。
[0003]由于同时涉及横向与纵向运动,车辆换道行为风险较高、逻辑复杂。当前的决策规划方法主要分为基于规则的、基于优化的与基于学习的。基于规则的方法受限于人工设计的、僵化的规则,换道策略过于保守,并且只适用于特定场景。基于优化的方法将换道决策规划问题看作一个有约束的非线性、非凸优化问题。由于该优化问题求解难度高,该类方法难以满足实时性要求。基于学习的方法可利用驾驶数据,自动生成具有泛化性的驾驶经验,有适应各种场景的潜力。但当前基于学习的决策规划方法的数据利用率与稳定性不足。同时,驾驶数据采集成本高、采集风险大,并且数据难以体现环境车辆与目标车辆间的交互。
[0004]因此,需要一种新的自动驾驶汽车高速公路决策规划方法来解决以上问题。
技术实现思路
[0005]有鉴于此,本专利技术的目的在于提供一种基于最大熵强化学习的自动驾驶汽车高速公路决策规划方法,通过仿真训练环境提供的交互性训练数据,提高基于学习的方法的数据利用率、最优性和稳定。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]一种基于最大熵强化学习的自动驾驶汽车高速公路决策规 ...
【技术保护点】
【技术特征摘要】
1.一种基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,该方法具体包括以下步骤:S1:构建基于最大熵强化学习的决策规划模型,该模型包括:状态空间、动作空间、奖励函数、策略函数与评价模型;S2:构建具有交互性的高速公路仿真训练场景:使用二自由度汽车运动学模型描述训练场景中车辆的运动,并利用基于规则的智能决策规划模型控制环境车辆,使环境具有交互特性;S3:训练基于最大熵强化学习的决策规划模型。2.根据权利要求1所述的基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,步骤S1中,构建基于最大熵强化学习的决策规划模型,具体包括:S11:搭建状态空间S:以关键的环境信息构建状态空间,包括目标车辆的位置、速度和航向角,一定范围内的环境车辆相对目标车辆的相对位置、相对速度及其航向角;S12:确定动作空间A:动作空间由车辆加速度与前轮转向角组成,以此控制目标车辆的移动;S13:构建奖励函数R:奖励函数是安全指标r
safe
、高效指标r
speed
、舒适指标r
comfort
和合规指标r
rule
四个指标的加权求和,即:r=k1r
safe
+k2r
speed
+k3r
comfort
+k4r
rule
其中,k1、k2、k3、k4为各项的权重,安全指标r
safe
要求目标车辆未发生碰撞或者驶向道路外,高效指标r
speed
要求目标车辆的行驶速度接近期望速度,舒适指标r
comfort
要求车辆的侧向加速度较小,合规指标r
rule
鼓励车辆在最右侧车道行驶并鼓励车辆沿着所在车道中心线行驶;S14:给定策略函数π的结构:使用多层感知机拟合策略函数π;策略函数表示状态与动作间的映射关系;S15:给定评价模型的结构:评价模型包括两对评价函数与目标评价函数;两个评价函数Q1、Q2与两个目标评价函数Q
tar
‑1、Q
tar
‑2均由相同结构的多层感知机拟合;评价模型以最大化奖励与策略熵的加权和为评价标准,评估最大熵强化学习模型采取的动作。3.根据权利要求1所述的基于最大熵强化学习的自动驾驶汽车决策规划方法,其特征在于,步骤S2中,构建具有交互性的高速公路仿真训练场景,具体包括以下步骤:S21:规定仿真环境中,车辆的运动皆由二自由度的运动学模型描述:S21:规定仿真环境中,车辆的运动皆由二自由度的运动学模型描述:其中,x、y、v分别是车辆的纵向位置、横向位置、横摆角以及速度,x
’
、y
’
、v
’
分别是纵向位置、横向位置、横摆角以及速度的一阶导数,a是加速度,l
r
、l
f
是车辆的重心到前轴、后轴的距离,β是车辆的重心处的侧偏角,δ是转向角;
S22:搭建基于规...
【专利技术属性】
技术研发人员:唐小林,黄冰,刘腾,杨丰阁,杨凯,李佳承,
申请(专利权)人:重庆大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。