当前位置: 首页 > 专利查询>吉林大学专利>正文

考虑道路坡度影响的近端策略优化经济性跟车控制方法技术

技术编号:39754448 阅读:24 留言:0更新日期:2023-12-17 23:53
本发明专利技术公开了一种考虑道路坡度影响的近端策略优化经济性跟车控制方法,包括:搭建近端策略优化网络模型;根据道路的坡度特征

【技术实现步骤摘要】
考虑道路坡度影响的近端策略优化经济性跟车控制方法


[0001]本专利技术属于自动驾驶
,涉及一种自动驾驶车辆跟车驾驶控制方法,具体涉及一种考虑道路坡度影响的近端策略优化经济性跟车控制方法


技术介绍

[0002]车辆的跟随驾驶是出现频率很高的驾驶情况,而且是自动驾驶领域研究的热点之一

在提高驾驶舒适性

缓解交通路况压力和降低交通事故发生率等方面都有着出众的能力

[0003]目前已有众多基于模型的传统控制算法在车辆跟随问题中发挥了优秀的表现

首先比例

积分

微分
(PID)
控制器可以根据自车与前车的速度差

相对距离以及自车瞬时速度与两车相对距离之间的关系切换不同的驾驶策略,基于
PID
的跟车控制器不仅优于人工驾驶,并且有着良好的瞬时响应性能

在此基础上,例如基于粒子群等的优化算法被用来对
PID
控制器的参数针对不同的目标进行优化,使得
PID
控制器在不同的交通工况中的驾驶性能得到了不同程度的提升

模型预测控制理论在此领域也得到了广泛的应用,其可以实现针对行驶安全性

乘坐舒适性

燃油经济性等多目标设计控制策略,利用滚动优化的方式,使得被控车辆符合多个约束条件的限制,同时可以考虑到驾驶员风格等个性化驾驶需求实现车辆跟随行

[0004]深度强化学习算法作为人工智能算法的代表算法之一,在包括自动驾驶内的多种应用领域中都实现了良好的性能表现

在使用深度强化学习的自动驾驶跟车行驶应用中,针对车辆跟随问题,基于增强
Q
学习算法,建立了马尔科夫决策过程模型,根据车辆跟随问题中的特点设计了独立决策驾驶策略;基于
Actor

Critic
的无模型最优驾驶策略可以针对不同的驾驶情况进行在线学习,在可以降低车辆行驶过程中的燃料消耗同时,实现保持安全车距的跟车行驶,并具有鲁棒性

[0005]虽然上述的基于模型的传统车辆跟随控制算法在工业中也就取得了一定成果与应用,但是依赖于被控模型的建立与驾驶环境的详细开发,对于复杂多变的交通行驶工况的适应性较差

而强化学习可以使得智能体在复杂的环境中进行学习,最终得到良好的策略

强化学习在目前的自动驾驶车辆跟车行驶问题中也有了一些进展,不过其绝大多数解决的是坡度为0的情况,即不考虑道路坡度的跟车行驶

但是道路坡度对于车辆行驶的燃油经济性有着重要影响

目前有一些工作利用基于模型的强化学习对考虑道路坡度的跟随行驶问题进行探究,但是解决基于模型的强化学习的误差问题仍然是一个难点


技术实现思路

[0006]为了解决现有技术存在的对于复杂的交通行驶工况,基于模型的传统规划控制方法的适应性较差的现状,同时针对不同的控制目标,分层的控制策略也可能会导致次优解的问题,本专利技术提供一种考虑道路坡度影响的近端策略优化经济性跟车控制方法,面向具有坡度的道路情况,利用属于无模型强化学习的近端策略优化算法,考虑道路坡度影响因
素,设计融合
VT

Micro
瞬时能耗估算模型的奖励函数,并综合坡度等道路信息设计状态空间,在满足可变安全距离的需求下,实现被控车辆的经济性跟随行驶

[0007]本专利技术的目的是通过以下技术方案实现的:
[0008]一种考虑道路坡度影响的近端策略优化经济性跟车控制方法,包括以下步骤:
[0009]步骤一

搭建近端策略优化网络模型;
[0010]步骤二

根据道路的坡度特征

跟车间距

两车速度等信息设计奖励函数;
[0011]步骤三

利用
Carla/Python
联合仿真平台对步骤一搭建的近端策略优化网络模型进行训练,在训练时,被控车辆在仿真环境中不断根据当前的
PPO
策略分布做出动作,与环境进行交互,依据步骤二设计的奖励函数对做出的动作进行评价;
[0012]步骤四

对网络模型的参数进行更新优化,直至达到预设的训练步数后输出训练的考虑坡度影响的经济性跟随驾驶策略

[0013]进一步地,所述步骤二包括:
[0014]S21.
设计速度奖励函数
r
v

[0015]S22.
设计距离奖励函数
r
h

[0016]S23.
设计能耗奖励函数
r
o

[0017]S24.
设计碰撞奖励函数
r
c
与终点奖励函数
r
end

[0018]S25.
总奖励函数
r
为上述的各项奖励函数之和,即:
[0019]r

r
v
+r
h
+r
o
+r
c
+r
end

[0020]优选地,所述步骤
S21
包括:
[0021]将可变安全距离设置为不触发自动紧急制动系统的跟车距离,其计算公式为:
.
[0022][0023]上式中,
v
代表被控车辆的瞬时速度;
v
p
代表前车的瞬时速度;
d
safe
代表安全距离;
T
react
代表了容许
AEB
系统反应的时间;
a
h,bmax

a
p,bmax
分别代表了主车和前车的最大制动减速度,
max
代表选择括号中两个参数中最大的一项

[0024]为了引导被控车辆具有与前车接近的速度,设置速度奖励
r
v

[0025][0026]优选地,所述步骤
S22
包括:
[0027]为了令主车具有跟随前车的能力,将车头时距
THW
与奖励函数进行融合,车头时距的计算方法及距离奖励函数
r
h
如下所示:
[0028][0029]r
h

10|
θ
|e

THW
[0030]上式中,
v
代表被控车辆的瞬时速度,
d
代表两车之间的实时间距;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种考虑道路坡度影响的近端策略优化经济性跟车控制方法,其特征在于,包括以下步骤:步骤一

搭建近端策略优化网络模型;步骤二

根据道路的坡度特征

跟车间距

两车速度等信息设计奖励函数;步骤三

利用
Carla/Python
联合仿真平台对步骤一搭建的近端策略优化网络模型进行训练,在训练时,被控车辆在仿真环境中不断根据当前的
PPO
策略分布做出动作,与环境进行交互,依据步骤二设计的奖励函数对做出的动作进行评价;步骤四

对网络模型的参数进行更新优化,直至达到预设的训练步数后输出训练的考虑坡度影响的经济性跟随驾驶策略
。2.
如权利要求1所述的一种考虑道路坡度影响的近端策略优化经济性跟车控制方法,其特征在于,所述步骤二包括:
S21.
设计速度奖励函数
r
v

S22.
设计距离奖励函数
r
h

S23.
设计能耗奖励函数
r
o

S24.
设计碰撞奖励函数
r
c
与终点奖励函数
r
end

S25.
总奖励函数
r
为上述的各项奖励函数之和,即:
r

r
v
+r
h
+r
o
+r
c
+r
end
。3.
如权利要求2所述的一种考虑道路坡度影响的近端策略优化经济性跟车控制方法,其特征在于,所述步骤
S21
包括:将可变安全距离设置为不触发自动紧急制动系统的跟车距离,其计算公式为:
.
上式中,
v
代表被控车辆的瞬时速度;
v
p
代表前车的瞬时速度;
d
safe
代表安全距离;
T
react
代表了容许
AEB
系统反应的时间;
a
h,bmax

a
p,bmax
分别代表了主车和前车的最大制动减速度,
max
代表选择括号中两个参数中最大的一项;为了引导被控车辆具有与前车接近的速度,设置速度奖励
r
v

4.
如权利要求2所述的一种考虑道路坡度影响的近端策略优化经济性跟车控制方法,其特征在于,所述步骤
S22
包括:为了令主车具有跟随前车的能力,将车头时距
THW
与奖励函数进行融合,车头时距的计算方法及距离奖励函数
r
h
如下所示:
r
h

10|
θ
|e

THW
上式中,
v
代表被控车辆的瞬时速度,
d
代表两车之间的实时间距;
θ
代表道路的坡度
。5.
如权利要求2所述的一种考虑道路坡度影响的近端策略优化经济性跟车控制方法,其特征在于,所述步骤
S23
包括:
为了令主车具有经济性跟随行驶的能力,将
VT

Micro
油耗估计模型融合进奖励函数,
VT

Micro
油耗估计模型的计算公式为:上式中,
o
代表被控车辆行驶时的瞬时能量消耗,
a
n
(t)

v
n
(t)
分别代表车辆行驶时的瞬时加速度和速度,
K
ij
(a
n
(t))
是与车辆瞬时加速度正负相关的系数;能耗奖励函数
r
o
...

【专利技术属性】
技术研发人员:刘奇芳孙大朕陈浩文李东子杨翰宇
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1