当前位置: 首页 > 专利查询>东南大学专利>正文

一种氢燃料电池客车节能驾驶控制方法及系统技术方案

技术编号:38438060 阅读:8 留言:0更新日期:2023-08-11 14:22
本发明专利技术提出了一种氢燃料电池客车节能驾驶控制方法及系统,所述方法包括:设计了分层式的双层深度强化学习架构,上层深度强化学习通过获取氢燃料电池客车和前车速度、加速度及匝道路况等交通环境信息,对氢燃料电池客车纵向速度进行合适控制,保证其安全平稳行驶;下层深度强化学习则通过上层输出的速度对氢燃料电池进行能量管理节能优化;同时设计了一条包含三组不同交通流量的匝道的快速路进行对深度强化学习算法的离线训练,获得优化的节能驾驶控制。本发明专利技术实现了采用双层深度强化学习方法完成对氢燃料电池客车的纵向速度控制与能量管理节能优化,使氢燃料电池客车实现节能驾驶。驾驶。驾驶。

【技术实现步骤摘要】
一种氢燃料电池客车节能驾驶控制方法及系统


[0001]本专利技术涉及氢燃料电池客车能量管理及驾驶控制
,特别涉及一种基于双层深度强化学习的氢燃料电池客车节能驾驶控制方法。

技术介绍

[0002]目前交通运输业发展迅速,交通运输领域的能源消耗占全球能源消耗的20%,随着科技与经济的不断发展,碳排放引起的环境问题逐渐引起人们的注意。汽车行业作为工业重要组成部分,开发并应用新能源汽车以减少碳排放非常关键。氢燃料电池汽车因其无污染、零排放、高续航等优点被人们认可并视为最有前途的新能源汽车之一。作为燃料电池客车的一项关键技术,能量管理策略(EMS)的作用即通过合理分配燃料电池和动力电池功率进而提升车辆形式效率和能耗经济性。目前常见的能量管理策略大多基于规则或基于优化的方法处理,存在计算成本较大,依赖经验样本等缺点。
[0003]深度强化学习(DRL)是一种将深度学习与强化学习相结合的方法,其将深度学习的感知能力与强化学习的决策能力相结合。随着深度强化学习(DRL)算法的发展,DRL开始应用于氢燃料电池客车的能量管理策略(EMS),但现有技术中针对氢燃料电池客车的EMS研究大多数以固定工况、结构简单的能量管理系统为主,不能全面、广泛的将能量管理方法应用于实际车辆行驶。随着车联网技术的发展,如何将深度强化学习算法技术进一步应用于氢燃料电池客车在复杂交通环境下的实时能量管理策略,具备较强的实际应用意义。

技术实现思路

[0004]本专利技术所要解决的技术问题是:提出一种基于双层深度强化学习的氢燃料电池客车节能驾驶控制方法及系统。
[0005]本专利技术为解决上述技术问题提出以下技术方案:
[0006]一种氢燃料电池客车节能驾驶控制方法,包括以下步骤:
[0007]S1、构建氢燃料电池客车动力系统模型,提出最大最小跟车距离;
[0008]S2、利用深度强化学习方法,构建基于双层深度强化学习算法的氢燃料电池客车节能驾驶优化方法;
[0009]S3、建立双层DDPG网络,包括构建第一DDPG网络配合最大最小跟车距离对氢燃料电池客车进行纵向速度控制,构建第二DDPG网络根据氢燃料电池客车动力系统模型进行能量管理优化控制;
[0010]S4、双层网络状态共享,构建双层深度强化学习网络架构,将第一DDPG网络输出的氢燃料电池客车速度输入至第二DDPG网络,由第二DDPG网络进行氢燃料电池客车能量管理,进行氢燃料电池客车节能驾驶优化。
[0011]进一步的,步骤S1中构建氢燃料电池客车动力系统模型,包括动力电池、燃料电池、储氢罐、DC/DC转换器、驱动电机及驱动轮;其中,燃料电池与储氢罐使用氢气连接,燃料电池与动力电池连接至DC/DC转换器、DC/DC转换器使用电力连接至驱动电机,驱动电机机
械连接至驱动轮。
[0012]进一步的,步骤S1中氢燃料电池客车最大最小跟车距离如下式:
[0013]L
min
=2+0.5v+0.0625v2[0014]L
max
=10+v+0.0825v2[0015]其中,L
min
、L
max
分别为氢燃料电池客车最大、最小跟车距离限制,v为氢燃料电池客车速度。
[0016]进一步的,步骤S2包括氢燃料电池客车纵向速度控制与能量管理优化,具体包括如下子步骤:
[0017]S201:定义深度强化学习算法中的氢燃料电池客车状态、动作、奖励函数、最优动作

值函数以及最优控制策略;
[0018]S202:深度强化学习agent接收氢燃料电池客车当前状态,并执行S201中定义的动作,改变氢燃料电池客车速度与燃料电池输出功率;
[0019]S203:环境因动作变化而发生变化,agent获得所述氢燃料电池客车新的状态,并将新的状态和动作所带来的奖励返回深度强化学习agent;
[0020]S204:在氢燃料电池客车新的状态中,agent又将继续执行S201中定义的动作,以此类推,深度强化学习agent与环境不断地交互,直到得到最优动作

值函数即多目标Q值向量,以及最优控制策略。
[0021]进一步的,步骤S201具体为:
[0022](1)深度强化学习算法中氢燃料电池客车状态包括:当前时刻氢燃料电池客车速度、加速度、当前时刻前车速度、当前时刻前车加速度、当前时刻氢燃料电池客车与前车距离、当前时刻氢燃料电池客车等效氢耗、当前时刻氢燃料电池输出功率、当前时刻动力电池剩余荷电量;
[0023](2)深度强化学习算法中动作包括:动作A1和动作A2,定义如下式:
[0024]A1={P
fc
|P
fc
∈(0,60)}
[0025]A2={a|a∈[

1.5,0.7]}
[0026]其中,动作A1为氢燃料电池客车速度变化,即每秒加速度;动作A2为氢燃料电池输出功率;P
fc
为氢燃料电池输出功率值,a为氢燃料电池客车速度变化值;
[0027](3)奖励函数,包含等效氢耗成本、氢燃料电池功率波动差值范围、氢燃料电池客车安全跟车成本,舒适跟车成本,如下式:
[0028]R(s,a)=R1(s,a)+R2(s,a)+R3(s,a)+R4(s,a)
[0029]R1(s,a)=C
h
[0030]R2(s,a)=C
p
[0031]R3(s,a)=C
s
[0032]R4(s,a)=C
c
[0033]其中,R(s,a)为在状态s下选择行动a的奖励函数向量,R1(s,a)为奖励函数reward 1;R2(s,a)为奖励函数reward 2;R3(s,a)为奖励函数reward 3;R4(s,a)为奖励函数reward 4;C
h
为等效氢耗成本;C
p
为氢燃料电池功率波动差值范围;C
s
为氢燃料电池客车安全跟车成本;C
c
为氢燃料电池客车舒适跟车成本;
[0034](4)最优动作

值函数的具体计算公式为:
[0035]Q
*
(s,a)=Q
π
(s,a)=maxE[R
t+1
+λQ
*
(s
t+1
,a
t+1
)|s
t
,a
t
][0036]其中,Q
π
(s,a)是在策略π状态s下选择行动a的动作

值函数;s
t
,a
t
为时刻t下的状态,动作;s
t+1
,a
t+1
,R
t+1
为时刻t+1下的状态,动作以及奖励函数;λ∈[0,1]为折扣因子。
[0037]进一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种氢燃料电池客车节能驾驶控制方法,其特征在于,包括以下步骤:S1、构建氢燃料电池客车动力系统模型,提出最大最小跟车距离;S2、利用深度强化学习方法,构建基于双层深度强化学习算法的氢燃料电池客车节能驾驶优化方法;S3、建立双层DDPG网络,包括构建第一DDPG网络配合最大最小跟车距离对氢燃料电池客车进行纵向速度控制,构建第二DDPG网络根据氢燃料电池客车动力系统模型进行能量管理优化控制;S4、双层网络状态共享,构建双层深度强化学习网络架构,将第一DDPG网络输出的氢燃料电池客车速度输入至第二DDPG网络,由第二DDPG网络进行氢燃料电池客车能量管理,进行氢燃料电池客车节能驾驶优化。2.根据权利要求1所述的一种氢燃料电池客车节能驾驶控制方法,其特征在于:步骤S1中构建氢燃料电池客车动力系统模型,包括动力电池、燃料电池、储氢罐、DC/DC转换器、驱动电机及驱动轮;其中,所述燃料电池与储氢罐使用氢气连接,所述燃料电池与动力电池连接至DC/DC转换器、所述DC/DC转换器使用电力连接至驱动电机,驱动电机机械连接至驱动轮。3.根据权利要求2所述的一种氢燃料电池客车节能驾驶控制方法,其特征在于,步骤S1中氢燃料电池客车最大最小跟车距离如下式:L
min
=2+0.5v+0.0625v2L
max
=10+v+0.0825v2其中,L
min
、L
max
分别为氢燃料电池客车最大、最小跟车距离限制,v为氢燃料电池客车速度。4.根据权利要求1所述的一种氢燃料电池客车节能驾驶控制方法,其特征在于:所述步骤S2包括氢燃料电池客车纵向速度控制与能量管理优化,具体包括如下子步骤:S201:定义深度强化学习算法中的氢燃料电池客车状态、动作、奖励函数、最优动作

值函数以及最优控制策略;S202:深度强化学习agent接收所述氢燃料电池客车当前状态,并执行所述动作,改变氢燃料电池客车速度与燃料电池输出功率;S203:环境因动作变化而发生变化,agent获得所述氢燃料电池客车新的状态,并将新的状态和所述动作所带来的奖励返回深度强化学习agent;S204:在所述氢燃料电池客车新的状态中,agent又将继续执行所述动作,以此类推,深度强化学习agent与环境不断地交互,直到得到最优动作

值函数即多目标Q值向量,以及最优控制策略。5.根据权利要求4所述的一种氢燃料电池客车节能驾驶控制方法,其特征在于:步骤S201具体为:(1)深度强化学习算法中氢燃料电池客车状态包括:当前时刻氢燃料电池客车速度、加速度、当前时刻前车速度、当前时刻前车加速度、当前时刻氢燃料电池客车与前车距离、当前时刻氢燃料电池客车等效氢耗、当前时刻氢燃料电池输出功率、当前时刻动力电池剩余荷电量;(2)深度强化学习算法中动作包括:动作A1和动作A2,定义如下式:
A1={P
fc
|P
fc
∈(0,60)}A2={a|a∈[

1.5,0.7]}其中,动作A1为氢燃料电池客车速度变化,即每秒加速度;动作A2为氢燃料电池输出功率;P
fc
为氢燃料电池输出功率值,a为氢燃料电池客车速度变化值;(3)奖励函数,包含等效氢耗成本、氢燃料电池功率波动差值范围、氢燃料电池客车安全跟车成本,舒适跟车成本,如下式:R(s,a)=R1(s,a)+R2(s,a)+R3(s,a)+R4(s,a)R1(s,a)=C
h
R2(s,a)=C
p
R3(s,a)=...

【专利技术属性】
技术研发人员:彭剑坤申阳王春海周稼铭魏中宝江如海陈伟琪衣丰艳马春野
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1