一种燃料电池汽车多目标优化能量管理策略加速训练方法技术

技术编号:39058828 阅读:17 留言:0更新日期:2023-10-12 19:51
本发明专利技术提供了一种燃料电池汽车多目标优化能量管理策略加速训练方法,利用A3C算法设计多进程并行计算能量管理架构,并通过CPU的多个核心实现这种并行计算,从而能够充分利用有限的计算资源并发挥多核CPU的优势,使对深度强化学习神经网络的训练明显加速,极大地缩短了训练时间、提高了训练效率;同时,本发明专利技术的方法在提升能耗经济性的基础上还兼顾了功率源寿命的优化,有助于降低燃料电池汽车的行驶总成本。总成本。总成本。

【技术实现步骤摘要】
一种燃料电池汽车多目标优化能量管理策略加速训练方法


[0001]本专利技术属于燃料电池汽车能量管理
,具体涉及一种燃料电池汽车多目标优化能量管理策略加速训练方法。

技术介绍

[0002]目前,燃料电池汽车中仍然需要装载动力电池作为辅助功率源,以弥补燃料电池的滞后响应,并储存再生制动能量;而如何执行高效的能量管理策略,实现燃料电池和动力电池两者间的最优功率分配,对于这种车型尤为重要。现有针对燃料电池汽车的能量管理策略主要包括基于规则的能量管理策略、基于优化的能量管理策略和基于深度强化学习的能量管理策略几类,但均存在一些不足,例如:基于规则的能量管理策略实时性好,但无法保证优化效果;基于优化的能量管理策略有较好的优化效果,但计算时间长、实时性差;基于深度强化学习的能量管理策略虽然相对前两种的实时性和优化性优势较为明显,而且具有出色的自适应性和自学习性,但存在训练时间长、不能充分利用有限计算资源的缺点,并且已有的该类策略通常只关注能耗经济性的提升,却忽略了对功率源寿命的优化。

技术实现思路

[0003]有鉴于此,针对本领域中存在的技术问题,本专利技术提供了一种燃料电池汽车多目标优化能量管理策略加速训练方法,具体包括以下步骤:
[0004]步骤一、针对燃料电池汽车包括:减少氢气消耗、延缓燃料电池老化、延缓动力电池老化以及稳持动力电池电量的多个综合优化目标,建立燃料电池汽车的能量管理模型,包括:燃料电池能耗模型、燃料电池老化模型、动力电池电量模型以及动力电池老化模型;
[0005]步骤二、建立基于A3C(Asynchronous Advantage Actor

Critic,异步优势动作评估)算法的深度强化学习神经网络结构,由一个全局网络和若干本地网络组成,全局网络和每个本地网络均由一个策略网络与一个价值网络组成;全局网络由各本地网络所共享,各本地网络与对应的能量管理模型持续交互,计算策略网络和价值网络的梯度,并将梯度信息发送至全局网络;全局网络利用收到的梯度信息,更新自身的策略网络和价值网络参数,再将更新后的网络参数发送给所有本地网络,更新本地网络的策略网络和价值网络参数;使各本地网络的梯度计算单独占用一个进程,并单独在一个CPU核心上运行,从而实现一种多核并行计算机制;
[0006]步骤三、选取车辆运行中的状态参数,分别定义用于训练神经网络的状态空间和动作空间,并根据综合优化目标定义奖励函数,利用训练工况对神经网络训练至稳定收敛;训练中各本地网络根据当前时刻t的状态s
t
,选择动作a
t
,获得奖励r
t
,并进入下一时刻状态s
t+1
,并向全局网络输出其策略网络参数和价值网络参数的累计梯度;全局网络参数基于所述累计梯度更新其策略网络参数和价值网络参数,并将网络参数发送给各本地网络完成参数更新。
[0007]进一步地,步骤一中具体建立以下形式的燃料电池汽车能量管理模型:
[0008]燃料电池能耗模型:
[0009][0010]其中,表示氢气消耗速率,P
fc
表示燃料电池的输出功率,η
fc
表示燃料电池的实时效率,表示燃料电池的热值;
[0011]燃料电池老化模型:
[0012][0013]其中,表示燃料电池的寿命衰减速率,k1表示燃料电池高功率输出时的寿命衰减速率,k2表示燃料电池低功率输出时的寿命衰减速率,k3表示燃料电池每启停一次的寿命衰减速率,k4表示燃料电池输出功率波动时的寿命衰减速率,t1表示燃料电池高功率输出时的采样时间,t2表示燃料电池低功率输出时的采样时间,n1表示燃料电池启停的单位计数次数,ΔP表示燃料电池的输出功率波动量,k
p
表示燃料电池寿命修正因子;
[0014]动力电池电量模型:
[0015][0016]其中,V
oc
表示开路电压,R0表示内阻,I
bat
表示电流,P
bat
表示电池功率,Q
ba
t表示电池容量,表示电池荷电状态SOC的变化率;
[0017]动力电池老化模型:
[0018][0019]其中,Ah(c,T
a
)表示动力电池的总安时吞吐量,c表示动力电池的充放电倍率,T
a
表示动力电池的内部平均温度,B(c)表示指前因子,z表示幂律因子,R
g
表示通用气体常数,表示动力电池的寿命衰减速率。
[0020]进一步地,步骤三中具体定义混合动力汽车的车速v、加速度acc、燃料电池的输出功率P
fc
、燃料电池的寿命衰退量D
fc
、动力电池荷电状态SOC以及动力电池的寿命衰退量D
bat
作为状态变量,由此得到状态空间为S={v,acc,P
fc
,D
fc
,SOC,D
bat
};定义燃料电池输出功率的变化量ΔP
fc
作为动作变量,由此得到动作空间为A={ΔP
fc
|ΔP
fc
∈[

5kW,5kW]};根据综合优化目标定义奖励函数为:
[0021][0022][0023]其中,表示氢耗成本,C
fc
表示燃料电池老化成本,C
bat
表示动力电池老化成本,ω表示电量稳持因子,SOC0表示SOC初始值,表示氢气的单位价格,表示氢气消耗量,p
fc
表示氢燃料电池的单位价格,D
fc
表示燃料电池寿命衰减,p
bat
表示动力电池的单位价
格,D
bat
表示动力电池寿命衰减。
[0024]进一步地,步骤三中的具体训练过程包括:
[0025](1)初始化:全局策略网络的参数θ、全局价值网络的参数φ、各本地策略网络的参数θ
i

θ、各本地价值网络的参数φ
i

φ(i=1,2,

,N),N表示本地网络的个数,也即总进程数或占用的CPU核心数;
[0026](2)获取多目标优化能量管理模型的初始状态:s0=[v0,acc0,P
fc_0
,D
fc_0
,SOC0,D
bat_0
];
[0027](3)各本地网络通过与其对应的能量管理模型持续交互,根据当前时刻t的状态s
t
,选择动作a
t
,获得奖励r
t
,进入下一时刻状态s
t+1
;并将得到的每一条即时经验样本[s
t
,a
t
,r
t
,s
t+1
]存入多步学习经验缓冲池中;
[0028](4)当各核心进程中的交互次数t能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种燃料电池汽车多目标优化能量管理策略加速训练方法,其特征在于:具体包括以下步骤:步骤一、针对燃料电池汽车包括:减少氢气消耗、延缓燃料电池老化、延缓动力电池老化以及稳持动力电池电量的多个综合优化目标,建立燃料电池汽车的能量管理模型,包括:燃料电池能耗模型、燃料电池老化模型、动力电池电量模型以及动力电池老化模型;步骤二、建立基于A3C算法的深度强化学习神经网络结构,由一个全局网络和若干本地网络组成,全局网络和每个本地网络均由一个策略网络与一个价值网络组成;全局网络由各本地网络所共享,各本地网络与对应的能量管理模型持续交互,计算策略网络和价值网络的梯度,并将梯度信息发送至全局网络;全局网络利用收到的梯度信息,更新自身的策略网络和价值网络参数,再将更新后的网络参数发送给所有本地网络,更新本地网络的策略网络和价值网络参数;使各本地网络的梯度计算单独占用一个进程,并单独在一个CPU核心上运行,从而实现一种多核并行计算机制;步骤三、选取车辆运行中的状态参数,分别定义用于训练神经网络的状态空间和动作空间,并根据综合优化目标定义奖励函数,利用训练工况对神经网络训练至稳定收敛;训练中各本地网络根据当前时刻t的状态s
t
,选择动作a
t
,获得奖励r
t
,并进入下一时刻状态s
t+1
,并向全局网络输出其策略网络参数和价值网络参数的累计梯度;全局网络参数基于所述累计梯度更新其策略网络参数和价值网络参数,并将网络参数发送给各本地网络完成参数更新。2.如权利要求1所述的方法,其特征在于:步骤一中具体建立以下形式的燃料电池汽车能量管理模型:燃料电池能耗模型:其中,表示氢气消耗速率,P
fc
表示燃料电池的输出功率,η
fc
表示燃料电池的实时效率,表示燃料电池的热值;燃料电池老化模型:其中,表示燃料电池的寿命衰减速率,k1表示燃料电池高功率输出时的寿命衰减速率,k2表示燃料电池低功率输出时的寿命衰减速率,k3表示燃料电池每启停一次的寿命衰减速率,k4表示燃料电池输出功率波动时的寿命衰减速率,t1表示燃料电池高功率输出时的采样时间,t2表示燃料电池低功率输出时的采样时间,n1表示燃料电池启停的单位计数次数,ΔP表示燃料电池的输出功率波动量,k
p
表示燃料电池寿命修正因子;动力电池电量模型:其中,V
oc
表示开路电压,R0表示内阻,I
bat
表示电流,P
bat
表示电池功率,Q
bat
表示电池容量,表示电池荷电状态SOC的变化率;动力电池老化模型:
其中,Ah(c,T
a
)表示动力电池的总安时吞吐量,c表示动力电池的充放电倍率,T
a
表示动力电池的内部平均温度,B(c)表示指前因子,z表示幂律因子,R
g
表示通用气体常数,表示动力电池的寿命衰减速率。3.如权利要求2所述的方法,其特征在于:步骤三中具体定义混合动力汽车的车速v、加速度acc、燃料电池的输出功率P
fc
、燃料电池的寿命衰退量D
fc
、动力电池荷电状态SOC以及动力电池的寿命衰退量D
bat
作为状态变量,由此得到状态空间为S={v,acc,P
fc
,D
fc
,SOC,D
bat
};定义燃料电池输出功率的变化量ΔP
fc
作为动作变量,由此得到...

【专利技术属性】
技术研发人员:何洪文黄汝臣
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1