基于深度强化学习的车载燃料电池系统控制方法及系统技术方案

技术编号:36183350 阅读:82 留言:0更新日期:2022-12-31 20:41
本发明专利技术涉及一种基于深度强化学习的车载燃料电池系统控制方法及系统,具体涉及氢燃料电池技术领域。所述方法包括构建燃料电池模型,所述燃料电池模型包括:热管理系统模型和输出功率系统模型;以车载燃料电池系统的需求功率、膜两侧氢氧压差和前后时刻电池内部温差为状态,以氢气、空气入口压力和冷却水温度为动作,以功率之差构建奖励函数,采用DDQN对各动作的Q网络进行训练;根据各动作训练后的Q网络对所述燃料电池系统进行控制。本发明专利技术可以提高燃料电池的耐久性。高燃料电池的耐久性。高燃料电池的耐久性。

【技术实现步骤摘要】
基于深度强化学习的车载燃料电池系统控制方法及系统


[0001]本专利技术涉及氢燃料电池
,特别是涉及一种基于深度强化学习的车 载燃料电池系统控制方法及系统。

技术介绍

[0002]大幅度降低对化石能源的依赖,这对传统燃油汽车行业提出了挑战,因此 发展新能源汽车产业迫在眉睫。而氢能作为全清洁无碳的“最终能源”,氢燃料 电池汽车具有加氢速度快、续航里程长、能量转换效率高、清洁环保等优点, 被称为交通方式的“终极解决方案”,已成为当今备受关注的新能源汽车。
[0003]但多变的工况导致车载燃料电池耐久性衰减过快,极大程度地阻止了燃料 电池汽车商业化。当前提升燃料电池耐久性主要从材料开发和控制策略优化两 方面展开。其中新材料的研发是一项长期的工作,需要较长的研发周期,而从 控制策略上进行系统优化则可在短期内获得较好的效果。因此,为实现燃料电 池耐久性的快速提升,急需一种先进控制优化方法,实现对现有控制策略的改 进。

技术实现思路

[0004]本专利技术的目的是提供一种基于深度强化学习的车载燃料电池系统控制方 法及系统,可以提高燃料电池的耐久性。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种基于深度强化学习的车载燃料电池系统控制方法,包括:
[0007]构建燃料电池模型,所述燃料电池模型包括:热管理系统模型和输出功率 系统模型;
[0008]以车载燃料电池系统的需求功率、膜两侧氢氧压差和前后时刻电池内部温 差为状态,以氢气入口压力、空气入口压力和冷却水温度为动作,以实际输出 功率与需求功率之差构建奖励函数,根据所述燃料电池模型,采用深度强化学 习算法对各动作的Q网络进行训练得到各动作训练后的Q网络;
[0009]根据待控制燃料电池系统当前时刻状态的值采用各动作训练后的Q网络 对所述待控制燃料电池系统进行控制。
[0010]可选的,所述输出功率系统模型具体为:
[0011]P=V
×
n
×
I
st
×
300/1000,其中,P为实际输出功率,V为输出电压,n 是单体电池个数,I
st
为负载电流。
[0012]可选的,所述以车载燃料电池系统的需求功率、膜两侧氢氧压差和前后时 刻电池内部温差为状态,以氢气入口压力、空气入口压力和冷却水温度为动作, 以实际输出功率与需求功率之差构建奖励函数,根据所述燃料电池模型,采用 深度强化学习算法对各动作的Q网络进行训练得到各动作训练后的Q网络, 具体包括:
[0013]设置当前时刻状态的值;
[0014]在当前迭代次数下,将所述当前时刻状态的值分别输入各动作的Q网络 得到各动作的Q值集合,并选择各Q值集合中Q值最大的动作作为当前迭代 次数下当前时刻状态的值对应的最优动作集合;
[0015]将当前迭代次数下当前时刻车载燃料电池系统的需求功率的值输入所述 燃料电池模型,得到当前迭代次数下当前时刻的各动作的值,并根据当前迭代 次数下当前时刻下状态的值对应的最优动作集合中各动作的值对车载燃料电 池系统进行控制,得到当前迭代次数下下一时刻状态的值和当前迭代次数下当 前时刻车载燃料电池系统的实际功率的值;
[0016]根据所述当前迭代次数下的当前时刻车载燃料电池系统的需求功率的值、 当前迭代次数下当前时刻车载燃料电池系统的实际功率的值、当前迭代次数下 当前时刻状态的值和当前迭代次数下下一时刻状态的值得到当前迭代次数下 奖励函数值;
[0017]更新当前时刻并进入下次迭代,直到达到迭代停止条件,得到各迭代次数 下的训练样本向量,所述训练样本向量包括状态的值、各动作的值、奖励函数 值和下一时刻状态的值;
[0018]根据各迭代次数下的训练样本向量对各动作的Q网络进行训练得到各动 作训练后的Q网络。
[0019]可选的,所述根据待控制燃料电池系统当前时刻状态的值采用各动作训练 后的Q网络对所述待控制燃料电池系统进行控制,具体包括:
[0020]获取待控制燃料电池系统当前时刻状态的值;
[0021]将所述待控制燃料电池系统当前时刻状态的值输入各动作训练后的Q网 络得到各动作的值;
[0022]将各动作的值输入所述待控制燃料电池系统对应的车载控制器以对所述 待控制燃料电池系统进行控制。
[0023]一种基于深度强化学习的车载燃料电池系统控制系统,包括:
[0024]模型构建模块,用于构建燃料电池模型,所述燃料电池模型包括:热管理 系统模型和输出功率系统模型;
[0025]网络训练模块,用于以车载燃料电池系统的需求功率、膜两侧氢氧压差和 前后时刻电池内部温差为状态,以氢气入口压力、空气入口压力和冷却水温度 为动作,以实际输出功率与需求功率之差构建奖励函数,根据所述燃料电池模 型,采用深度强化学习算法对各动作的Q网络进行训练得到各动作训练后的Q 网络;
[0026]控制模块,用于根据待控制燃料电池系统当前时刻状态的值采用各动作训 练后的Q网络对所述待控制燃料电池系统进行控制。
[0027]可选的,所述输出功率系统模型具体为:
[0028]P=V
×
n
×
I
st
×
300/1000,其中,P为实际输出功率,V为输出电压,n 是单体电池个数,I
st
为负载电流。
[0029]可选的,所述网络训练模块,具体包括:
[0030]设置单元,用于设置当前时刻状态的值;
[0031]动作值确定单元,用于在当前迭代次数下,将所述当前时刻状态的值分别 输入各动作的Q网络得到各动作的Q值集合,并选择各Q值集合中Q值最大 的动作作为当前迭代次
数下当前时刻状态的值对应的最优动作集合;
[0032]下一时刻状态值和当前时刻的动作的值确定单元,用于将当前迭代次数下 当前时刻车载燃料电池系统的需求功率的值输入所述燃料电池模型,得到当前 迭代次数下当前时刻的各动作的值,并根据当前迭代次数下当前时刻下状态的 值对应的最优动作集合中各动作的值对车载燃料电池系统进行控制,得到当前 迭代次数下下一时刻状态的值和当前迭代次数下当前时刻车载燃料电池系统 的实际功率的值;
[0033]奖励函数值计算单元,用于根据所述当前迭代次数下的当前时刻车载燃料 电池系统的需求功率的值、当前迭代次数下当前时刻车载燃料电池系统的实际 功率的值、当前迭代次数下当前时刻状态的值和当前迭代次数下下一时刻状态 的值得到当前迭代次数下奖励函数值;
[0034]训练样本向量确定单元,用于更新当前时刻并进入下次迭代,直到达到迭 代停止条件,得到各迭代次数下的训练样本向量,所述训练样本向量包括状态 的值、各动作的值、奖励函数值和下一时刻状态的值;
[0035]网络训练单元,用于根据各迭代次数下的训练样本向量对各动作的Q网 络进行训练得到各动作训练后的Q网络。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的车载燃料电池系统控制方法,其特征在于,包括:构建燃料电池模型,所述燃料电池模型包括:热管理系统模型和输出功率系统模型;以车载燃料电池系统的需求功率、膜两侧氢氧压差和前后时刻电池内部温差为状态,以氢气入口压力、空气入口压力和冷却水温度为动作,以实际输出功率与需求功率之差构建奖励函数,根据所述燃料电池模型,采用深度强化学习算法对各动作的Q网络进行训练得到各动作训练后的Q网络;根据待控制燃料电池系统当前时刻状态的值采用各动作训练后的Q网络对所述待控制燃料电池系统进行控制。2.根据权利要求1所述的一种基于深度强化学习的车载燃料电池系统控制方法,其特征在于,所述输出功率系统模型具体为:P=V
×
n
×
I
st
×
300/1000,其中,P为实际输出功率,V为输出电压,n是单体电池个数,I
st
为负载电流。3.根据权利要求1所述的一种基于深度强化学习的车载燃料电池系统控制方法,其特征在于,所述以车载燃料电池系统的需求功率、膜两侧氢氧压差和前后时刻电池内部温差为状态,以氢气入口压力、空气入口压力和冷却水温度为动作,以实际输出功率与需求功率之差构建奖励函数,根据所述燃料电池模型,采用深度强化学习算法对各动作的Q网络进行训练得到各动作训练后的Q网络,具体包括:设置当前时刻状态的值;在当前迭代次数下,将所述当前时刻状态的值分别输入各动作的Q网络得到各动作的Q值集合,并选择各Q值集合中Q值最大的动作作为当前迭代次数下当前时刻状态的值对应的最优动作集合;将当前迭代次数下当前时刻车载燃料电池系统的需求功率的值输入所述燃料电池模型,得到当前迭代次数下当前时刻的各动作的值,并根据当前迭代次数下当前时刻下状态的值对应的最优动作集合中各动作的值对车载燃料电池系统进行控制,得到当前迭代次数下下一时刻状态的值和当前迭代次数下当前时刻车载燃料电池系统的实际功率的值;根据所述当前迭代次数下的当前时刻车载燃料电池系统的需求功率的值、当前迭代次数下当前时刻车载燃料电池系统的实际功率的值、当前迭代次数下当前时刻状态的值和当前迭代次数下下一时刻状态的值得到当前迭代次数下奖励函数值;更新当前时刻并进入下次迭代,直到达到迭代停止条件,得到各迭代次数下的训练样本向量,所述训练样本向量包括状态的值、各动作的值、奖励函数值和下一时刻状态的值;根据各迭代次数下的训练样本向量对各动作的Q网络进行训练得到各动作训练后的Q网络。4.根据权利要求1所述的一种基于深度强化学习的车载燃料电池系统控制方法,其特征在于,所述根据待控制燃料电池系统当前时刻状态的值采用各动作训练后的Q网络对所述待控制燃料电池系统进行控制,具体包括:获取待控制燃料电池系统当前时刻状态的值;将所述待控制燃料电池系统当前时刻状态的值输入各动作训练后的Q网络得到各动作的值;将各动作的值输入所述待控制燃料电池系统对应的车载控制器以对所述待控制燃料...

【专利技术属性】
技术研发人员:栾伟玲李松阳王畅庄子贤
申请(专利权)人:华东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1