基于深度强化学习的车载燃料电池系统控制方法及系统技术方案

技术编号：36183350 阅读：96 留言：0更新日期：2022-12-31 20:41

本发明专利技术涉及一种基于深度强化学习的车载燃料电池系统控制方法及系统，具体涉及氢燃料电池技术领域。所述方法包括构建燃料电池模型，所述燃料电池模型包括：热管理系统模型和输出功率系统模型；以车载燃料电池系统的需求功率、膜两侧氢氧压差和前后时刻电池内部温差为状态，以氢气、空气入口压力和冷却水温度为动作，以功率之差构建奖励函数，采用DDQN对各动作的Q网络进行训练；根据各动作训练后的Q网络对所述燃料电池系统进行控制。本发明专利技术可以提高燃料电池的耐久性。高燃料电池的耐久性。高燃料电池的耐久性。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的车载燃料电池系统控制方法及系统

[0001]本专利技术涉及氢燃料电池
，特别是涉及一种基于深度强化学习的车载燃料电池系统控制方法及系统。

技术介绍

[0002]大幅度降低对化石能源的依赖，这对传统燃油汽车行业提出了挑战，因此发展新能源汽车产业迫在眉睫。而氢能作为全清洁无碳的“最终能源”，氢燃料电池汽车具有加氢速度快、续航里程长、能量转换效率高、清洁环保等优点，被称为交通方式的“终极解决方案”，已成为当今备受关注的新能源汽车。
[0003]但多变的工况导致车载燃料电池耐久性衰减过快，极大程度地阻止了燃料电池汽车商业化。当前提升燃料电池耐久性主要从材料开发和控制策略优化两方面展开。其中新材料的研发是一项长期的工作，需要较长的研发周期，而从控制策略上进行系统优化则可在短期内获得较好的效果。因此，为实现燃料电池耐久性的快速提升，急需一种先进控制优化方法，实现对现有控制策略的改进。

技术实现思路

[0004]本专利技术的目的是提供一种基于深度强化学习的车载燃料电池系统控制方法及系统，可以提高燃料电池的耐久性。
[0005]为实现上述目的，本专利技术提供了如下方案：
[0006]一种基于深度强化学习的车载燃料电池系统控制方法，包括：
[0007]构建燃料电池模型，所述燃料电池模型包括：热管理系统模型和输出功率系统模型；
[0008]以车载燃料电池系统的需求功率、膜两侧氢氧压差和前后时刻电池内部温差为状态，以氢气入口压力、空气入...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的车载燃料电池系统控制方法，其特征在于，包括：构建燃料电池模型，所述燃料电池模型包括：热管理系统模型和输出功率系统模型；以车载燃料电池系统的需求功率、膜两侧氢氧压差和前后时刻电池内部温差为状态，以氢气入口压力、空气入口压力和冷却水温度为动作，以实际输出功率与需求功率之差构建奖励函数，根据所述燃料电池模型，采用深度强化学习算法对各动作的Q网络进行训练得到各动作训练后的Q网络；根据待控制燃料电池系统当前时刻状态的值采用各动作训练后的Q网络对所述待控制燃料电池系统进行控制。2.根据权利要求1所述的一种基于深度强化学习的车载燃料电池系统控制方法，其特征在于，所述输出功率系统模型具体为：P＝V
×
n
×
I
st
×
300/1000，其中，P为实际输出功率，V为输出电压，n是单体电池个数，I
st
为负载电流。3.根据权利要求1所述的一种基于深度强化学习的车载燃料电池系统控制方法，其特征在于，所述以车载燃料电池系统的需求功率、膜两侧氢氧压差和前后时刻电池内部温差为状态，以氢气入口压力、空气入口压力和冷却水温度为动作，以实际输出功率与需求功率之差构建奖励函数，根据所述燃料电池模型，采用深度强化学习算法对各动作的Q网络进行训练得到各动作训练后的Q网络，具体包括：设置当前时刻状态的值；在当前迭代次数下，将所述当前时刻状态的值分别输入各动作的Q网络得到各动作的Q值集合，并选择各Q值集合中Q值最大的动作作为当前迭代次数下当前时刻状态的值对应的最优动作集合；将当前迭代次数下当前时刻车载燃料电池系统的需求功率的值输入所述燃料电池模型，得到当前迭代次数下当前时刻的各动作的值，并根据当前迭代次数下当前时刻下状态的值对应的最优动作集合中各动作的值对车载燃料电池系统进行控制，得到当前迭代次数下下一时刻状态的值和当前迭代次数下当前时刻车载燃料电池系统的实际功率的值；根据所述当前迭代次数下的当前时刻车载燃料电池系统的需求功率的值、当前迭代次数下当前时刻车载燃料电池系统的实际功率的值、当前迭代次数下当前时刻状态的值和当前迭代次数下下一时刻状态的值得到当前迭代次数下奖励函数值；更新当前时刻并进入下次迭代，直到达到迭代停止条件，得到各迭代次数下的训练样本向量，所述训练样本向量包括状态的值、各动作的值、奖励函数值和下一时刻状态的值；根据各迭代次数下的训练样本向量对各动作的Q网络进行训练得到各动作训练后的Q网络。4.根据权利要求1所述的一种基于深度强化学习的车载燃料电池系统控制方法，其特征在于，所述根据待控制燃料电池系统当前时刻状态的值采用各动作训练后的Q网络对所述待控制燃料电池系统进行控制，具体包括：获取待控制燃料电池系统当前时刻状态的值；将所述待控制燃料电池系统当前时刻状态的值输入各动作训练后的Q网络得到各动作的值；将各动作的值输入所述待控制燃料电池系统对应的车载控制器以对所述待控制燃料...

【专利技术属性】
技术研发人员：栾伟玲，李松阳，王畅，庄子贤，
申请(专利权)人：华东理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人