一种固体氧化物燃料电池供气系统协调控制方法技术方案

技术编号：37674474 阅读：17 留言：0更新日期：2023-05-26 04:38

本发明专利技术涉及一种固体氧化物燃料电池供气系统协调控制方法，其中包括离线训练：设置两个智能体，分别为氢气智能体和空气智能体，所述氢气智能体和空气智能体分别用于控制进入固体氧化物燃料电池的氢气流速和空气流速，之后采用集中学习、分散执行的方式对智能体进行训练；还包括在线应用：根据训练完成的协调控制策略模型，氢气智能体检测固体氧化物燃料电池的氢气流量与输出电压，空气智能体通过调整空压机电机电压来控制氧气流量。与现有技术相比，本发明专利技术首次将分布式深度强化学习的内容应用于固体氧化物燃料电池供气系统的能量管理领域，将人工智能技术与传统气体流量控制技术相结合提高固体氧化物燃料电池供气系统的效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
一种固体氧化物燃料电池供气系统协调控制方法

[0001]本专利技术涉及固体氧化物燃料电池供气系统的能量管理
，尤其是涉及一种基于分布式深度强化学习的固体氧化物燃料电池供气系统协调控制方法。

技术介绍

[0002]固体氧化物燃料电池(Solid Oxide Fuel Cell,SOFC)以其安静、环保、高效的优点而成为21世纪最具发展前景的供电技术。其普及应用对保护环境、缓解能源危机具有重大的意义。
[0003]但是，由于SOFC是一个多输入多输出的非线性复杂系统，输出功率，输出电压，电堆温度和运行效率同时受到如氢气流速，空气流速等多种操作变量，所以在控制上具有较高的复杂性。在SOFC实际应用中,供气系统需要根据需求为电堆提供反应所需氧气与氢气,要在保证电堆反应充分发挥性能的同时减少不必要损耗,降低寄生功率，提高系统整体效率。同时为了控制电堆温度，供气系统还需要实时控制空气流速，使电堆除去电堆多余热量,使电堆工作在合理的工作范围内,以提高电堆的性能与寿命。另外，SOFC中存在很多的运行约束，包括燃料利用率需要保持在0.7
‑
0.9，过氧率保证在8
‑
11之间，为了解决上述问题，亟需致力于研发一种基于分布式深度强化学习的固体氧化物燃料电池供气系统协调控制方法。

技术实现思路

[0004]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于分布式深度强化学习的固体氧化物燃料电池供气系统协调控制方法，首次将分布式深度强化学习的内容应用于固体氧化物燃...

【技术保护点】

【技术特征摘要】
1.一种固体氧化物燃料电池供气系统协调控制方法，其特征在于，包括以下步骤：S1：离线训练：设置两个智能体，分别为氢气智能体和空气智能体，所述氢气智能体和空气智能体分别用于控制进入固体氧化物燃料电池的氢气流速和空气流速，之后采用集中学习、分散执行的方式对智能体进行训练，以保证两个智能体能够在训练中考虑对方的策略，并在训练中引入探索单元以提升自适应能力和鲁棒性，最终获得协调控制策略模型；S2：在线应用：根据训练完成的协调控制策略模型，氢气智能体检测固体氧化物燃料电池的氢气流量与输出电压，空气智能体通过调整空压机电机电压来控制氧气流量，每个智能体根据自己的传感器状态执行决策，使固体氧化物燃料电池的输出电压和电堆温度达到预设理想值。2.根据权利要求1所述的一种固体氧化物燃料电池供气系统协调控制方法，其特征在于，所述氢气智能体和空气智能体均包括1个演员网络和2个评论家网络。3.根据权利要求2所述的一种固体氧化物燃料电池供气系统协调控制方法，其特征在于，S1中，采用PE
‑
MA4DPG算法进行离线训练，所述PE
‑
MA4DPG算法是DDPG算法采用演员
‑
评论家架构，以此在连续动作空间中选取合适的动作。4.根据权利要求3所述的一种固体氧化物燃料电池供气系统协调控制方法，其特征在于，S1中，所述PE
‑
MA4DPG算法中包括策略网络和价值函数网络；其中策略网络由演员网络当前网络和演员网络目标网络组成；其中价值函数网络由评论家当前网络和评论家目标网络组成；每个智能体的演员网络的输入包括所有智能体的动作状态信息，以此作为集中训练，以此使得每一个智能体均建立了一个中心化的评论家网络，且给出对应的值函数，缓解环境不稳定的问题。5.根据权利要求4所述的一种固体氧化物燃料电池供气系统协调控制方法，其特征在于，所述评论家当前网络通过最小化每个智能体的损失函数来优化更新参数，损失函数计算公式如下:y
i
＝r
i
+γQ
′
(S
′
,a1′
,
…
a
′
N
,θ
Q
′
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)式中:a1,a2,
…
,a
N
为N个智能体的动作；r
i
为奖励值；y
i
为目标Q值；γ为奖励折扣系数。6.根据权利要求3所述的一种固体氧化物燃料电池供气系统协调控制方法，其特征在于，所述PE
‑
MA4DPG算法中采用分布式多智能体训练框架，包括种群空间、探索者、拓荒者、示范者、公共经验池5个模块。7.根据权利要求3所述的一种固体氧化物燃料电池供气系统协调控制方法，其特...

【专利技术属性】
技术研发人员：李嘉文，项江鑫，崔昊杨，蒋伟，杨程，江友华，杜红卫，韩韬，
申请(专利权)人：上海电力大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人