一种固体氧化物燃料电池供气系统协调控制方法技术方案

技术编号:37674474 阅读:17 留言:0更新日期:2023-05-26 04:38
本发明专利技术涉及一种固体氧化物燃料电池供气系统协调控制方法,其中包括离线训练:设置两个智能体,分别为氢气智能体和空气智能体,所述氢气智能体和空气智能体分别用于控制进入固体氧化物燃料电池的氢气流速和空气流速,之后采用集中学习、分散执行的方式对智能体进行训练;还包括在线应用:根据训练完成的协调控制策略模型,氢气智能体检测固体氧化物燃料电池的氢气流量与输出电压,空气智能体通过调整空压机电机电压来控制氧气流量。与现有技术相比,本发明专利技术首次将分布式深度强化学习的内容应用于固体氧化物燃料电池供气系统的能量管理领域,将人工智能技术与传统气体流量控制技术相结合提高固体氧化物燃料电池供气系统的效率。率。率。

【技术实现步骤摘要】
一种固体氧化物燃料电池供气系统协调控制方法


[0001]本专利技术涉及固体氧化物燃料电池供气系统的能量管理
,尤其是涉及一种基于分布式深度强化学习的固体氧化物燃料电池供气系统协调控制方法。

技术介绍

[0002]固体氧化物燃料电池(Solid Oxide Fuel Cell,SOFC)以其安静、环保、高效的优点而成为21世纪最具发展前景的供电技术。其普及应用对保护环境、缓解能源危机具有重大的意义。
[0003]但是,由于SOFC是一个多输入多输出的非线性复杂系统,输出功率,输出电压,电堆温度和运行效率同时受到如氢气流速,空气流速等多种操作变量,所以在控制上具有较高的复杂性。在SOFC实际应用中,供气系统需要根据需求为电堆提供反应所需氧气与氢气,要在保证电堆反应充分发挥性能的同时减少不必要损耗,降低寄生功率,提高系统整体效率。同时为了控制电堆温度,供气系统还需要实时控制空气流速,使电堆除去电堆多余热量,使电堆工作在合理的工作范围内,以提高电堆的性能与寿命。另外,SOFC中存在很多的运行约束,包括燃料利用率需要保持在0.7

0.9,过氧率保证在8

11之间,为了解决上述问题,亟需致力于研发一种基于分布式深度强化学习的固体氧化物燃料电池供气系统协调控制方法。

技术实现思路

[0004]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于分布式深度强化学习的固体氧化物燃料电池供气系统协调控制方法,首次将分布式深度强化学习的内容应用于固体氧化物燃料电池供气系统的能量管理领域,将人工智能技术与传统气体流量控制技术相结合提高固体氧化物燃料电池供气系统的效率。
[0005]本专利技术的目的可以通过以下技术方案来实现:
[0006]本专利技术的目的是提供一种固体氧化物燃料电池供气系统协调控制方法,包括以下步骤:
[0007]S1:离线训练:设置两个智能体,分别为氢气智能体和空气智能体,所述氢气智能体和空气智能体分别用于控制进入固体氧化物燃料电池的氢气流速和空气流速,之后采用集中学习、分散执行的方式对智能体进行训练,以保证两个智能体能够在训练中考虑对方的策略,并在训练中引入探索单元以提升自适应能力和鲁棒性,最终获得协调控制策略模型;
[0008]S2:在线应用:根据训练完成的协调控制策略模型,氢气智能体检测固体氧化物燃料电池的氢气流量与输出电压,空气智能体通过调整空压机电机电压来控制氧气流量,每个智能体根据自己的传感器状态执行决策,使固体氧化物燃料电池的输出电压和电堆温度达到预设理想值。
[0009]进一步地,所述氢气智能体和空气智能体均包括1个演员网络和2个评论家网络。
[0010]进一步地,S1中,采用PE

MA4DPG算法进行离线训练,所述PE

MA4DPG算法是DDPG算法采用演员

评论家架构,以此在连续动作空间中选取合适的动作。
[0011]进一步地,S1中,所述PE

MA4DPG算法中包括策略网络和价值函数网络;
[0012]其中策略网络由演员网络当前网络和演员网络目标网络组成;
[0013]其中价值函数网络由评论家当前网络和评论家目标网络组成;
[0014]每个智能体的演员网络的输入包括所有智能体的动作状态信息,以此作为集中训练,以此使得每一个智能体均建立了一个中心化的评论家网络,且给出对应的值函数,缓解环境不稳定的问题。
[0015]进一步地,所述评论家当前网络通过最小化每个智能体的损失函数来优化更新参数,损失函数计算公式如下:
[0016][0017]y
i
=r
i
+γQ

(S

,

a1,

a

N

Q

)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0018]式中:a1,a2,

,a
N
为N个智能体的动作;r
i
为奖励值;y
i
为目标Q值;γ为奖励折扣系数。
[0019]进一步地,所述PE

MA4DPG算法中采用分布式多智能体训练框架,包括种群空间、探索者、拓荒者、示范者、公共经验池5个模块。
[0020]进一步地,其中种群空间模块为种群的生存环境,在每个种群空间中包括了两个智能体,为探索者、拓荒者、示范者中的任意两两组合;
[0021]不同的种群空间中的环境是相同的,但相互独立,两个智能体在这些环境中进行集中训练,进而获得更加丰富的样本,在不同的种群空间中包含2个智能体分别代表氢气流量控制器、空气流量控制器。
[0022]进一步地,所述探索者模块中设有完整的智能体结构,不同的探索者采用了不同探索原理,以提升样本多样性,不同的探索者在不同的种群空间中探索以获得更多的样本放入公共经验池;
[0023]所述拓荒者模块中包含了SAC算法智能体,所述SAC算法智能体通过最大熵的探索策略对环境进行全面的探索;
[0024]所述示范者模块中包括已经调整过参数并能够获得杰出控制性能的常规氢气流量控制器、空气流量控制器,所述常规氢气流量控制器、空气流量控制器在不同的种群空间中和对应的不同的环境进行交互来制造高价值示范样本放入公共经验池,以引导探索者学习;
[0025]所述公共经验池模块包括2个的公共经验池,2个公共经验池分别存放拓荒者和探索者采集的探索样本和示范者采集的示范样本。
[0026]进一步地,在不同剧集采用人工设计负载电流工况的范围来使得不同种群空间的多个智能体能够从简至难缓慢学习对应的控制策略,其中负载电流变化量随着剧集的变化为:
[0027][0028]其中,ΔI
st
是负载电流差;
[0029]不同的探索者中的演员网络采用了不同的网络模型;
[0030]种群空间1

2中的探索者中的探索策略采用贪婪策略,命名为:ε

探索者,其探索动作如式:
[0031]不同探险者中的演员使用不同的网络模型,探索者在种群空间1

2中采用的探索策略采用贪婪策略,探索动作如下所示:
[0032][0033]其中,a

是第l个探索者的动作,是第l个探索者的策略函数,为随机动作;
[0034]种群空间3

4中的探索者使用OU噪声探测策略,OU探索者是探索者,其探测动作如下:
[0035][0036]其中,是第j个探索者的动作,是第j个探索者的策略函数,为OU噪声;
[0037]在种群空间5

8中,探索者使用高斯噪声探测策略,因此这些探索者被称为高斯探索者,探索动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种固体氧化物燃料电池供气系统协调控制方法,其特征在于,包括以下步骤:S1:离线训练:设置两个智能体,分别为氢气智能体和空气智能体,所述氢气智能体和空气智能体分别用于控制进入固体氧化物燃料电池的氢气流速和空气流速,之后采用集中学习、分散执行的方式对智能体进行训练,以保证两个智能体能够在训练中考虑对方的策略,并在训练中引入探索单元以提升自适应能力和鲁棒性,最终获得协调控制策略模型;S2:在线应用:根据训练完成的协调控制策略模型,氢气智能体检测固体氧化物燃料电池的氢气流量与输出电压,空气智能体通过调整空压机电机电压来控制氧气流量,每个智能体根据自己的传感器状态执行决策,使固体氧化物燃料电池的输出电压和电堆温度达到预设理想值。2.根据权利要求1所述的一种固体氧化物燃料电池供气系统协调控制方法,其特征在于,所述氢气智能体和空气智能体均包括1个演员网络和2个评论家网络。3.根据权利要求2所述的一种固体氧化物燃料电池供气系统协调控制方法,其特征在于,S1中,采用PE

MA4DPG算法进行离线训练,所述PE

MA4DPG算法是DDPG算法采用演员

评论家架构,以此在连续动作空间中选取合适的动作。4.根据权利要求3所述的一种固体氧化物燃料电池供气系统协调控制方法,其特征在于,S1中,所述PE

MA4DPG算法中包括策略网络和价值函数网络;其中策略网络由演员网络当前网络和演员网络目标网络组成;其中价值函数网络由评论家当前网络和评论家目标网络组成;每个智能体的演员网络的输入包括所有智能体的动作状态信息,以此作为集中训练,以此使得每一个智能体均建立了一个中心化的评论家网络,且给出对应的值函数,缓解环境不稳定的问题。5.根据权利要求4所述的一种固体氧化物燃料电池供气系统协调控制方法,其特征在于,所述评论家当前网络通过最小化每个智能体的损失函数来优化更新参数,损失函数计算公式如下:y
i
=r
i
+γQ

(S

,a1′
,

a

N

Q

)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)式中:a1,a2,

,a
N
为N个智能体的动作;r
i
为奖励值;y
i
为目标Q值;γ为奖励折扣系数。6.根据权利要求3所述的一种固体氧化物燃料电池供气系统协调控制方法,其特征在于,所述PE

MA4DPG算法中采用分布式多智能体训练框架,包括种群空间、探索者、拓荒者、示范者、公共经验池5个模块。7.根据权利要求3所述的一种固体氧化物燃料电池供气系统协调控制方法,其特...

【专利技术属性】
技术研发人员:李嘉文项江鑫崔昊杨蒋伟杨程江友华杜红卫韩韬
申请(专利权)人:上海电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1