一种基于经验导向Q学习的锅炉汽轮机系统负荷控制方法技术方案

技术编号：41743244 阅读：9 留言：0更新日期：2024-06-19 13:04

本发明专利技术公开了一种基于经验导向Q学习的锅炉汽轮机系统负荷控制方法，包括：将原始负荷控制问题转化为关于跟踪误差的增广误差系统调节问题；基于锅炉汽轮机运行历史数据构建经验池，提出离策略Q学习方法，根据批量采样信息更新状态‑动作值函数，设计评价神经网络近似Q函数，并结合最小二乘法迭代更新状态‑动作值Q函数；再利用的采样‑训练循环嵌套训练框架，进一步在线优化评价网络权值；设计Q学习自适应控制器，生成具有优化趋向的数据存入经验池，实现Q学习算法的导向学习，以自适应调整系统的负荷控制策略。本发明专利技术高效利用系统运行数据和经验导向的学习方式，解决了锅炉汽轮机系统负荷控制中的数据利用难和数据质量要求高等难题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及锅炉汽轮机系统数据驱动控制领域，主要涉及一种基于经验导向q学习的锅炉汽轮机系统负荷控制方法。

技术介绍

1、随着“双碳”政策的推进，火力发电与可再生能源的相互耦合成为能源低碳化的关键策略。然而，这一趋势也为火电厂带来了新的挑战，即平抑电网波动。在这一背景下，优化火电厂锅炉汽轮机系统负荷控制对于确保电网的安全稳定运行至关重要。

2、尽管传统的控制方案，如比例积分微分(pid)控制器，因部署简单在工业过程控制领域得到广泛使用，但它们在负荷快速变化时适应能力不足，难以满足设计要求。因此，一些学者提出了基于反馈线性化方法的先进经济模型预测控制方案，以实现较好的跟踪精度和经济性能。此外，还有学者考虑在控制方案中引入了状态观测器和误差积分器，并提出了模糊鲁棒控制，实验证明该方法具有较好的跟踪性能和鲁棒性。然而，所有这些方法都建立在对系统模型的精确建立之上。事实上，对于存在许多非线性、参数耦合等复杂过程的系统，比如锅炉汽轮机系统，这些复杂性极大地阻碍了基于模型方法的进一步发展。

3、强化学习，又称自适应动态规划，作为一种数据驱动的人工智能算法，通过智能体与环境的交互学习，可用于解决模型未知系统的优化控制问题。虽已有学者提出基于自适应动态规划的锅炉汽轮机控制方法，这些方法通常使用一批采集的数据集来对网络权重进行训练。然而，该方法往往需要对批量数据具有足够丰富度的假设，以获得满意的结果。针对原始单批量数据训练方式存在数据利用不充分和过度依赖输入数据的问题，因此如何有效储存数据并实现具有优化趋向的训练方式，仍待进一步开发。

4、因此，迫切需要实现一种具有数据高效利用，且具有经验导向的数据驱动方法，实现给定目标下锅炉汽轮机系统的负荷控制问题。

技术实现思路

1、本专利技术提供了一种基于经验导向q学习的锅炉汽轮机系统负荷控制方法，解決含有未建模动态锅炉汽轮机系统负荷控制问题，使得锅炉汽轮机系统负荷控制策略具有自适应、自学习能力，引入具有经验导向的数据再利用的采样-训练循环嵌套训练框架，有效避免了单一采样-训练框架下数据利用率低和数据要求高等问题，详见下文描述：

2、一种基于经验导向q学习的锅炉汽轮机系统负荷控制方法，所述方法包括：

3、步骤1，固定采样周期ts，对锅炉-汽轮机系统进行离散化，得到离散锅炉汽轮机系统，将离散锅炉汽轮机系统的，将离散锅炉汽轮机系统的原始负荷控制问题转化为关于跟踪误差的增广误差系统调节问题；

4、步骤2，基于锅炉汽轮机历史采样数据构建关于增广误差系统的经验池，提出离策略的q学习方法，并根据批量采样信息更新状态-动作值函数，设计单评价网络近似q函数，并结合最小二乘法更新评价网络权值；

5、步骤3，构建基于经验导向的数据再利用的采样-训练循环嵌套训练框架，进一步在线优化评价网络权值；

6、步骤4，利用策略梯度下降法设计q学习自适应控制器，生成具有优化趋向的数据存入经验池，实现q学习算法的导向学习；

7、进一步的，步骤1具体包括如下内容：

8、步骤101，固定采样周期ts，对锅炉-汽轮机系统进行离散化，得到离散锅炉汽轮机系统表示如下

9、x(k+1)＝f(x(k),u(k)) (1)

10、其中f(·,·)表示的关于锅炉-汽轮机动态的未知非线性函数，x(k)和u(k)分别为采样时间k下的系统状态向量和控制输入向量。

11、步骤102，负荷期望轨迹形式如下

12、r(k+1)＝h(r(k)) (2)

13、其中r(k)是时刻k下的期望负荷目标，h(r)是一个lipschitz连续向量函数。

14、可知，负荷跟踪误差如下

15、

16、步骤103，离散锅炉汽轮机系统的负荷控制问题即：为系统(1)设计最优控制输入u(k)，使得状态x(k)尽快跟踪上期望目标负荷r(k)，同时最小化输入消耗。

17、步骤104，关于跟踪误差的增广误差系统如下

18、

19、步骤105，所述关于跟踪误差的增广误差系统调节问题即：为增广误差系统(4)，设计控制输入u(k)，最小化跟踪误差以及输入消耗，即如下性能指标

20、

21、其中γ∈(0,1)是折扣因子，w(e)和e(u)为正定函数，r(y(l),u(l))表示在l时刻下获得的效用函数。

22、进一步的，步骤2具体包括如下内容；

23、步骤201，所述降阶系统为：

24、步骤201，构建所述历史数据经验池，形式如下

25、

26、其中y表示为增广误差系统状态，y′表示下一时刻的增广误差系统状态，a表示在状态y下采取的控制输入，n表示经验池大小。

27、步骤202，对于控制策略u(y)，在状态y(k)下，其值函数vu(y(k))定义为

28、

29、步骤203，满足下，所述状态-动作值函数qu(y(k),a)为：

30、

31、步骤204，所述使用离策略的迭代q学习算法评估状态-动作值函数qu(y(k),a)，具体为：

32、(1)根据采样数据(y,a,r,y′)，对q值进行迭代更新：

33、

34、其中i为迭代次数。

35、(2)基于梯度下降法，可知

36、

37、其中ξ是策略更新步长。

38、(3)令i＝i+1，直到q值收敛。

39、步骤205，可知最优q函数满足如下hjb方程

40、q*(y(k),a)＝r(y(k),a)+q*(y(k+1),u(k)) (11)

41、q学习目标是找到最优策略最小化q函数，即

42、

43、步骤206，设计单评价网络来近似q函数，因此，所述q函数可以表示为：

44、

45、其中，l为评价网络隐藏层神经元个数，为网络激活向量函数，ω对应为网络权重向量，ε为评价网络近似误差。

46、选择来表示理想评价网络权重向量，所述近似q函数为评价网络输出，表示如下

47、

48、步骤207，结合批量采样信息，采用最小二乘法迭代更新评价网络权值，具体为：

49、(1)选取批量大小数据计算每个数据

50、下的时间差分误差，如下：

51、

52、其中表示的是第l个数据下的评价神经网络近似残差。

53、(2)由所述最小二乘法对网络权重参数进行更新

54、

55、其中以及

56、进一步的，步骤3具体包括如下内容；

57、步骤301，选取第j次批量数据作为训练数据，根据公式(16)在线优化评价网络权值，表示如下：

58、

59、步骤302，基于梯本文档来自技高网...

【技术保护点】

1.一种基于经验导向Q学习的锅炉汽轮机系统负荷控制方法，其特征在于，包括如下步骤：

2.根据权利要求1所述一种基于经验导向Q学习的锅炉汽轮机系统负荷控制方法，其特征在于，步骤1中具体包括如下内容：

3.根据权利要求2所述一种基于经验导向Q学习的锅炉汽轮机系统负荷控制方法，其特征在于，步骤2具体包括如下内容：

4.根据权利要求3所述一种基于经验导向Q学习的锅炉汽轮机系统负荷控制方法，其特征在于，步骤3具体包括如下内容：

5.根据权利要求4所述一种基于经验导向Q学习的锅炉汽轮机系统负荷控制方法，其特征在于，步骤4具体包括如下内容：

【技术特征摘要】

1.一种基于经验导向q学习的锅炉汽轮机系统负荷控制方法，其特征在于，包括如下步骤：

2.根据权利要求1所述一种基于经验导向q学习的锅炉汽轮机系统负荷控制方法，其特征在于，步骤1中具体包括如下内容：

3.根据权利要求2所述一种基于经验导向q学习的锅炉汽轮机系统负荷控制...

【专利技术属性】
技术研发人员：刘晓敏，彭献永，范赫，余梦君，王浩宇，杨春雨，周林娜，赵峻，
申请(专利权)人：中国矿业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人