一种基于多智能体深度强化学习的频率控制方法及系统技术方案

技术编号：44554976 阅读：7 留言：0更新日期：2025-03-11 14:17

本发明专利技术公开了一种基于多智能体深度强化学习的频率控制方法及系统，涉及电力系统频率控制技术领域，包括：构建电力系统频率响应模型；在深度确定性策略梯度MADDPG算法中引入集中式训练、分布式决策的训练框架；基于深度确定性策略梯度MADDPG算法将电力系统环境建模为马尔科夫决策过程。本发明专利技术提出了一种基于MADDPG算法的多区域电力系统频率协同控制方法，克服了传统控制方法在多区域复杂环境下的不足。采用了一种集中训练和分散执行架构，使得智能体能够在多区域电力系统中实现协同工作，提高了控制策略的灵活性和适应性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电力系统频率控制，特别是一种基于多智能体深度强化学习的频率控制方法及系统。

技术介绍

1、在电力系统中，频率控制是保障系统稳定运行的核心环节。随着可再生能源的渗透率不断提高，传统的频率控制手段面临巨大的挑战。这是由于风能、太阳能等可再生能源具有高度的不确定性和间歇性，导致电力系统频率波动加剧。此外，电力系统逐渐向分布式、智能化方向发展，传统的控制方法难以应对复杂多变的电力需求和供应环境。因此，开发更智能、更适应性强的控制策略成为当前的研究热点。

2、在电力系统中，一般通过自动发电控制(automatic generation control,agc)来实现频率控制，当前agc的控制方法可以分为传统解析式方法和机器学习两种。在传统解析式方法中，最常见的是pid控制，pid通过频率偏差或者区域控制误差(area controlerror,ace)计算出机组的控制信号，但在处理复杂和非线性系统时，pid控制器的性能表现有限。为了克服pid控制器的局限性，线性二次型调节器(lqr)、模型预测控制(mpc)、鲁棒控制等先进方法被引入电力系统频率控制中。文献中，研究了lqr控制器在多区域电力系统中的应用，并通过卡尔曼滤波器优化了系统的响应特性。现有技术提出了一种mpc控制器，并用粒子群优化算法调整控制器参数，从而增强了系统的频率控制能力。另一个则探讨了鲁棒控制在含风电的系统中的应用，通过设计鲁棒控制器减少了频率波动和联络线功率波动。尽管传统解析式方法在电力系统频率控制中具有广泛的应用基础和理论支持，但它们普遍存在对

3、近年来，机器学习得到了快速发展，其方法能够通过数据驱动的方式减少对系统模型的依赖。强化学习(rl)因其无需精确的系统模型，通过与环境的交互自主学习最优策略。在复杂动态系统中显示出强大的适应性和优化能力。然而，单智能体强化学习只考虑了自身行为对环境的影响，而忽略了其他智能体的影响，也没有考虑智能体之间的协调。因此，这种方法难以用于多区域系统中。随着多智能体强化学习的发展，有人提出将多智能体强化学习(multi-agent reinforcement learning,marl)应用到多区域的agc中。现有技术有将多智能体q学习与博弈论结合，促进了各区域间的信息共享和策略交流，提高了控制区域的整体长期性能。然而，由于多智能体q学习等传统强化学习只能处理离散动作域，这限制了其控制性能。因此，深度强化学习被提出来解决连续动作域的问题。多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,maddpg)算法被提出后，有学者将maddpg算法引入多区域电力系统中，有效降低了各区域因扰动引起的频率偏差。然而，上述均只考虑了减少频率偏差和联络线功率偏差，忽略了机组调频的经济性指标。

技术实现思路

1、鉴于上述存在的问题，提出了本专利技术。

2、因此，本专利技术解决的技术问题是：如何在高渗透率可再生能源及分布式智能电网的复杂环境中，有效应对电力系统频率波动及区域协调控制的问题。

3、为解决上述技术问题，本专利技术提供如下技术方案：一种基于多智能体深度强化学习的频率控制方法，包括：构建电力系统频率响应模型；在深度确定性策略梯度maddpg算法中引入集中式训练、分布式决策的训练框架；基于所述深度确定性策略梯度maddpg算法将电力系统环境建模为马尔科夫决策过程。

4、作为本专利技术所述的基于多智能体深度强化学习的频率控制方法的一种优选方案，其中：所述电力系统频率响应模型包括火电机组模型、发电机-负荷模型、联络线功率和区域控制误差模型；

5、所述火电机组模型中的调速器动态模型表示为：

6、

7、所述火电机组模型中的汽轮机动态模型表示为：

8、

9、其中，tsgi为火电机组调速器时间常数，δuti为i区域火电机组的控制信号，ri为i区域火电机组的一次调频系数，δfi为i区域系统频率偏差，δptgi为i区域火电机组调速器输出的功率偏差，tti、δpmi分别为i区域火电机组汽轮机的时间常数、输出的功率偏差。

10、作为本专利技术所述的基于多智能体深度强化学习的频率控制方法的一种优选方案，其中：所述发电机-负荷模型功率差与频率波动之间的关系表示为：

11、

12、其中，δfi表示区域i的系统频率偏差，hi表示系统惯性时间常数，di表示系统阻尼因子，δpmi和δpli分别表示区域i的机组输出功率和受到负荷扰动，δptie为区域1、2之间的联络线功率偏差。

13、作为本专利技术所述的基于多智能体深度强化学习的频率控制方法的一种优选方案，其中：区域1、2之间的所述联络线功率的动态模型表示为：

14、

15、所述区域控制误差模型表示为：

16、acei＝δptie+biδfi

17、其中，t12表示区域1、2之间的同步系数，δf1、δf2分别为区域1、2的系统频率偏差，bi为频率响应系数，由区域的等效调差系数与负荷的频率调节效应系数决定，表示为：

18、作为本专利技术所述的基于多智能体深度强化学习的频率控制方法的一种优选方案，其中：引入集中式训练、分布式决策的训练框架后所述深度确定性策略梯度maddpg算法计算q值的公式为：

19、

20、随着q值计算公式的改变，maddpg的critic网络和actor网络更新参数的目标函数和梯度计算公式也跟着改变，更改后的公式表示为：

21、

22、其中，为所有智能体在i时刻的动作，m为智能体数量，xi为所有智能体的观测值的集合，即θj、φj分别表示第j个智能体的critic网络参数、actor网络参数，表示第j个智能体在i时刻的观测量。

23、作为本专利技术所述的基于多智能体深度强化学习的频率控制方法的一种优选方案，其中：所述建模为摩尔付过程包括状态和动作空间设计、奖励函数设计；

24、所述状态和动作空间设计对系统的可观测量分别进行比例、积分、微分，得到的状态空间为：

25、s＝[δf,δf/s,dδf/dt,δptie,δptie/s,dδptie/dt,δace,δace/s,dδace/dt]

26、在电力系统的频率控制中，控制器输出的指令是机组的控制信号，每个区域只有一个机组，因此设置智能体的动作输出为火电机组的控制信号：

27、a＝[δut]。

28、作为本专利技术所述的基于多智能体深度强化学习的频率控制方法的一种优选方案，其中：所述奖励函数设计在系统受到负荷扰动后，区域控制误差ace能够快速减小到0，表示为：

29、

30、其中，λ1、λ2为权重系数。...

【技术保护点】

1.一种基于多智能体深度强化学习的频率控制方法，其特征在于，包括：

2.如权利要求1所述的基于多智能体深度强化学习的频率控制方法，其特征在于：所述电力系统频率响应模型包括火电机组模型、发电机-负荷模型、联络线功率和区域控制误差模型；

3.如权利要求2所述的基于多智能体深度强化学习的频率控制方法，其特征在于：所述发电机-负荷模型功率差与频率波动之间的关系表示为：

4.如权利要求3所述的基于多智能体深度强化学习的频率控制方法，其特征在于：区域1、2之间的所述联络线功率的动态模型表示为：

5.如权利要求4所述的基于多智能体深度强化学习的频率控制方法，其特征在于：引入集中式训练、分布式决策的训练框架后所述深度确定性策略梯度MADDPG算法计算Q值的公式为：

6.如权利要求5所述的基于多智能体深度强化学习的频率控制方法，其特征在于：所述建模为摩尔付过程包括状态和动作空间设计、奖励函数设计；

7.如权利要求6所述的基于多智能体深度强化学习的频率控制方法，其特征在于：所述奖励函数设计在系统受到负荷扰动后，区域控制误差ACE能够快速减小到0，表示为：

8.一种采用如权利要求1～7任一所述的基于多智能体深度强化学习的频率控制方法的系统，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于多智能体深度强化学习的频率控制方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于多智能体深度强化学习的频率控制方法的步骤。

...

【技术特征摘要】

1.一种基于多智能体深度强化学习的频率控制方法，其特征在于，包括：

3.如权利要求2所述的基于多智能体深度强化学习的频率控制方法，其特征在于：所述发电机-负荷模型功率差与频率波动之间的关系表示为：

4.如权利要求3所述的基于多智能体深度强化学习的频率控制方法，其特征在于：区域1、2之间的所述联络线功率的动态模型表示为：

5.如权利要求4所述的基于多智能体深度强化学习的频率控制方法，其特征在于：引入集中式训练、分布式决策的训练框架后所述深度确定性策略梯度maddpg算法计算q值的公式为：

6.如权利要求5所述的基于多智能体深度强化学...

【专利技术属性】
技术研发人员：古庭赟，范强，文贤馗，刘明顺，王国松，祝健杨，王宇，林呈辉，高吉普，高浩乾，宗志亚，潘钰宁，冯建财，张后谊，李博文，毛钧毅，冯起辉，辛明勇，刘斌，高源，代奇迹，何雨旻，唐赛秋，张宣，
申请(专利权)人：贵州电网有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人