System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于参数共享的多智能体自动发电控制方法、系统及介质技术方案_技高网

基于参数共享的多智能体自动发电控制方法、系统及介质技术方案

技术编号:42711129 阅读:7 留言:0更新日期:2024-09-13 12:02
本发明专利技术涉及一种基于参数共享的多智能体自动发电控制方法、系统及介质,该方法包括以下步骤:获取电力系统中各个互联区域的发电机组运行信息;基于所述各个互联区域的发电机组运行信息,计算对应各个互联区域的观测状态;基于所述各个互联区域的观测状态,对应互联区域的控制器采用基于参数共享的多智能体双延迟深度确定性策略梯度算法进行运算处理,输出各互联区域的控制信号,完成自动发电控制过程。与现有技术相比,本发明专利技术具有在扩展新的电力系统区域时也能实现较高的控制性、降低控制误差、提高控制稳定性等优点。

【技术实现步骤摘要】

本专利技术涉及自动发电控制,尤其是涉及一种基于参数共享的多智能体自动发电控制方法、系统及介质


技术介绍

1、自动发电控制(agc)在电力系统中扮演着维持频率稳定性的关键角色,它通过调节发电机的输出功率,使得电网频率保持在额定值附近,并尽可能减少不同区域之间的功率交换。然而,随着可再生能源的广泛应用,电力系统面临着日益增加的不确定性。

2、传统的agc方法往往依赖于准确的系统模型,并且需要不同系统模型之间的调整,这给电力系统的频率稳定性带来了挑战。近年来,随着无模型数据驱动算法的发展,特别是强化学习等技术的兴起,人们开始探索在没有系统数学模型的情况下,如何自适应地处理复杂的互联系统控制问题。

3、然而,传统的单一代理强化学习方法在训练过程中存在着不稳定性的问题,尤其是在涉及到多区域控制时。为了解决这一问题,研究者们开始尝试采用多智能体控制算法来调节电力系统。尽管取得了一定的进展,但目前的研究主要集中在已有的互联区域内,而对于新区域的扩展则面临着合作频率控制等新的挑战。因此,在新能源广泛应用和电力系统持续扩展的背景下,对于可扩展agc的研究具有重要的理论和实践意义。


技术实现思路

1、本专利技术的目的就是为了提供一种提高控制过程的稳定性的基于参数共享的多智能体自动发电控制方法、系统及介质。

2、本专利技术的目的可以通过以下技术方案来实现:

3、一种基于参数共享的多智能体自动发电控制方法,包括以下步骤:

4、获取电力系统中各个互联区域的发电机组运行信息;

5、基于所述各个互联区域的发电机组运行信息,计算对应各个互联区域的观测状态;

6、基于所述各个互联区域的观测状态,对应互联区域的控制器采用基于参数共享的多智能体双延迟深度确定性策略梯度算法进行运算处理,输出各互联区域的控制信号,完成自动发电控制过程。

7、进一步地,所述各个互联区域的观测状态包括区域控制误差、区域频率变化、区域控制误差变化率和联络线功率变化。

8、进一步地,所述基于参数共享的多智能体双延迟深度确定性策略梯度算法的执行步骤包括:

9、s1、网络参数初始化:初始化actor网络和critic网络的参数θq,θμ,并将其复制到各自的目标actor网络和目标critic网络权重θ'q,θ'μ中;

10、s2、缓冲区初始化:为所有智能体初始化共同的经验回放缓冲区d=(s,a,r,s′),其中s为所有智能体环境的观测状态即所述各个互联区域的观测状态,a为所有智能体的动作,r为所有智能体采取动作后的奖励,s′为所有智能体执行动作后的新观测状态;

11、s3、随机过程初始化:初始化动作探索的随机过程ε~clip(n(0,σ),-c,c),其中ε为从高斯噪声中剪切的值,n(0,σ)表示为动作添加的正态分布随机噪声,c为从高斯噪声中随机采样的上下限;

12、s4、重置:重置环境的观测状态、动作,获取每个智能体i的初始观测状态和动作;

13、s5、时间步循环:对于每次迭代训练中的每个时间步t,执行步骤s6-s11;

14、s6、动作选择:对于每个智能体i,根据当前观测状态oi使用策略选择动作其中μi(oi)为智能体i的actor网络输出;

15、s7、执行动作:所有智能体根据选择的动作ai进行执行;

16、s8、经验收集:每一个智能体i根据执行的动作观察当前奖励ri和下一个观测状态oi′,并将本地经验ei=(oi,ai,ri,o′i)传递给所述经验缓冲区d,其中oi为智能体i的当前观测状态,ai为智能体i的当前执行动作,ri为智能体i的当前奖励,o′i为智能体i的下一观测状态;

17、s9、状态更新:更新所有智能体的观测状态oi=o′i至下一时间步;

18、s10、网络更新:从经验缓冲区d中抽取批量样本,更新actor网络和critic网络;

19、s11、目标网络更新:采用软更新策略更新目标actor网络和目标critic网络;

20、s12、迭代:重复步骤s3-s11,直至迭代结束。

21、进一步地,所述critic网络采用dual critic网络,分别评价个体智能体的策略和所有智能体的策略。

22、进一步地,所述网络更新过程中,更新critic网络的损失函数为:

23、

24、

25、ε~clip(n(0,σ),-c,c)

26、式中,l(θ)为critic网络的损失函数,yi为区域i的目标critic网络预测值,为区域i的critic网络q值,m为训练轮次,o′i为区域i下一时刻的观测,a′i为区域i下一时刻的动作,ri为区域i的奖励,γ为折扣因子,为区域i目标critic网络q值,s'为执行动作的新观测状态,μ′1(o′1)为区域i智能体的目标critic网络输出,ε为从高斯噪声中剪切的值,μ'n(o'n)为区域n智能体的目标critic网络输出,n(0,σ)为正态分布随机噪声,c为从高斯噪声中随机采样的上下限。

27、进一步地,所述网络更新过程中,actor网络集成了策略梯度定理,近似为:

28、

29、式中,为对损失函数求梯度最小化,为对策略求梯度最小化,为对价值函数最小化损失求梯度,为区域i执行策略μ的价值函数,oi'为区域i下一时刻的观测,μi'为区域n智能体的目标critic网络输出,m为训练轮次,j为策略函数。

30、进一步地,所述目标actor网络和目标critic网络更新的表达式为:

31、

32、

33、式中,θq为critic网络参数,为critic网络的学习率,为对损失函数求梯度,l(θq)为损失函数,为actor网络的学习率,θq′为目标critic网络参数,τ为目标actor网络和目标critic网络的软更新率,为actor网络参数,为对策略求梯度,为策略函数,为目标actor网络参数。

34、进一步地,所述奖励通过奖励函数进行计算,所述奖励函数的计算表达式为:

35、

36、式中,ri为奖励,ε为缩放因子,biδfi+δptie,i为观测状态中的区域控制误差,δfi为观测状态中的区域频率变化,bi为区域i的频率偏差系数,n为互联系统区域数,δptie,i为观测状态中的联络线功率变化,pi为当前的发电功率,pi'为先前的发电功率。

37、本专利技术还提供一种多智能体自动发电控制系统,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器调用所述计算机程序执行如上述所述的基于参数共享的多智能体自动发电控制方法,输出各互联区域的控制信号,完成自动发电控制过程。

38、本专利技术还提供一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如本文档来自技高网...

【技术保护点】

1.一种基于参数共享的多智能体自动发电控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于参数共享的多智能体自动发电控制方法,其特征在于,所述各个互联区域的观测状态包括区域控制误差、区域频率变化、区域控制误差变化率和联络线功率变化。

3.根据权利要求1所述的一种基于参数共享的多智能体自动发电控制方法,其特征在于,所述基于参数共享的多智能体双延迟深度确定性策略梯度算法的执行步骤包括:

4.根据权利要求3所述的一种基于参数共享的多智能体自动发电控制方法,其特征在于,所述critic网络采用dual critic网络,分别评价个体智能体的策略和所有智能体的策略。

5.根据权利要求3所述的一种基于参数共享的多智能体自动发电控制方法,其特征在于,所述网络更新过程中,更新critic网络的损失函数为:

6.根据权利要求3所述的一种基于参数共享的多智能体自动发电控制方法,其特征在于,所述网络更新过程中,actor网络集成了策略梯度定理,近似为:

7.根据权利要求3所述的一种基于参数共享的多智能体自动发电控制方法,其特征在于,所述目标actor网络和目标critic网络更新的表达式为:

8.根据权利要求3所述的一种基于参数共享的多智能体自动发电控制方法,其特征在于,所述奖励通过奖励函数进行计算,所述奖励函数的计算表达式为:

9.一种多智能体自动发电控制系统,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器调用所述计算机程序执行如权利要求1-8任一所述的基于参数共享的多智能体自动发电控制方法,输出各互联区域的控制信号,完成自动发电控制过程。

10.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述基于参数共享的多智能体自动发电控制方法的指令。

...

【技术特征摘要】

1.一种基于参数共享的多智能体自动发电控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于参数共享的多智能体自动发电控制方法,其特征在于,所述各个互联区域的观测状态包括区域控制误差、区域频率变化、区域控制误差变化率和联络线功率变化。

3.根据权利要求1所述的一种基于参数共享的多智能体自动发电控制方法,其特征在于,所述基于参数共享的多智能体双延迟深度确定性策略梯度算法的执行步骤包括:

4.根据权利要求3所述的一种基于参数共享的多智能体自动发电控制方法,其特征在于,所述critic网络采用dual critic网络,分别评价个体智能体的策略和所有智能体的策略。

5.根据权利要求3所述的一种基于参数共享的多智能体自动发电控制方法,其特征在于,所述网络更新过程中,更新critic网络的损失函数为:

6.根据权利要求3所述的一种基于参数共享的多智能体自动发电控制方法,...

【专利技术属性】
技术研发人员:杨帆肖雄英李东东
申请(专利权)人:上海电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1