当前位置: 首页 > 专利查询>三峡大学专利>正文

基于具有时间隧道思想的多智能体强化学习的智能发电控制方法技术

技术编号:15726477 阅读:40 留言:0更新日期:2017-06-29 20:09
基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,包括:确定状态离散集S;确定联合动作离散集A;采集各个电网的实时运行数据,计算各个区域控制误差ACE

【技术实现步骤摘要】
基于具有时间隧道思想的多智能体强化学习的智能发电控制方法
本专利技术涉及电力系统智能发电控制技术,特别涉及一种基于具有时间隧道思想的多智能体强化学习的智能发电控制方法。
技术介绍
互联电网自动发电控制(AutomaticGenerationControl,AGC)是调节电网频率、有功功率和保证电网安全运行的重要技术手段。目前,AGC控制策略的设计多为经典PI控制结构。然而,由于电力系统运行点随日、月、季、年的不断变化,基于传统控制方法的固定增益控制器难以满足日益复杂的电力系统对控制性能的要求。神经网络方法、模糊控制、遗传方法等智能方法相继应用于AGC控制器的设计。传统PI控制和模糊控制可保证对受控对象存在的模型不确定性具有较高的鲁棒性,但在最优化设计方面还存在一定欠缺。随着间歇式新能源发电系统、电动汽车充电站和智能用户等会在未来几年内国家新能源政策大力支持下急剧增加,电网负荷发电平衡过程更接近于一个典型的非平稳强随机过程。已有理论研究表明,强化学习方法所具有的高度自学习与自寻优能力在解决调度端最优发电控制方面具有更好的协调性与鲁棒性。多智能体强化学习算法是人工智能领域的热点研究方向,其中基于经典Q学习的算法框架体系最具代表性。针对不同的博弈形式,多种基于随机博弈论的强化学习算法被学者们陆续提出,如Minimax-Q、Nash-Q、Friend-or-FoeQ和CE-Q。图1为各类均衡博弈及对应的常用算法。但由于Minimax-Q是两个Agent的零和博弈、Nash-Q需要每个Agent都获悉其余Agent的行动和报酬、FF-Q要求Agent被告知所面临的敌友关系、CE-Q的Agent必须合作来联合学习均衡策略,致使这些算法的应用范围都较为局限。Bowling于2002年提出了一种改进的Q学习算法,即WoLF-PHC算法。它采用了混合策略,并且只需维持自身的一张Q值表。然而由于WOLF在2*2博弈中,无法对赢输标准进行精确计算,致使WoLF-PHC的决策仅能取决于估值均衡奖励进行探索。因此需要探索新方法,得到更优化的智能发电控制的方法,使其满足日益复杂的电力系统对控制性能的要求。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,该方法融合了PDWoLF-PHC算法、时间隧道思想和SARSA(λ)算法,以解决传统控制方法的固定增益控制器难以满足日益复杂的电力系统对控制性能的要求,该方法具有更强的适应学习率能力以及更快的学习速率比,具有更快的收敛速度以及更强的鲁棒性,并且在减少CE、提升新能源利用率方面效果显著。本专利技术采取的技术方案为:基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,包括以下步骤:步骤1、确定状态离散集S;步骤2、确定联合动作离散集A;步骤3、在每个控制周期开始时,采集各个电网的实时运行数据,所述实时运行数据包括频率偏差Δf和功率偏差ΔP,计算各个区域控制误差ACEi(k)的瞬时值与控制性能标准CPSi(k)的瞬时值,根据混合策略集合π(sk,ak)选择搜索动作ak;步骤4、在当前状态s,某区域电网i获得一个短期的奖励函数信号Ri(k);步骤5、通过计算与估计获得值函数误差ρk、δk;步骤6、对所有区域电网,更新所有状态-动作(s,a)对应的Q函数表格和时间隧道矩阵e(sk,ak);步骤7、更新的Q值和更新当前状态s下的混合策略合策略π(sk,ak);步骤8、接着更新时间隧道元素e(sk,ak);步骤9、选择变学习率步骤10、根据函数更新决策改变率Δ(sk,ak)和决策空间估计斜率Δ2(sk,ak);步骤11、返回步骤3。所述步骤1的状态离散集S,通过控制性能标准CPS和区域控制误差ACE值的划分来确定。所述步骤2的联合动作离散集A的表达式为:A=A1×A2×…×Ai×…×An其中,Ai为智能体i的输出离散动作集,n为智能体个数。所述步骤4的短期奖励函数信号Ri(k)的表达式为:式中,σi代表的是获得的非负奖励值;CPS1和ACE的平均值可以用来表示控制区的CPS1和CPS2指标,ACEi(k)、CPS1i(k)分别代表控制区域i第k次迭代的1minACE和CPS1的平均值;ΔPi(k)是区域电网i调度中心第k次迭代功率调节值,η1i、η2i、μ1i和μ2i是区域电网i奖励函数的优化权值;ΔPi(k)的二次项的使用是为了减少控制动作的数量以减少发电机不必要的机动;此外,为了确保分段奖励函数的一致性和公平性,权重比值η1i/η2i和μ1i/μ2i应该保持恒定不变,且它们的取值取决于状态变量CPS1/ACE和动作变量ΔP(k)的维数差异。所述步骤5的智能体在第k步迭代过程中的Q函数误差的ρk和Q函数误差的评估δk,它们的表达式为:δk=R(sk,sk+1,ak)+γQk(sk+1,ag)-Qk(sk,ag)ρk=R(sk,sk+1,ak)+γQk(sk+1,ag)-Qk(sk,ak),式中,γ为折扣因子,为Q函数将来的奖励提供折扣;在热电厂为主导的LFC控制过程中,由于最新的奖励最重要,所以应该选取近似1的值。R(sk,sk+1,ak)为在选定的动作ak下,从状态sk转移到状态sk+1的智能体奖励函数;ag为贪婪动作;Q(sk,ak)为动作ak下,状态sk的Q函数;Q(sk,ag)为贪婪动作ag下,状态sk的Q函数。所述步骤6的Q函数的更新为:Qk+1(sk,ak)=Qk(sk,ak)+αδkek(sk,ak)Qk+1(sk,ak)=Qk+1(sk,ak)+αρk;式中,ek(sk,ak)为在状态s动作a下第k步迭代的时间隧道,α为Q学习率,设置为0<α<1,对Q函数的收敛速率即算法稳定性进行权衡;更大的α可以加快学习速度,而更小的α能提高系统的稳定性;在预学习过程中,选择α的初始值为0.1以获得总体的探索,然后为了逐渐提高系统的稳定性,它将以线性方式减少。ρk为第k步迭代过程中的Q函数误差;δk在第k步迭代过程中的Q函数误差的评估;Qk(sk,ak)为动作ak下,状态sk的第k个智能体的Q函数;Qk+1(sk,ak)为动作ak下,状态sk的第k+1个智能体的Q函数。更新时间隧道ek(sk,ak)为:式中,λ为时间隧道衰减因子设置为0<λ<1,其作用是在状态动作对间分配信誉;对于长时延系统,它影响收敛速度及非马尔可夫效果,一般来说,回溯法里λ能被看作为时间标度因素,对于Q函数误差来说,小的λ意味着很少的信誉被赋予到历史状态动作对,而大的λ表明分配到了更多的信誉。γ为折扣因子,为Q函数将来的奖励提供折扣;ek(s,a)为为在状态s动作a下第k步迭代的时间隧道;ek+1(s,a)为为在状态s动作a下第k+1步迭代的时间隧道。所述步骤7的混合策略π(s,a)更新为:式中Δsa是策略更新时需要的增量变化量,它按照下面公式取值:一般情况下,δsa按照下面公式取值:式中为变学习率,且δ为学习率,|Ai|为状态sk下可选行动的个数。所述步骤8的更新时间隧道元素:e(sk,ak)←e(sk,ak)+1。e(sk,ak)为为在状态s动作a下第k步迭代的时间隧道。通过引入决策变化率以及决策空间斜率值,作本文档来自技高网
...
基于具有时间隧道思想的多智能体强化学习的智能发电控制方法

【技术保护点】
基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于包括以下步骤:步骤1、确定状态离散集S;步骤2、确定联合动作离散集A;步骤3、在每个控制周期开始时,采集各个电网的实时运行数据,所述实时运行数据包括频率偏差Δf和功率偏差ΔP,计算各个区域控制误差ACE

【技术特征摘要】
1.基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于包括以下步骤:步骤1、确定状态离散集S;步骤2、确定联合动作离散集A;步骤3、在每个控制周期开始时,采集各个电网的实时运行数据,所述实时运行数据包括频率偏差Δf和功率偏差ΔP,计算各个区域控制误差ACEi(k)的瞬时值与控制性能标准CPSi(k)的瞬时值,根据混合策略集合π(sk,ak)选择搜索动作ak;步骤4、在当前状态s,某区域电网i获得一个短期的奖励函数信号Ri(k);步骤5、通过计算与估计获得值函数误差ρk、δk;步骤6、对所有区域电网,更新所有状态-动作(s,a)对应的Q函数表格和时间隧道矩阵e(sk,ak);步骤7、更新的Q值和更新当前状态s下的混合策略合策略π(sk,ak);步骤8、接着更新时间隧道元素e(sk,ak);步骤9、选择变学习率步骤10、根据函数更新决策改变率Δ(sk,ak)和决策空间估计斜率Δ2(sk,ak);步骤11、返回步骤3。2.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:所述步骤1的状态离散集S,通过控制性能标准CPS和区域控制误差ACE值的划分来确定。3.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:所述步骤2的联合动作离散集A的表达式为:A=A1×A2×…×Ai×…×An其中,Ai为智能体i的输出离散动作集,n为智能体个数。4.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:的短期奖励函数信号Ri(k)的表达式为:式中,σi代表的是获得的非负奖励值;CPS1和ACE的平均值可以用来表示控制区的CPS1和CPS2指标,ACEi(k)、CPS1i(k)分别代表控制区域i第k次迭代的1minACE和CPS1的平均值;ΔPi(k)是区域电网i调度中心第k次迭代功率调节值,η1i、η2i、μ1i和μ2i是区域电网i奖励函数的优化权值;ΔPi(k)的二次项的使用是为了减少控制动作的数量以减少发电机不必要的机动;此外,为了确保分段奖励函数的一致性和公平性,权重比值η1i/η2i和μ1i/μ2i应该保持恒定不变,且它们的取值取决于状态变量CPS1/ACE和动作变量ΔP(k)的维数差异。5.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:所述步骤5的智能体在第k步迭代过程中的Q函数误差的ρk和Q函数误差的评估δk,它们的表达式为:δk=R(sk,sk+1,ak)+γQk(sk+1,ag)-Qk(sk,ag)ρk=R(sk,sk+1,ak)+γQk(sk+1,ag)-Qk(sk,ak),式中,γ为折扣因子,为Q函数将来的奖励提供折扣;在热电厂为主导的LFC控制过程中,由于最新的奖励最重要,所以应该选取近似1的值;R(sk,sk+1,ak)为在选定的动作ak下,从状态sk转移到状态sk+1的智能体奖励函数;ag为贪婪动作;Q(sk,ak)为动作ak下,状态sk的Q函数;Q(sk,ag)为贪婪动作ag下,状态sk的...

【专利技术属性】
技术研发人员:席磊李玉丹陈建峰柳浪
申请(专利权)人:三峡大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1