【技术实现步骤摘要】
基于具有时间隧道思想的多智能体强化学习的智能发电控制方法
本专利技术涉及电力系统智能发电控制技术,特别涉及一种基于具有时间隧道思想的多智能体强化学习的智能发电控制方法。
技术介绍
互联电网自动发电控制(AutomaticGenerationControl,AGC)是调节电网频率、有功功率和保证电网安全运行的重要技术手段。目前,AGC控制策略的设计多为经典PI控制结构。然而,由于电力系统运行点随日、月、季、年的不断变化,基于传统控制方法的固定增益控制器难以满足日益复杂的电力系统对控制性能的要求。神经网络方法、模糊控制、遗传方法等智能方法相继应用于AGC控制器的设计。传统PI控制和模糊控制可保证对受控对象存在的模型不确定性具有较高的鲁棒性,但在最优化设计方面还存在一定欠缺。随着间歇式新能源发电系统、电动汽车充电站和智能用户等会在未来几年内国家新能源政策大力支持下急剧增加,电网负荷发电平衡过程更接近于一个典型的非平稳强随机过程。已有理论研究表明,强化学习方法所具有的高度自学习与自寻优能力在解决调度端最优发电控制方面具有更好的协调性与鲁棒性。多智能体强化学习算法是人工智能领域的热点研究方向,其中基于经典Q学习的算法框架体系最具代表性。针对不同的博弈形式,多种基于随机博弈论的强化学习算法被学者们陆续提出,如Minimax-Q、Nash-Q、Friend-or-FoeQ和CE-Q。图1为各类均衡博弈及对应的常用算法。但由于Minimax-Q是两个Agent的零和博弈、Nash-Q需要每个Agent都获悉其余Agent的行动和报酬、FF-Q要求Agent被告知所面临的敌 ...
【技术保护点】
基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于包括以下步骤:步骤1、确定状态离散集S;步骤2、确定联合动作离散集A;步骤3、在每个控制周期开始时,采集各个电网的实时运行数据,所述实时运行数据包括频率偏差Δf和功率偏差ΔP,计算各个区域控制误差ACE
【技术特征摘要】
1.基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于包括以下步骤:步骤1、确定状态离散集S;步骤2、确定联合动作离散集A;步骤3、在每个控制周期开始时,采集各个电网的实时运行数据,所述实时运行数据包括频率偏差Δf和功率偏差ΔP,计算各个区域控制误差ACEi(k)的瞬时值与控制性能标准CPSi(k)的瞬时值,根据混合策略集合π(sk,ak)选择搜索动作ak;步骤4、在当前状态s,某区域电网i获得一个短期的奖励函数信号Ri(k);步骤5、通过计算与估计获得值函数误差ρk、δk;步骤6、对所有区域电网,更新所有状态-动作(s,a)对应的Q函数表格和时间隧道矩阵e(sk,ak);步骤7、更新的Q值和更新当前状态s下的混合策略合策略π(sk,ak);步骤8、接着更新时间隧道元素e(sk,ak);步骤9、选择变学习率步骤10、根据函数更新决策改变率Δ(sk,ak)和决策空间估计斜率Δ2(sk,ak);步骤11、返回步骤3。2.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:所述步骤1的状态离散集S,通过控制性能标准CPS和区域控制误差ACE值的划分来确定。3.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:所述步骤2的联合动作离散集A的表达式为:A=A1×A2×…×Ai×…×An其中,Ai为智能体i的输出离散动作集,n为智能体个数。4.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:的短期奖励函数信号Ri(k)的表达式为:式中,σi代表的是获得的非负奖励值;CPS1和ACE的平均值可以用来表示控制区的CPS1和CPS2指标,ACEi(k)、CPS1i(k)分别代表控制区域i第k次迭代的1minACE和CPS1的平均值;ΔPi(k)是区域电网i调度中心第k次迭代功率调节值,η1i、η2i、μ1i和μ2i是区域电网i奖励函数的优化权值;ΔPi(k)的二次项的使用是为了减少控制动作的数量以减少发电机不必要的机动;此外,为了确保分段奖励函数的一致性和公平性,权重比值η1i/η2i和μ1i/μ2i应该保持恒定不变,且它们的取值取决于状态变量CPS1/ACE和动作变量ΔP(k)的维数差异。5.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法,其特征在于:所述步骤5的智能体在第k步迭代过程中的Q函数误差的ρk和Q函数误差的评估δk,它们的表达式为:δk=R(sk,sk+1,ak)+γQk(sk+1,ag)-Qk(sk,ag)ρk=R(sk,sk+1,ak)+γQk(sk+1,ag)-Qk(sk,ak),式中,γ为折扣因子,为Q函数将来的奖励提供折扣;在热电厂为主导的LFC控制过程中,由于最新的奖励最重要,所以应该选取近似1的值;R(sk,sk+1,ak)为在选定的动作ak下,从状态sk转移到状态sk+1的智能体奖励函数;ag为贪婪动作;Q(sk,ak)为动作ak下,状态sk的Q函数;Q(sk,ag)为贪婪动作ag下,状态sk的...
【专利技术属性】
技术研发人员:席磊,李玉丹,陈建峰,柳浪,
申请(专利权)人:三峡大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。