一种基于近似动态规划算法的一次调频附加学习控制方法技术

技术编号:13569407 阅读:83 留言:0更新日期:2016-08-21 11:31
本发明专利技术提供一种基于近似动态规划算法的一次调频附加学习控制方法,所述方法包括如下步骤:I、训练样本数据的收集;II、附加学习控制器的近似计算;III、附加学习控制器的优化迭代。本发明专利技术的优点在于给出了一种近似动态规划的一次调频在线学习附加学习控制方法,该方法可以检测控制器的输入和输出,包含强化学习的值函数迭代策略,能在系统运行过程中,根据系统的反馈在线对机组功率输出进行进一步的优化调整。该控制器作为附加学习控制,不需要替代原有的机组控制器,还可以利用系统原有控制器先验知识进行强化学习,提高收敛速度,并在此基础上考虑到了储能的优化运行区间。

【技术实现步骤摘要】

本专利技术涉及一种电力系统的一次调频,具体讲涉及一种基于近似动态规划算法的一次调频附加学习控制方法
技术介绍
电力系统的一次调频过程指的是当各机组并网运行,在外界负荷变动影响下,电网频率发生变化时,各机组的调节系统参与调节作用,自动地增加(电网频率下降时)或减小(电网频率升高时)自身的功率,使之与外界负荷相平衡,同时尽量减少电网频率的变化的过程即为一次调频。火电机组传统意义上的一次调频是静态时汽轮机按照与其转速之间的关系曲线出力,该关系曲线称为汽轮机控制系统的静态特性。目前,风电机组的装机容量日益增加,在局部地区渗透率很高,在北方地区电网中,作为主要调频电源的火电机组受蓄热、调节方向不宜改变等制约,影响一次调频性能。储能的响应时间能达到毫秒级,在风电功率波动情况下可以协助火电机组进行一次调频。关于储能协调火电机组参与一次调频控制已有不少报道,申请号为201310188516.9、名为“一种超级电容储能系统参与电力一次调频的协调控制方法”的中国专利文件提出了一种超级电容储能与传统机组的协调控制策略,但并没涉及附加优化控制器。本专利技术采取近似动态规划算法附加学习控制的方式,一直用来解决非线性系统的最优控制问题,基本思想是通过计算近似代价函数,从而避免动态规划中的“维数灾”问题。该算法的初值选取具有随机性,实际应用过程中要经过多次学习才能收敛,因此,设计一种附加学习控制器的方式,并不替代原有控制器,而是利用原有控制器指导初值的选取,加快收敛速度,减少工程应用的难度。
技术实现思路
针对上述问题,本专利技术提出了一种基于近似动态规划算法的一次调频附加学习控制方法。一种基于近似动态规划算法的一次调频附加学习控制方法,其特征在于,所述方法包括如下步骤:I、训练样本数据的收集;II、附加学习控制器的近似计算;III、附加学习控制器的优化迭代。进一步的,所述步骤I包括对附加学习控制器的训练,得到样本状态变量x:x=[Δf,ΔPg,ΔPe,ΔPtie]其中Δf是区域频率偏差;ΔPg是火电机组出力变化量;ΔPe是储能出力变化量;ΔPtie是联络线功率偏差量。进一步的,所述步骤I的对附加学习控制器的训练包括:(1)对含储能的一次调频控制系统进行离散化建模,得到一次调频控制系统状态xk+1如下式所示:xk+1=F(xk,us,k),k=0,1,2,3...... (1)含储能的一次调频控制系统的控制变量x和控制器us如下式所示:x=[Δf,ΔPg,ΔPe,ΔPtie]T (2)us=a1Δf+a2ΔPg+a3ΔPe+a4ΔPtie (3)(2)含储能系统的一次调频控制系统代价函数U(xk,us,k)如下式所示:U(xk,us,k)=RfΔfk2+Ruus,k2,k=0,1,2...,---(6)]]>(3)采集样本数据采样周期为1ms,收集2000个x、us和Q的数据作为学习样本;其中,xk为状态向量;us,k为控制向量;Q为代价函数;a1,a2,a3,a4为控制器优化权值;Rf、Ru为不同代价的权重,大于零;k代表时刻,k=0,1,2,3......。进一步的,步骤II包括:(1)代价函数的逼近结构如下式所示:含储能的一次调频系统逼近结构基函数φ(xk,us,k)如下式所示:φ(xk,us,k)=[Δfk2,2ΔfkΔPg,k,2ΔfkΔPe,k,2ΔfkΔPtie,2Δfkus,k,ΔPg,k2,2ΔPg,kΔPe,k,2ΔPg,kΔPtie,2ΔPg,kus,k,ΔPe,k2,2ΔPe,kΔPtie,2ΔPe,kus,k,ΔPtie2,2ΔPtieus,k,us,k2]T (8)公式(7)采用批量最小二乘法进行批量计算;(2)获得最优控制器:最小代价函数Q*(xk,us,k)如下式所示:Q*(xk,us,k)=U(xk,us,k)+minus,k+1Q*(xk+1,us,k+1)---(9)]]>使得最小代价函数最小的最优控制器us,k如下式所示:us*(xk)=argminus,kQ*(xk,us,k)---(10)]]>其中,wi是第i个权重向量,是基函数,L是向量的维度W是逼近结构的权值;φ(xk,us,k)是基函数;Q(xk,us,k)是代价函数。进一步的,所述步骤III包括:以2s为一个周期,完成一次策略评价和策略改善的迭代,每一步迭代过程产生一个相比前一个输出的优化值,动作体向系统控制器输出控制器优化权值a1,a2,a3,a4,并给控制系统修改不同机组的状态变化量Δf,ΔPg,ΔPe,ΔPtie。进一步的,所述步骤III将系统频率偏差调节区域与储能优化运行区间SOC结合,设计了一种附加优化控制器进行一次调频优化控制,其中,SOC是储能电池荷电状态,SOC=QS/QR,QS为电池储能系统的剩余容量,QR为电池储能系统的标称容量。进一步的,所述优化控制包括:若fsq下限<Δfi<fsq上限时,所有控制器不进行额外调节;若fq下限<Δfi<fsq下限或fsq上限<Δfi<fq上限时,采取附加优化控制器,且SOCmin<SOCi<SOCmax,则执行体的控制器优化权值a1,a2,a3,a4直接输出给系统控制器;若fq下限<Δfi<fsq下限或fsq上限<Δfi<fq上限时,采取附加优化控制器,且SOCi≤SOCmin,若当前的控制器的储能指令ΔPe为正,则执行体的控制器优化权值中储能功率偏差量权重值a3强制为0;若fq下限<Δfi<fsq下限或fsq上限<Δfi<fq上限时,采取附加优化控制器,且SOCi≤SOCmin,若当前的控制器的储能指令ΔPe为负,则执行体的控制器优化权值中储能功率偏差量权重值a3强制为2a3;若fq下限<Δfi<fsq下限或fsq上限<Δfi<fq上限时,采取附加优化控制器,且SOCi≥SOCmax,当前的控制器的储能指令ΔPe为正,则执行体的控制器优化权值中将储能功率偏差量权重值a3强制为2a3;若fq下限<Δfi<fsq下限或fsq上限<Δfi<fq上限时,采取附加优化控制器,且SOCi≥SOCmax,前的控制器的储能指令ΔPe为负,则执行体的控制器优化权值中将储能功率偏差量权重值a3强制为0;当-0.5Hz<Δfi≤fq下限,关闭附加优化控制器,且SOCi>SOCmin,则系统的控制器优先储能进行最大出力,直到储能SOC达到0%,接替的火电机组也采取最大出力;Δfi恢复到fq下限以上后,储能开始恢复到SOC运行优化区间内;当-0.5Hz<Δfi≤fq下限,关闭附加优化控制器,且SOCi<SOCmin,则系统的控制器优先火电机组也采取最大出力,直到储能SOC达到0%;若Δfi恢复到fq下限以上后,储能开始恢复到SOC运行优化区间内;当0.5Hz>Δfi≥fq上限时,关闭附加优化控制器,且SOCi<SOCmax,则系统的控制器控制储能吸收功率,直到储能SOC达到100%,接替的火电机组也采取减出力;若Δfi恢复到fq上限以下后,储能开始恢复到SOC运行优化区间内;当0.5Hz>Δfi≥fq上限时,关闭附加优化控制器,且SOCi>SOCmax,则系统的控制器控制优先火电机组减出力,直到储能SOC达到100%;若Δfi恢复到fq上限以下后,储能开始恢复到SOC运行优化区间内本文档来自技高网...

【技术保护点】
一种基于近似动态规划算法的一次调频附加学习控制方法,其特征在于,所述方法包括如下步骤:I、训练样本数据的收集;II、附加学习控制器的近似计算;III、附加学习控制器的优化迭代。

【技术特征摘要】
1.一种基于近似动态规划算法的一次调频附加学习控制方法,其特征在于,所述方法包括如下步骤:I、训练样本数据的收集;II、附加学习控制器的近似计算;III、附加学习控制器的优化迭代。2.如权利要求1所述一种基于近似动态规划算法的一次调频附加学习控制方法,其特征在于,所述步骤I包括对附加学习控制器的训练,得到样本状态变量x:x=[Δf,ΔPg,ΔPe,ΔPtie]其中Δf是区域频率偏差;ΔPg是火电机组出力变化量;ΔPe是储能出力变化量;ΔPtie是联络线功率偏差量。3.如权利要求2所述一种基于近似动态规划算法的一次调频附加学习控制方法,其特征在于,所述步骤I的对附加学习控制器的训练包括:(1)对含储能的一次调频控制系统进行离散化建模,得到一次调频控制系统状态xk+1如下式所示:xk+1=F(xk,us,k),k=0,1,2,3...... (1)含储能的一次调频控制系统的控制变量x和控制器us如下式所示:x=[Δf,ΔPg,ΔPe,ΔPtie]T (2)us=a1Δf+a2ΔPg+a3ΔPe+a4ΔPtie (3)(2)含储能系统的一次调频控制系统代价函数U(xk,us,k)如下式所示:U(xk,us,k)=RfΔfk2+Ruus,k2,k=0,1,2...,---(6)]]>(3)采集样本数据采样周期为1ms,收集2000个x、us和Q的数据作为学习样本;其中,xk为状态向量;us,k为控制向量;Q为代价函数;a1,a2,a3,a4为控制器优化权值;Rf、Ru为不同代价的权重,大于零;k代表时刻,k=0,1,2,3……。4.如权利要求1所述一种基于近似动态规划算法的一次调频附加学习控制方法,其特征在于,步骤II包括:(1)代价函数的逼近结构如下式所示:含储能的一次调频系统逼近结构基函数φ(xk,us,k)如下式所示:φ(xk,us,k)=[Δfk2,2ΔfkΔPg,k,2ΔfkΔPe,k,2ΔfkΔPtie,2Δfkus,k,ΔPg,k2,2ΔPg,kΔPe,k,2ΔPg,kΔPtie,2ΔPg,kus,k,ΔPe,k2,2ΔPe,kΔPtie,2ΔPe,kus,k,ΔPtie2,2ΔPtieus,k,us,k2]T---(8)]]>公式(7)采用批量最小二乘法进行批量计算;(2)获得最优控制器:最小代价函数Q*(xk,us,k)如下式所示:Q*(xk,us,k)=U(xk,us,k)+minus,k+1Q*(xk+1,us,k+1)---(9)]]>使得最小代价函数最小的最优控制器us,k如下式所示:us*(xk)=argminus,kQ*(xk,us,k)---(10)]]>其中,wi是第i个权重向量,是基函数,L是向量的维度W是逼近结构的权值;φ(xk,us,k)是基函数;Q(xk,us,k)是代价函数。5.如权利要求1所述一种基于近似动态规划算法的一次调频附加学习控制方法,其特征在于,所述步骤III包括:以2s为一个周期,完成一次策略评价和策略改善的迭代,每一步迭代过程产生一个相比前一个输出的优化值,动作体向系统控制器输出控制器优化权值a1,a2,a3,a4,并给控制系统修改不同机组的状态变化量Δf,ΔPg,ΔPe,ΔPtie。6.如权利要求5所述一种基于近似动态规划算法的一次调频附加学习控制方法...

【专利技术属性】
技术研发人员:杨水丽高凯葛延峰金鹏李建林侯朝勇胡娟闫涛许守平张明霞
申请(专利权)人:中国电力科学研究院国家电网公司国网辽宁省电力有限公司沈阳供电公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1