一种基于深度强化学习的动态电力系统经济调度方法技术方案

技术编号:26974987 阅读:20 留言:0更新日期:2021-01-06 00:10
本发明专利技术提供了一种基于深度强化学习的动态电力系统经济调度方法,将动态经济调度转化为多阶段序贯决策模型,本发明专利技术将进行动作决策的调度中心作为决策主体,实际电力系统作为环境,通过对强化学习中动作、状态、奖励等元素的设计,将电力系统的经济调度模型转化为典型的多阶段序贯决策模型。该模型避免了对日益复杂的电力系统进行建模,且不要求精确的火电机组出力成本函数,通过智能体与环境的不断交互,更新策略,自适应负荷与新能源出力的不确定性,实现任意场景下的电力系统动态经济调度。

【技术实现步骤摘要】
一种基于深度强化学习的动态电力系统经济调度方法
本专利技术属于电力系统领域,涉及一种基于深度强化学习的动态电力系统经济调度方法。
技术介绍
随着电力改革的深化,电能的生产与消费将由时刻改变的市场需求决定,负荷波动的不确定性增强,更加难以准确预测。新能源出力具有波动性、间歇性及随机性等特点,它们的大规模并网给电网运行增加了多种不确定因素。负荷与新能源出力的不确定性给电力系统的安全性和可靠性带来了更严峻的问题,也给电网经济调度带来了巨大挑战。经济调度是电力系统中的一个经典优化问题,它以降低全系统的发电燃料成本为目标,在满足基本运行约束和系统功率平衡的前提下,通过合理调整不同类型机组的有功出力,确定最优的调度方案。工业界实际中采用的方式为确定性经济调度,即将负荷预测值、新能源出力预测值视作准确值,进而通过调整传统机组出力实现经济成本最优。然而,随着电网中不确定性因素的增多,传统的确定性经济调度已经不能满足现阶段电力系统调度的需要。近年来,考虑电力系统不确定性因素的不确定性经济调度逐渐成为热点问题。目前常用的不确定性优化建模的方法主要包括随机规划法和鲁棒优化法。随机规划认为电力系统中不确定量的变化规律遵循一定的概率分布,主要包括场景分析法和机会约束规划。场景分析法是依据新能源的概率分布模型,将其抽样生成大量场景,再分别求解不同场景,最后将各个场景下的方案加权平均,从而得到最终决策方案。机会约束规划则是将包含随机变量的约束条件转化为满足一定置信水平的机会约束的形式,即它并不要求所得结果百分之百满足约束条件,只要在一定置信水平上使约束条件成立即可。虽然场景法可以缓解不确定因素带来的影响,但它不一定能囊括所有场景,且多场景的生成与决策必然带来计算量巨大的问题,同时也难以准确量化加权所得决策方案的风险性。而机会约束规划同样具有依赖于新能源概率模型,计算量大的缺点。鲁棒优化算法不依赖于随机变量的概率分布信息,计算量相对较小,近年来在计及不确定性的电力系统经济调度问题中得到了广泛应用。鲁棒优化在模型刚建立时就计及了不确定性,即采用集合的形式来表征随机变量的不确定性。同时,根据集合中的极限场景建立鲁棒优化模型,如果所得决策方案能够适应最差的情况,那它也一定可以满足其他所有情况的要求。鲁棒优化问题中不确定集的选择至关重要,这将很大程度上影响到模型的求解效率与决策的保守程度。鲁棒优化虽然不依赖于不确定参数的概率分布,易于刻画,但其保守度的设置也是值得研究的问题。
技术实现思路
本专利技术的目的是:在已有的算法无法在电网中存在负荷预测与新能源出力预测不确定性时,快速准确提供调度方案。一种基于深度强化学习的动态电力系统经济调度方法,其特征在于:系统调度周期内的经济成本可表示为:其中,ai,bi,ci为传统火电机组i的成本系数;Pg,i为传统火力发电机i的有功出力;T为调度周期,为24小时;G为系统中的传统火力发电机数量;根据上述模型,将一天24小时的经济调度分为24个决策周期的马尔可夫过程,在每个决策阶段中,通过观察状态,做出动作决策,并将动作应用于实际电力系统环境中,再得到从环境反馈的奖惩信息与新的状态,重复这一过程,直到整个调度周期结束,决策过程的主要变量包括:1)状态st:第t个决策阶段的状态st由t+1时刻的负荷和新能源预测信息及t时刻电网的实时信息组成:st={P′load,t+1,P′wind,t+1,P′pv,t+1,Pg,t,Pwind,t,Ppv,t,Pline,t,Qline,t,Vt}(8)其中,P′load,t+1,P′wind,t+1,P′pv,t+1分别为t+1时刻的负荷预测值、风电预测值、光伏预测值;Pg,t为传统火力发电机在t时刻的实际出力值;Pwind,t和Ppv,t分别为t时刻的风电实际出力值、光伏实际出力值;Pline,t和Qline,t分别为t时刻线路传输有功及无功功率;Vt为t时刻节点电压幅值;2)动作at第t个决策阶段的动作at定义为:其中,为非平衡节点传统火电机组出力动作值;为风电出力动作值;为光伏出力动作值;依据状态观测值st给出动作at后,需将动作应用到实际电力系统中,受限于传统火电机组相邻时刻爬坡约束,各传统火电机组下一调度时段t+1实际出力状态Pg,i,t+1为:受限于新能源实际最大可发功率,新能源下一时调度时段t+1的出力值为:其中,和分别为t+1时刻风电与光伏的最大可发功率;3)奖励reward当动作at应用在环境中后,需根据环境的变化反馈即时奖励,供学习动作的好坏,t时刻的即时奖励由机组出力成本与惩罚函数组成:rt=-(rcost,t+rpenal,t)(13)其中,rcost,t为系统经济成本;rpenal,t为违反约束时的惩罚。为实现新能源的优先消纳,系统经济成本中只计入传统火电机组出力成本,不计新能源出力成本:惩罚函数考虑电力系统运行安全约束:其中,k1、k2与k3均为惩罚系数;4)策略π策略为状态到动作的映射,指的是给定状态时,动作集上的一个分布,也即在每个状态s指定一个动作概率;5)流程在最开始系统处于某种初始状态s0下,系统根据策略π对电网下达动作指令a0,确定下一阶段发电机有功出力值、风光出力,将动作指令与环境交互,环境状态发生改变,并反馈回给调度中心系统作为下一决策阶段的状态s1,计算奖励r0,循环进行这一过程直至最后一个决策阶段;将上述马尔可夫过程的模型采用深度强化学习算法求解,得到最优的经济调度决策。进一步的,所述深度强化学习算法为近端策略优化算法,近端策略优化算法中包含包括动作网络和评价网络,动作网络的输入为观测状态st,输出为动作的正态分布均值与标准差,也即策略分布πθ(at|st),进而采样得到动作at,动作网络的优化目标函数:其中,rt(θ)为新旧策略中动作at的概率之比;Q(st,at)为状态-动作值函数,表示在状态st下,执行动作at的价值;V(st)为状态值函数,表示状态st的价值,也可表示在状态st,执行所有动作的平均价值;γ为折扣因子,范围为[0,1],当其为0时,说明智能体只看重当前即时奖励,当其趋近于1时,说明智能体看重长期奖励;为优势函数,表示当前动作与平均动作相比的优势;ε为超参数,一般设置为0.2;LCLIP(θ)为最大化目标函数,当优势函数大于0时,更新策略使得此动作被选中的概率增加;当优势函数小于0时,更新策略使得此动作被选中的概率减少;评价网络的输入为观测状态st,输出为该状态的价值函数V(st);评价网络的损失函数:L(θ)=E[(δ)2]=E[(y-V(st))2](19)y=rt+γV(st+1)(20)其中,δ为TD误差,评价网络通过最小化TD误差更新网络参数。y为折扣本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的动态电力系统经济调度方法,其特征在于:/n系统调度周期内的经济成本可表示为:/n

【技术特征摘要】
1.一种基于深度强化学习的动态电力系统经济调度方法,其特征在于:
系统调度周期内的经济成本可表示为:



其中,ai,bi,ci为传统火电机组i的成本系数;Pg,i为传统火力发电机i的有功出力;T为调度周期,为24小时;G为系统中的传统火力发电机数量;
根据上述模型,将一天24小时的经济调度分为24个决策周期的马尔可夫过程,在每个决策阶段中,通过观察状态,做出动作决策,并将动作应用于实际电力系统环境中,再得到从环境反馈的奖惩信息与新的状态,重复这一过程,直到整个调度周期结束,决策过程的变量包括:
1)状态st:第t个决策阶段的状态st由t+1时刻的负荷和新能源预测信息及t时刻电网的实时信息组成:
st={P′load,t+1,P′wind,t+1,P′pv,t+1,Pg,t,Pwind,t,Ppv,t,Pline,t,Qline,t,Vt}(8)
其中,P′load,t+1,P′wind,t+1,P′pv,t+1分别为t+1时刻的负荷预测值、风电预测值、光伏预测值;Pg,t为传统火力发电机在t时刻的实际出力值;Pwind,t和Ppv,t分别为t时刻的风电实际出力值、光伏实际出力值;Pline,t和Qline,t分别为t时刻线路传输有功及无功功率;Vt为t时刻节点电压幅值;
2)动作at
第t个决策阶段的动作at定义为:



其中,为非平衡节点传统火电机组出力动作值;为风电出力动作值;为光伏出力动作值;
依据状态观测值st给出动作at后,需将动作应用到实际电力系统中,受限于传统火电机组相邻时刻爬坡约束,各传统火电机组下一调度时段t+1实际出力状态Pg,i,t+1为:



受限于新能源实际最大可发功率,新能源下一时调度时段t+1的出力值为:






其中,和分别为t+1时刻风电与光伏的最大可发功率;
3)奖励reward
当动作at应用在环境中后,需根据环境的变化反馈即时奖励,供学习动作的好坏,t时刻的即时奖励由机组出力成本与惩罚函数组成:
rt=-(rcost,t+rpenal,t)(13)
其中,rcost,t为系统经济成本;rpenal,t为违反约束时的惩罚。
为实现新能源的优先消纳,系统经济成本中只计入传统火电机组出力成本,不计新能源出力成本:



惩罚函数考虑电力系统运行安全约束:



其中,k1、k2与k3均为惩罚系数;
4)策略π
策略为状态到动作的映射,指的是给定状态时,动作集上的一个分布,也即在每个状态s指定一个动作概率;
5)流程
在最开始系统处于某种初始状态s0下,系统根据策略π对电网下达动作指令a0,确定下一阶段发电机有功出力值、风光出力,将动作指令与环境交互,环境状态发生改变,并反馈回给调度中心系统作为下一决策阶段的状态s1,计算奖励r0,循环进行这一过程直至最后一个决策阶段;
将上述马尔可夫过程的模型采用深度强化学习算法求解,得到最优的经济调度决策。


2.如权利要求1所述的一种基于深度强化学习的动态电力系统经济调度方法,其特征在于,将马尔可夫过程的模型采用近端策略优化算法求解,得到最优的经济调度决策。


3.如权利要求1所述的一种基于深度强化学习的动态电力系统经济调度方法,其特征在于,将马尔可夫过程的模型采用深度确定性策略梯度算法求解,得到最优的经济调度决策。


4.如权利要求2所述的一种基于深度强化学习的动态电力系统经济调度方法,其特征在于,所述近端策略优化算法的动态经济调度流程包括如下步骤:
步骤1:神经网络权重与偏置初始化;设置actor神经网络学习率θactor、critic神经网络学习率θcritic、奖励折扣因子γ、超参数ε等参数;环境初始化;训练天数置0;
步骤2:动态经济调度从该日0h开始,循环每一时刻直至该日23h;
步骤3:从环境中读取0h的...

【专利技术属性】
技术研发人员:张沛吕晓茜宋秉睿李家腾孟祥飞
申请(专利权)人:北京交通大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1