一种基于深度强化学习的动态电力系统经济调度方法技术方案

技术编号：26974987 阅读：26 留言：0更新日期：2021-01-06 00:10

本发明专利技术提供了一种基于深度强化学习的动态电力系统经济调度方法，将动态经济调度转化为多阶段序贯决策模型，本发明专利技术将进行动作决策的调度中心作为决策主体，实际电力系统作为环境，通过对强化学习中动作、状态、奖励等元素的设计，将电力系统的经济调度模型转化为典型的多阶段序贯决策模型。该模型避免了对日益复杂的电力系统进行建模，且不要求精确的火电机组出力成本函数，通过智能体与环境的不断交互，更新策略，自适应负荷与新能源出力的不确定性，实现任意场景下的电力系统动态经济调度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的动态电力系统经济调度方法
本专利技术属于电力系统领域，涉及一种基于深度强化学习的动态电力系统经济调度方法。
技术介绍
随着电力改革的深化，电能的生产与消费将由时刻改变的市场需求决定，负荷波动的不确定性增强，更加难以准确预测。新能源出力具有波动性、间歇性及随机性等特点，它们的大规模并网给电网运行增加了多种不确定因素。负荷与新能源出力的不确定性给电力系统的安全性和可靠性带来了更严峻的问题，也给电网经济调度带来了巨大挑战。经济调度是电力系统中的一个经典优化问题，它以降低全系统的发电燃料成本为目标，在满足基本运行约束和系统功率平衡的前提下，通过合理调整不同类型机组的有功出力，确定最优的调度方案。工业界实际中采用的方式为确定性经济调度，即将负荷预测值、新能源出力预测值视作准确值，进而通过调整传统机组出力实现经济成本最优。然而，随着电网中不确定性因素的增多，传统的确定性经济调度已经不能满足现阶段电力系统调度的需要。近年来，考虑电力系统不确定性因素的不确定性经济调度逐渐成为热点问题。目前常用的不确定性优化建模的方法主要包括随机规划法和鲁棒优化法。随机规划认为电力系统中不确定量的变化规律遵循一定的概率分布，主要包括场景分析法和机会约束规划。场景分析法是依据新能源的概率分布模型，将其抽样生成大量场景，再分别求解不同场景，最后将各个场景下的方案加权平均，从而得到最终决策方案。机会约束规划则是将包含随机变量的约束条件转化为满足一定置信水平的机会约束的形式，即它并不要求所得结果百分之百满足约束条...

【技术保护点】
1.一种基于深度强化学习的动态电力系统经济调度方法，其特征在于：/n系统调度周期内的经济成本可表示为：/n

【技术特征摘要】
1.一种基于深度强化学习的动态电力系统经济调度方法，其特征在于：
系统调度周期内的经济成本可表示为：

其中，ai，bi，ci为传统火电机组i的成本系数；Pg,i为传统火力发电机i的有功出力；T为调度周期，为24小时；G为系统中的传统火力发电机数量；
根据上述模型，将一天24小时的经济调度分为24个决策周期的马尔可夫过程，在每个决策阶段中，通过观察状态，做出动作决策，并将动作应用于实际电力系统环境中，再得到从环境反馈的奖惩信息与新的状态，重复这一过程，直到整个调度周期结束，决策过程的变量包括：
1)状态st：第t个决策阶段的状态st由t+1时刻的负荷和新能源预测信息及t时刻电网的实时信息组成：
st＝{P′load,t+1,P′wind,t+1,P′pv,t+1,Pg,t,Pwind,t,Ppv,t,Pline,t,Qline,t,Vt}(8)
其中，P′load,t+1，P′wind,t+1，P′pv,t+1分别为t+1时刻的负荷预测值、风电预测值、光伏预测值；Pg,t为传统火力发电机在t时刻的实际出力值；Pwind,t和Ppv,t分别为t时刻的风电实际出力值、光伏实际出力值；Pline,t和Qline,t分别为t时刻线路传输有功及无功功率；Vt为t时刻节点电压幅值；
2)动作at
第t个决策阶段的动作at定义为：

其中，为非平衡节点传统火电机组出力动作值；为风电出力动作值；为光伏出力动作值；
依据状态观测值st给出动作at后，需将动作应用到实际电力系统中，受限于传统火电机组相邻时刻爬坡约束，各传统火电机组下一调度时段t+1实际出力状态Pg,i,t+1为：

受限于新能源实际最大可发功率，新能源下一时调度时段t+1的出力值为：

其中，和分别为t+1时刻风电与光伏的最大可发功率；
3)奖励reward
当动作at应用在环境中后，需根据环境的变化反馈即时奖励，供学习动作的好坏，t时刻的即时奖励由机组出力成本与惩罚函数组成：
rt＝-(rcost,t+rpenal,t)(13)
其中，rcost,t为系统经济成本；rpenal,t为违反约束时的惩罚。
为实现新能源的优先消纳，系统经济成本中只计入传统火电机组出力成本，不计新能源出力成本：

惩罚函数考虑电力系统运行安全约束：

其中，k1、k2与k3均为惩罚系数；
4)策略π
策略为状态到动作的映射，指的是给定状态时，动作集上的一个分布，也即在每个状态s指定一个动作概率；
5)流程
在最开始系统处于某种初始状态s0下，系统根据策略π对电网下达动作指令a0，确定下一阶段发电机有功出力值、风光出力，将动作指令与环境交互，环境状态发生改变，并反馈回给调度中心系统作为下一决策阶段的状态s1，计算奖励r0，循环进行这一过程直至最后一个决策阶段；
将上述马尔可夫过程的模型采用深度强化学习算法求解，得到最优的经济调度决策。

2.如权利要求1所述的一种基于深度强化学习的动态电力系统经济调度方法，其特征在于，将马尔可夫过程的模型采用近端策略优化算法求解，得到最优的经济调度决策。

3.如权利要求1所述的一种基于深度强化学习的动态电力系统经济调度方法，其特征在于，将马尔可夫过程的模型采用深度确定性策略梯度算法求解，得到最优的经济调度决策。

4.如权利要求2所述的一种基于深度强化学习的动态电力系统经济调度方法，其特征在于，所述近端策略优化算法的动态经济调度流程包括如下步骤：
步骤1：神经网络权重与偏置初始化；设置actor神经网络学习率θactor、critic神经网络学习率θcritic、奖励折扣因子γ、超参数ε等参数；环境初始化；训练天数置0；
步骤2：动态经济调度从该日0h开始，循环每一时刻直至该日23h；
步骤3：从环境中读取0h的...

【专利技术属性】
技术研发人员：张沛，吕晓茜，宋秉睿，李家腾，孟祥飞，
申请(专利权)人：北京交通大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人