一种机组组合深度强化学习求解方法技术

技术编号：39588114 阅读：29 留言：0更新日期：2023-12-03 19:39

本发明专利技术提供一种机组组合深度强化学习求解方法，包括以下步骤：

全部详细技术资料下载

【技术实现步骤摘要】
一种机组组合深度强化学习求解方法

[0001]本专利技术涉及电网机组组合
，具体涉及一种机组组合深度强化学习求解方法
。

技术介绍

[0002]机组组合是电力系统运行中的经典问题
。
它需要确定发电机组的启停方案，以满足电力需求并最大限度地降低成本
。
由于热力机组的启动或关闭时间长达数小时，因此通常需要提前数小时或一天确定机组启停方案以保持系统稳定运行
。
近年来，随着可再生能源在传统电网中的渗透率越来越高，在制定机组组合方案时需要额外考虑可再生能源的高利用率
。
除此之外，可再生能源功率预测误差引起的不确定性对系统运营商造成了新的挑战，需要为应对系统的不确定性制定可靠且经济的机组调度方案
。
[0003]传统的确定性机组组合问题通常被表述为凸优化问题，可以通过数值方法求解，但是计算时间成指数性增长
。
作为机器学习方法的一个分支，强化学习旨在推导最优决策策略的近似值以最大化系统性能
。
强化学习算法是在复杂问题中寻找最佳解决方案的强大工具，并且近年来在游戏领域中显示出令人印象深刻的结果，在这些领域中，智能体能够在没有先验知识的情况下依靠自我超越人类专家的表现
。
目前已经有文献利用强化学习的方法来解决机组组合问题，并且其求解时间能够被大幅缩短
。
其常规做法首先构建以发电成本最小为目标函数的机组组合数学模型，并以功率平衡
、
机组出力限制和最...

【技术保护点】

【技术特征摘要】
1.
一种机组组合深度强化学习求解方法，其特征在于，包括以下步骤：
S1
：接收机组参数与网络拓扑结构，建立基于传统优化的机组组合模型；
S2
：基于传统优化的机组组合模型进行马尔可夫决策过程建模；
S3
：改进机组组合马尔可夫决策过程以考虑风电不确定性；
S4
：搭建用于求解马尔可夫决策过程的深度强化学习模型；
S5
：接收风电和负荷历史数据对所述深度强化学习模型的参数进行训练；
S6
：将训练后的所述深度强化学习模型用于求解考虑风电不确定性的机组组合问题，进而得到机组组合调度方案
。2.
根据权利要求1所述的一种机组组合深度强化学习求解方法，其特征在于，步骤
S1
中，所述基于传统优化的机组组合模型包括目标函数
、
机组运行约束与电力系统约束；所述目标函数表达式为：式中，
T
是调度时段，
N
是机组数量，
u
i,t
是第
i
个机组在
t
时段的启停状态，
P
i,t
是第
i
个机组在
t
时段出力大小，是机组燃料成本函数，是机组启停成本函数，所述机组燃料成本函数表达式为：式中，
α
i
,
β
i
,
γ
i
是机组成本二次函数曲线的参数；
P
i,t
是机组的出力大小；所述机组运行约束包括机组容量约束，机组最小启停时间约束，爬坡速率约束；所述电力系统约束包括系统功率平衡约束，旋转备用约束
。3.
根据权利要求2所述的一种机组组合深度强化学习求解方法，其特征在于，机组容量约束代表着每个时段机组出力的上下限，所述机组容量约束表达式为：式中，
P
i
是机组出力下限，是机组出力上限，
u
i,t
是机组启停状态；机组最小启停时间约束代表机组处于启动或关停状态所需维持的最小时时长，通常情况下机组容量越大，需要的时间越长，所述机组最小启停时间约束表达式为：况下机组容量越大，需要的时间越长，所述机组最小启停时间约束表达式为：式中，
TS
i
是机组最小持续关停时间，
TO
i
机组最小持续启动时间；爬坡速率约束代表发电机在一段时间内可以增加或减少的功率输出是有限的；所述爬坡速率约束表达式为：坡速率约束表达式为：式中，
P
up,i
是机组上爬坡速率，
P
down,i
是机组下爬坡速率，
P
shut,i
是允许的机组最大功率输出；
所述功率平衡约束表达式为：式中，
P
D,t
是系统在时段
t
的聚合负荷；为了确保系统的稳定运行，旋转备用通常被设为系统负载的
10
％，所述旋转备用约束表达式为：式中，
R
t
是系统在时段
t
的旋转备用容量
。4.
根据权利要求1所述的一种机组组合深度强化学习求解方法，其特征在于，步骤
S2
中，所述马尔可夫决策过程包括状态空间，动作空间，奖励函数，环境转移概率，折扣因子五元组，构建所述五元组，将机组组合模型转换为马尔可夫决策过程具体包括以下步骤：
S201
：构建动作空间：
A
t
＝
[a
1,t
,
…
,a
N,t
],a
n,t
∈{0,1}
式中，
a
n,t
是二元向量，其长度为机组的数量
N
，取值为
0/1
，
a
n,t
＝1代表第
n
个机组在
t+1
的时刻会被打开并在该时段内保持开启状态，
a
n,t
＝0第
n
个机组在
t+1
的时刻会被关闭并在该时段内保持关闭状态，整个马尔可夫决策过程的动作空间维度是2N
；
S202
：构建状态空间：
s
t
＝
(b
i
,d
t+1
,w
t+1
,
τ
i,t
,t)
式中，
t
是当前调度时段，向量
b
i
包含了机组
i
的基本信息如最小启停时间，启动成本以及二次燃料曲线的参数；
d
t+1
是
t+1
的负荷预测值，
w
t+1
是
t+1
的风力发电预测值，
τ
i,t
是机组
i
在当前时刻
t
已经被开启
/
关闭的时段数；
S203
：构建奖励函数，所述奖励函数是环境返回给智能体的一个标量，该标量反映了当前智能体采取的状态动作映射关系的质量好坏，用于指导智能体根据奖励值的大小调整当前决策策略，所述奖励函数表达式为：式中，是机组燃料成本，是机组启动成本，是负载削减惩罚；所述负载削减惩罚表达式如下：式中，
c
voll
是减载容量每兆瓦时的单位成本，
ζ
是减载分辨率，一般取负载的
0.1
％，负载削减惩罚对代理进行惩罚，避免采取导致减负的不良行为，帮助智能体积极探索可行的解决方案；
S204
：计算环境转移概率：式中，环境转移概率由环境转移函数决定，环境转移函数将系统当前状态从
s
t
转换到
s
t+...

【专利技术属性】
技术研发人员：徐桂磊，吴秋伟，林镇佳，
申请(专利权)人：清华大学深圳国际研究生院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人