【技术实现步骤摘要】
一种基于安全强化学习的主动配电网实时调度方法及装置
[0001]本专利技术属于电力系统运行控制
,特别涉及一种基于安全强化学习的主动配电网实时调度方法及装置。
技术介绍
[0002]在我国大力发展绿色低碳经济的背景下,大规模的分布式发电资源接入到配电网中,如分布式光伏、微型燃气轮机和分布式储能等。这些分布式发电资源具有清洁环保、维护简单和方便灵活等诸多优点,提高了电力系统清洁能源的比重,也促进了配电网向主动配电网的转型。但大规模的分布式发电资源并网改变了传统配电网单向供电的特点,使得配电网的潮流分布难以控制,容易造成电压不稳定;同时,分布式新能源的出力受到天气和环境的严重影响,存在着巨大的波动性与不确定性,对配电网的控制与调度提出了新的挑战。
[0003]为了充分消纳这些分布式发电资源,并降低对电力系统的负面影响,主动配电网需要一套全新的实时调度策略。在保证系统安全运行的前提下,调度配网内部的多类发电资源,提升主动配电网运行的经济性与可靠性。
[0004]主动配电网由于规模巨大、模型维护成本高、海量设备异动频繁等原因,其精确的模型参数往往难以获得。同时,主动配电网实时调度问题是一个高维的混合整数二次规划问题。模型缺失以及该问题的复杂性严重限制了基于模型的传统方法的性能,导致实际控制过程中偏离最优运行状态。
[0005]强化学习作为机器学习的方法之一,通过智能体与环境的交互来学习策略并达成回报最大化的目标,可以很好地解决模型未知的问题。近年来随着大量算法的提出以及计算能力的增强,强化学习在 ...
【技术保护点】
【技术特征摘要】
1.一种基于安全强化学习的主动配电网实时调度方法,其特征在于,包括:建立含分布式发电资源的主动配电网实时调度模型;将所述实时调度模型转化为带约束的马尔科夫决策过程模型;利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练,得到所述主动配电网实时调度的策略神经网络;利用所述策略神经网络输出所述主动配电网实时调度的最优策略,以实现所述主动配电网的实时调度。2.根据权利要求1所述的方法,其特征在于,所述含分布式发电资源的主动配电网实时调度模型由目标函数和约束条件构成;所述目标函数为主动配电网调度成本最小化;所述约束条件包括:主动配电网的潮流约束、分布式发电资源约束和电压约束。3.根据权利要求2所述的方法,其特征在于,所述分布式发电资源包括:微型燃气轮机、分布式光伏和分布式储能。4.根据权利要求3所述的方法,其特征在于,所述目标函数表达式如下:其中,T为调度周期的总时段数;C
k,mt
(t)为t时段第k台微型燃气轮机的运行成本,C
k,es
(t)为t时段第k台分布式储能的运行成本;C0(t)为t时段主动配电网和上级电网交互的成本;K
mt
为微型燃气轮机的数量,K
es
为分布式储能的数量;其中,C
k,mt
(t)=ρ
k,mt
P
tk,mt
ꢀꢀꢀꢀ
(2)其中,P
tk,mt
为t时段第k台微型燃气轮机的有功出力;ρ
k,mt
为第k台微型燃气轮机的成本系数;其中,P
tk,es
为t时段第k台分布式储能的有功出力,为第k台分布式储能的充电成本系数,为第k台分布式储能的放电成本系数;其中,P
t0
为t时段主动配电网与上级电网连接的关口节点处的有功功率,ρ
buy
为从上级电网购电的价格,ρ
sell
为向上级电网售电的价格;所述主动配电网的潮流约束为:所述主动配电网的潮流约束为:
其中,令主动配电网为一个无向图G,该无向图中包含N个节点,每个节点分别对应主动配电网中一条母线;节点0为参考节点,即主动配电网与上级电网连接的关口节点;P
i
和Q
i
分别为节点i的有功注入和无功注入,V
i
为节点i的电压幅值;G
ij
为主动配电网节点导纳矩阵中第i行第j列的元素Y
ij
的实部,B
ij
为主动配电网节点导纳矩阵中元素Y
ij
的虚部;θ
ij
为节点i和节点j之间的电压相角差;所述分布式发电资源约束,包括:微型燃气轮机约束、分布式光伏约束和分布式储能约束;其中,微型燃气轮机约束:微型燃气轮机约束:微型燃气轮机约束:其中,为t时段第k台微型燃气轮机的无功出力;和分别为第k台微型燃气轮机的有功出力上限和下限;和分别为第k台微型燃气轮机的无功出力上限和下限;和分别为第k台微型燃气轮机最大向上爬坡功率和最大向下爬坡功率;分布式光伏约束:其中,为t时段第k台分布式光伏的有功出力,为t时段第k台分布式光伏的无功出力,S
k,PV
为第k台光伏发电设备的装机容量,K
PV
为分布式光伏的数量;分布式储能约束:分布式储能约束:分布式储能约束:分布式储能约束:其中,为t时段第k台分布式储能的无功出力;和分别为第k台分布式储能的有功出力上限和下限;和分别为第k台分布式储能设备的无功出力上限和下限;为第k台分布式储能在t时段的荷电状态;和分别为第k台分布式储能的电量上下限;Δt为每次充电或放电持续的时间;η为充放电的效率;所述电压约束为:其中,V
min
和V
max
分别为节点电压幅值的下限和上限。5.根据权利要求4所述的方法,其特征在于,所述将所述实时调度模型转化为带约束的
马尔科夫决策过程模型,包括:1)构建主动配电网实时调度状态变量:其中,s
t
为t时段主动配电网实时调度的状态变量;和分别为t
‑
1时段主动配电网内部所有节点的有功负荷和无功负荷;和分别为t
‑
1时段主动配电网内部所有微型燃气轮机的有功出力和无功出力;和分别为t
‑
1时段主动配电网内部所有分布式光伏的有功出力和无功出力;和分别为t
‑
1时段主动配电网内部所有分布式储能的有功出力和无功出力;V
t
‑1为t
‑
1时段主动配电网内部所有节点的电压幅值;2)构建主动配电网实时调度动作变量:其中,a
t
为t时段主动配电网实时调度的动作变量,包括:t时段主动配电网内所有微型燃气轮机的有功出力P
tmt
和无功出力t时段主动配电网内所有分布式光伏的无功出力t时段主动配电网内所有分布式储能的有功出力P
tes
和无功出力3)构建奖励函数;其中,t时段的奖励r
t
表达式如下:4)构建罚项函数;其中,t时段的罚项d
t
表达式如下:其中,[
·
]
+
为线性整流函数,即[x]
+
=max[x,0];若t时段的电压约束式(15)被满足,则:d
t
≤0 (20)5)构建带约束的马尔科夫决策过程模型;所述马尔科夫决策过程模型由(S,A,p,R,D,γ,γ
c
)表示...
【专利技术属性】
技术研发人员:杨旭,吴文传,王彬,蔺晨晖,孙峰洲,林毅,薛静玮,
申请(专利权)人:清华大学国网福建省电力有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。