一种基于强化学习的主动配电网实时随机优化调度方法技术

技术编号：24940181 阅读：78 留言：0更新日期：2020-07-17 21:24

本发明专利技术提出一种基于强化学习的主动配电网实时随机优化调度方法。所述方法包括以下步骤：建立主动配电网的数学模型；提出原问题的动态规划公式，根据主动配电网中电动汽车的特性构造表征当前决策对后续所有时段影响的值函数，并利用决策后状态值函数避免期望值的计算；训练值函数，得到近似值函数；利用训练好的近似值函数对主动配电网实时场景下的随机优化调度问题进行递推求解，得到各时段的近似最优决策。本发明专利技术在实时运行中时，一方面能更有效地提升调度收益，另一方面也起到“削峰填谷”的作用。当环境中的随机因素变化更加剧烈时，本发明专利技术依旧适用，能接近最优解，且实时调度过程中的计算时间并不受影响，具有较强的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的主动配电网实时随机优化调度方法
本专利技术涉及电力系统主动配电网优化调度领域，尤其涉及一种基于强化学习的主动配电网实时随机优化调度方法。
技术介绍
随着分布式电源(DistributedGenerator，DG)、储能装置(EnergyStorage，ES)和柔性负荷(FlexibleLoad,FL)广泛接入电网，传统配电网正逐渐向主动配电网(ActiveDistributionNetwork,ADN)转变。不同于传统配电网的能量单向流动，ADN中的“主动”二字体现在能量的双向流动，即不止主网能向配网传输功率，配网中的DG、ES、FL也可以反过来向主网传输功率。ADN的不断发展给电力系统的安全经济运行带来一系列的挑战。已有大量文献对ADN的调度方法进行了研究，提供了多种方法促进配电网中分布式资源的消纳，但是并未考虑随机性的影响(顾伟,任佳依,高君,高菲,宋晓辉,刘海波.含分布式电源和可调负荷的售电公司优化调度模型[J].电力系统自动化,2017,41(14):37-44.肖浩,裴玮,孔力.含大规模电动汽车接入的主动配电网多目标优化调度方法[J].电工技术学报,2017,32(S2):179-189.HuJ,CongH,JiangC.Coordinatedschedulingmodelofpowersystemwithactivedistributionnetworksbasedonmulti-agentsystem[J].JournalofModernPowerSystemsandCleanEner...

【技术保护点】
1.一种基于强化学习的主动配电网实时随机优化调度方法，其特征在于，包括以下步骤：/nS1、建立主动配电网的数学模型，将主动配电网的实时调度描述成一个多阶段随机序贯决策问题；/nS2、提出原问题的动态规划公式，根据主动配电网中电动汽车的特性构造表征当前决策对后续所有时段影响的值函数，并利用决策后状态值函数避免期望值的计算；/nS3、在大量模拟场景下利用基于时序差分TD(1)的策略迭代算法训练值函数，得到近似值函数；/nS4、利用训练好的近似值函数对主动配电网实时场景下的随机优化调度问题进行递推求解，得到各时段的近似最优决策。/n

【技术特征摘要】
1.一种基于强化学习的主动配电网实时随机优化调度方法，其特征在于，包括以下步骤：
S1、建立主动配电网的数学模型，将主动配电网的实时调度描述成一个多阶段随机序贯决策问题；
S2、提出原问题的动态规划公式，根据主动配电网中电动汽车的特性构造表征当前决策对后续所有时段影响的值函数，并利用决策后状态值函数避免期望值的计算；
S3、在大量模拟场景下利用基于时序差分TD(1)的策略迭代算法训练值函数，得到近似值函数；
S4、利用训练好的近似值函数对主动配电网实时场景下的随机优化调度问题进行递推求解，得到各时段的近似最优决策。

2.根据权利要求1所述的一种基于强化学习的主动配电网实时随机优化调度方法，其特征在于，步骤A1中，所述主动配电网的数学模型包括潮流约束、储能约束、电动汽车充电约束、分布式电源约束以及主动配电网实时调度的目标函数。

3.根据权利要求2所述的一种基于强化学习的主动配电网实时随机优化调度方法，其特征在于，所述潮流约束如下：

式中，i、j均为节点编号，Pij、Qij、rij和xij分别为节点ij间的有功传输功率、无功传输功率、电阻和电抗，Pi、Qi、Vi和δi分别为节点i的有功功率、无功功率、电压和相角，NB为支路数；Pij,max和-Pij,max分别为节点ij间的最大和最小有功传输功率；Vi,max和Vi,min分别为节点i的最大和最小电压；
除了与外部电网相连的节点，配电网内其它节点在t时段的功率如下：

式中，和分别为t时段节点i上的分布式电源的有功和无功出力；和分别为t时段节点i上的储能的有功和无功出力；和为t时段节点i上的常规有功负荷和无功负荷；和为t时段节点i上的电动汽车有功负荷和无功负荷；n为电动汽车编号，NEV为电动汽车数目；
所述储能约束如下：

Pa,t,min≤Pa,t≤Pa,t,max；(5)
Ea,t,min≤Ea,t≤Ea,t,max；(6)
式(4)中，a为储能编号，Ea,t为t时段初第a个储能的能量，Ea,t+1为t时段末、t+1时段初第a个储能的能量；Pa,t为t时段第a个储能的充/放电功率，大于0表示放电，小于0表示充电；式(5)和(6)分别为功率和能量的上下限约束，Pa,t,max和Pa,t,min分别为功率上下限，Ea,t,max和Ea,t,min分别为能量上下限；
所述分布式电源约束如下：

其中，d为分布式电源编号，为第d台分布式电源在t+1时段中发出的有功功率；vup,d和vdown,d分别为第d台分布式电源的向上爬坡速率限制和向下爬坡速率限制，和分别为第d台分布式电源输出功率的上限和下限；
所述单台电动汽车(EV)的充电约束如下：

式中，e为电动汽车编号，ee,t为t时段初第e台电动汽车电池的电量，η为充电效率，pe,k表示k时段第e台电动汽车的充电功率，ee,t,max、ee,t,min分别为t时刻电动汽车能量的上下边界；能量的上边界表示电动汽车接入电网后便以最大功率充电充至eexp这段时间内的电量变化曲线；能量的下边界表示接入后延迟充电直至离开的时刻恰好达到用户期望的电量值的电量变化曲线；eexp为用户希望离开时电池的电量，一般为电池的最大电量；pe,t,max、pe,t,min分别为t时段第e台电动汽车充电功率的上下限约束，pmax表示受充电桩和电动汽车本身性质影响的最大充电功率；Δt为每个时段的时长；tend表示结束时段；
当电动汽车的渗透率过高时，将每台电动汽车作为决策变量进行求解会产生“维数灾”的问题，可利用集群的思想，将一天分为T个时段，具有相同离开时段的电动汽车分为同一集群，将集群内单台电动汽车的充电模型叠加，可得到等效的集群模型：

式中，ec为电动汽车集群编号，Eec,t、Emax,ec,t、Emin,ec,t和Pec,t分别为t时段子集群ec的能量、能量上下界和子集群充电总功率；Pec,e,t为子集群ec内第e辆电动汽车t时段的充电功率；m为t时段子集群ec的电动汽车数量；
所述目标函数，为考虑各类资源包括电动汽车、分布式电源的随机性下，通过实时调度决策，使得调度周期内的总收益最大，即将主动配电网的实时调度描述成一个多阶段随机序贯决策问题：

其中，xt表示决策变量，χt表示可行域，E()表示取期望值运算，Ft表示t时段的调度收益，为调度成本的相反数，具体如下：

其中，分别是t时段主动配电网向外部电网购电的成本、t时段第a个储能的运行成本，是t时段第d个分布式电源的运行成本，为二次函数；NDG，NESS分别表示分布式电源、储能的个数。

4.根据权利要求1所述的一种基于强化学习的主动配电网实时随机优化调度方法，其特征在于，步骤S2中提出原问题的动态规划公式，即根据贝尔曼的最优性原理，可将多时段的优化决策问题转化成递推问题，将式(10)转化成：

其中，St为主动配电网系统t时段所处的状态，F(St,xt)为主动配电网系统在St状态时作了决策xt后产生的实时收益，Vt(St)为主动配电网系统在St状态的值函数，Vt+1(St+1|St,xt,Wt)为主动配电网系统在St状态的前提下，做出决策xt、接收外源信息Wt后t+1时刻的值函数，值函数的意义为后续状态对当前状态的影响；
所述主动配电网系统t时段所处的状态St为

其中，为t时段电动汽车子集群ec的可调资源量，即t时段电动汽车子集群ec的可调资源量为t时段电动汽车子集群ec的能量上界与该集群ec此时的能量之差，电动汽车子集群ec在t时段的能量为电池电量总和；为t时段分布式电源的可调资源量，即t时段分布式电源的可调资源量为t时段分布式电源的最大发电功率与实际发电功率之差；RESSa,t为储能的可调容量，即剩余电量；Pi,t、Qi,t分别为t时段节点i的有功功率、无功功率；
决策变量xt为：

外源信息Wt为：<...

【专利技术属性】
技术研发人员：李捷，余涛，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人