考虑储能参与的柔性深度强化学习建筑负荷需求响应方法技术

技术编号:38104705 阅读:10 留言:0更新日期:2023-07-06 09:25
本发明专利技术公开了一种考虑储能参与的柔性深度强化学习建筑负荷需求响应方法,该发明专利技术主要包括以下步骤:首先,收集多类型建筑的历史负荷数据和储能系统数据,建立负荷模型,提取动作空间和观测空间;其次,设计奖励函数,并对建筑物的需求响应过程建立马尔可夫过程模型;第三,建立动作价值网络,目标价值网络和策略网络;最后,使用历史负荷数据和储能系统数据训练上述网络模型,训练后的网络可根据当前建筑物的负荷状态输出负荷动作序列和负荷可调潜力。本发明专利技术考虑到储能系统的参与会增加需求响应动作空间的维度并且引入离散化变量,在更新状态价值网络和策略网络参数的过程中引入动作熵,提高了收敛速度,可实时评估负荷可调潜力。力。力。

【技术实现步骤摘要】
考虑储能参与的柔性深度强化学习建筑负荷需求响应方法


[0001]本专利技术涉及电力系统控制
,具体涉及考虑储能参与的柔性深度强化学习建筑负荷需求响应方法。

技术介绍

[0002]需求响应是指当电力批发市场价格升高或系统可靠性受威胁时,电力用户接收到供电方发出的诱导性减少负荷的直接补偿通知或者电力价格上升信号后,改变其固有的习惯用电模式,达到减少或者推移某时段的用电负荷而响应电力供应,从而保障电网稳定,并抑制电价上升的短期行为,其作为一种重要的电力需求管理方法逐渐引起了国内外研究人员的关注。
[0003]目前有很多技术可实现需求响应的建模和应用,包括深度学习,强化学习和区块链技术。需求响应系统的建模一般从以下几个方面考虑:用户用电负荷的建模,用户用电画像,需求响应价格策略,用户负荷的响应策略,新能源的消纳。
[0004]深度强化学习作为一种能够与环境交互的智能算法,成为需求响应这一领域新的研究趋势。由于深度强化学习通过不断与环境交互来提取优化知识,当环境变化时,其提取到的优化知识也能在线更新,自动适应被控系统的不确定性,自动探索到最优解。
[0005]但是,传统的离散型深度学习算法在面对高维度的动作空间时,常常会出现无法收敛或者收敛速度过慢的结果,同时也极易陷入局部最优。

技术实现思路

[0006]为了克服上述现有技术存在的问题,本专利技术的目的在于提供一种考虑储能参与的柔性深度强化学习建筑负荷需求响应方法,解决了用户用电习惯随时间变化后,需求响应策略无法及时适配用户用电习惯变化的问题。
[0007]为解决上述技术问题,本专利技术所采取的技术方案为:
[0008]考虑储能参与的柔性深度强化学习建筑负荷需求响应方法,该方法需要收集历史负荷数据,建立负荷模型,根据负荷模型构建强化学习环境,设计奖励函数,对需求响应过程建立马尔可夫过程模型,使用深度强化学习算法训练动作价值网络,目标价值网络和策略网络,包括以下步骤:
[0009]S1收集电力系统内建筑物的负荷可调参数和负荷静态参数的范围与量纲,同时收集电力系统内所有建筑物的历史负荷数据和储能系统数据,确定建筑物内不同种类负荷的负荷模型与负荷静态参数,根据负荷模型和历史负荷数据确定需求响应的动作空间和状态空间;
[0010]S2根据电力系统的稳定性要求和用户舒适度要求设计不同观测空间的状态对应的奖励函数,并定义折扣回报,对需求响应过程建立马尔可夫过程模型,并构建深度强化学习环境;
[0011]S3依据马尔可夫过程模型建立动作价值网络、目标价值网络和策略网络,参考柔
性Actor

Critic算法推导状态价值网络的柔性Bellman残差和动作价值网络的KL散度。
[0012]S4使用状态价值网络的柔性Bellman残差和动作价值网络的KL散度更新网络参数,用于更新网络参数的数据为历史负荷数据,参数更新收敛条件为整个需求响应时期的折扣回报稳定;训练得到的策略网络根据建筑物负荷状态输出负荷响应动作,目标价值网络根据建筑物负荷状态评估建筑物负荷可调潜力,动作价值网络对建筑物的负荷动作进行负荷可调潜力评估。
[0013]所述S1中负荷模型包括不响应负荷模型、温控负荷模型和储能系统负荷模型;其中,温控负荷模型包括空调系统负荷模型和供暖系统负荷模型;
[0014]所述不响应负荷模型为:
[0015][0016]其中,指编号为i的建筑物t时刻不响应负荷的功率,指编号为i的建筑物在开启时刻到关闭时刻之间的平均功率,指电力系统内所有建筑物不响应负荷的总功率;
[0017]所述空调系统负荷模型为:
[0018][0019]其中,C
in
指建筑物室内等效热容,R
out
指建筑物室外的等效热阻,指建筑物t时刻空调系统的总功率,η
AC
指空调系统的等效能源效率,T
in,t
指t时刻建筑物的等效室内温度,T
out,t
指t时刻建筑物的等效室外温度,t指时间,单位为小时;
[0020]所述供暖系统负荷模型为:
[0021][0022]其中,m代表供暖系统内流体的质量,C代表供暖系统循环水管内流体的比热容,(mC)
in
表示供暖系统散热器内流体的储热系数,t代表时间,单位为小时,U
p
和A
p
分别为循环水管的等效传热系数和接触面积,U
r
和A
r
表示散热器的等效传热系数和等效面积,U
wall
和A
wall
表示建筑物外墙的等效传热系数和等效面积,U
win
和A
win
表示建筑物窗户的等效传热系数和等效面积,T
r
表示散热器内流体的等效温度,T
out
表示建筑物室外的环境温度,T
in
表示建筑物室内的环境温度,Qs指其他设备产生的热能,等于不响应负荷在单位时间内产生的热能。
[0023]所述储能系统的负荷模型为:
[0024][0025]其中,SOC
t
指储能系统在t时刻的荷电状态,SOC
t
‑1指储能系统在t

1时刻的荷电状态,表示储能系统在t

1时刻的充电功率,表示储能系统在t

1时刻的输出功率,η
charge
和η
output
表示储能系统的充电效率指数和放电效率指数,η
loss
指储能系统荷电状态随时间降低的损耗指数,Δt指t

1时刻和t时刻之间的时间间隔。
[0026]所述S1中需求响应的动作空间由建筑物的负荷可调参数组成,所述S2中观测空间由收集的历史负荷数据组成,分别包含以下参数:
[0027][0028]其中,S
i,t
表示i栋建筑在t时刻的负荷数据观测值,A
i,t
表示i栋建筑在t时刻的负荷可调参数,表示电力系统内建筑物i不响应负荷的总功率,T
out
指建筑物的室外温度,T
in
指建筑物的室内温度,Qs指其他设备产生的热能,指建筑物t时刻的空调系统的总功率,指储能系统的充电功率,指储能系统的输出功率,表示t时刻编号为i的建筑物空调系统的可调参数,表示t时刻编号为i的建筑物供暖系统的可调参数,表示t时刻编号为i的建筑物储能系统的可调参数。
[0029]所述S2中的奖励函数包括:负荷响应奖励和越限惩罚,即
[0030][0031]其中,表示t时刻的负荷响应奖励,表示t时刻的越限惩罚;
[0032]t时刻的负荷响应奖励为:
[0033][0034]其中,为电力系统总负荷功率,指i栋建筑物与电网交互的净功率:
[0035][0036]其中,为编号为i的建筑物t时刻本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.考虑储能参与的柔性深度强化学习建筑负荷需求响应方法,其特征在于,该方法需要收集历史负荷数据,建立负荷模型,根据负荷模型构建强化学习环境,设计奖励函数,对需求响应过程建立马尔可夫过程模型,使用深度强化学习算法训练动作价值网络,目标价值网络和策略网络,包括以下步骤:S1收集电力系统内建筑物的负荷可调参数和负荷静态参数的范围与量纲,同时收集电力系统内所有建筑物的历史负荷数据和储能系统数据,确定建筑物内不同种类负荷的负荷模型与负荷静态参数,根据负荷模型和历史负荷数据确定需求响应的动作空间和状态空间;S2根据电力系统的稳定性要求和用户舒适度要求设计不同观测空间的状态对应的奖励函数,并定义折扣回报,对需求响应过程建立马尔可夫过程模型,并构建深度强化学习环境;S3依据马尔可夫过程模型建立动作价值网络、目标价值网络和策略网络,参考柔性Actor

Critic算法推导状态价值网络的柔性Bel lman残差和动作价值网络的KL散度。S4使用状态价值网络的柔性Bel lman残差和动作价值网络的KL散度更新网络参数,用于更新网络参数的数据为历史负荷数据,参数更新收敛条件为整个需求响应时期的折扣回报稳定;训练得到的策略网络根据建筑物负荷状态输出负荷响应动作,目标价值网络根据建筑物负荷状态评估建筑物负荷可调潜力,动作价值网络对建筑物的负荷动作进行负荷可调潜力评估。2.如权利要求1所述的方法,其特征在于,所述S1中负荷模型包括不响应负荷模型、温控负荷模型和储能系统负荷模型;其中,温控负荷模型包括空调系统负荷模型和供暖系统负荷模型;所述不响应负荷模型为:所述不响应负荷模型为:其中,指编号为i的建筑物t时刻不响应负荷的功率,指编号为i的建筑物在开启时刻到关闭时刻之间的平均功率,指电力系统内所有建筑物不响应负荷的总功率;所述空调系统负荷模型为:其中,C
in
指建筑物室内等效热容,R
out
指建筑物室外的等效热阻,指建筑物t时刻空调系统的总功率,η
AC
指空调系统的等效能源效率,T
in,t
指t时刻建筑物的等效室内温度,T
out,t
指t时刻建筑物的等效室外温度,t指时间,单位为小时;所述供暖系统负荷模型为:
其中,m代表供暖系统内流体的质量,C代表供暖系统循环水管内流体的比热容,(mC)
in
表示供暖系统散热器内流体的储热系数,t代表时间,单位为小时,U
p
和A
p
分别为循环水管的等效传热系数和接触面积,U
r
和A
r
表示散热器的等效传热系数和等效面积,U
wall
和A
wall
表示建筑物外墙的等效传热系数和等效面积,U
win
和A
win
表示建筑物窗户的等效传热系数和等效面积,T
r
表示散热器内流体的等效温度,T
out
表示建筑物室外的环境温度,T
in
表示建筑物室内的环境温度,Q
S
指其他设备产生的热能,等于不响应负荷在单位时间内产生的热能。所述储能系统的负荷模型为:其中,SOC
t
指储能系统在t时刻的荷电状态,SOC
t
‑1指储能系统在t

1时刻的荷电状态,表示储能系统在t

1时刻的充电功率,表示储能系统在t

1时刻的输出功率,η
charge
和η
output
表示储能系统的充电效率指数和放电效率指数,η
loss
指储能系统荷电状态随时间降低的损耗指数,Δt指t

1时刻和t时刻之间的时间间隔。3.如权利要求1所述的方法,其特征在于,所述S1中需求响应的动作空间由建筑物的负荷可调参数组成,所述S2中观测空间由收集的历史负荷数据组成,分别包含以下参数:荷可调参数组成,所述S2中观测空间由收集的历史负荷数据组成,分别包含以下参数:其中,S
i,t
表示i栋建筑在t时刻的负荷数据观测值,A
i,t
表示i栋建筑在t时刻的负荷可调参数,表示电力系统内建筑物i不响应负荷的总功率,T
out
指建筑物的室外温度,T
in
指建筑物的室内温度,Q
S
指其他设备产生的热能,指建筑物t时刻的空调系统的总功率,指储能系统的充电功率,指储能系统的输出功率,表示t时刻编号为i的建筑物空调系统...

【专利技术属性】
技术研发人员:谢东日明东岳彭涛丁黎傅晨樊立攀刘俊聂永欣
申请(专利权)人:国网湖北省电力有限公司营销服务中心计量中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1