联合LSTM和深度强化学习的家庭能源管理方法及介质技术

技术编号:34387660 阅读:65 留言:0更新日期:2022-08-03 21:12
本发明专利技术公开了一种联合LSTM和深度强化学习的家庭能源管理方法及介质,属于智能电网需求响应领域,方法包括:利用LSTM网络预测下一时间段的光伏发电量信息和电价信息,并作为下一时间段马尔可夫决策过程的状态空间信息;根据家庭住宅中各类电气负荷对应电气设备的工作参数以及状态空间信息,将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程,得到MDP模型;设计基于深度神经网络的随机策略,以获得价值网络和策略网络;基于MDP模型,利用近端策略优化算法对价值网络和策略网络进行训练,并利用训练后的策略网络输出最优动作策略,根据最优动作策略管理各电气设备。实现最小化家庭用能成本和保证用户舒适度的目标。目标。目标。

【技术实现步骤摘要】
联合LSTM和深度强化学习的家庭能源管理方法及介质


[0001]本专利技术属于智能电网需求响应领域,更具体地,涉及一种联合LSTM和深度强化学习的家庭能源管理方法及介质。

技术介绍

[0002]家庭能源管理系统(Home Energy Management System,HEMS)能够根据实时电价自动优化家庭用电负荷的用电量,降低用电成本。然而,由于实时电价定价过程和居民活动中存在随机性或不确定性,开发高效的家庭能源管理系统是具有挑战性的。具体而言,受居民生活活动影响,家庭用电负荷的运行时间和时长通常存在着很多不确定性,且难以预测。这种不确定性使得家庭能源管理系统很难有效地规划需求响应时间调度,以应对动态电价的不确定性。此外,为了能有效地控制调度设备,需要准确的设备模型信息和参数来对这些设备的电力特性和运行动态进行建模。然而,这样精确和专业的信息对于一般的家庭系统来说不是总能获得的。
[0003]现有技术中,家用电器的能源管理是以用户电费最低作为最优化目标,并且家庭能源管理调度策略都是基于具体模型的。研究基于模型的家庭能源管理调度策略需要显式的优化模型、预测器和求解器,这个过程需要详细且明确的电气负荷和运行场景的信息,并且算法性能可能会因为模型建立的不准确而恶化。深度强化学习算法利用深度神经网络的学习能力克服了许多问题,它并不需要精确的模型信息,并且可以被用来解决序贯决策问题。随着能源需求量不断增长,发展光伏、风电等清洁能源、应对气候变化已经成为普遍共识,家庭分布式光伏发电系统已逐渐得到推广和应用。但新能源发电系统的不确定性对于研究一种有效的家庭能源管理调度方法又是一种挑战。

技术实现思路

[0004]针对现有技术的缺陷和改进需求,本专利技术提供了一种联合LSTM和深度强化学习的家庭能源管理方法及介质,其目的在于对综合了各种电气设备的家庭住宅系统进行实时调度,实现最小化家庭用能成本和保证用户舒适度的目标。
[0005]为实现上述目的,按照本专利技术的一个方面,提供了一种联合LSTM和深度强化学习的家庭能源管理方法,包括:S1,利用LSTM网络预测下一时间段的光伏发电量信息和电价信息,并作为下一时间段马尔可夫决策过程的状态空间信息;S2,根据家庭住宅中各类电气负荷对应电气设备的工作参数以及所述状态空间信息,将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程,得到MDP模型;S3,设计基于深度神经网络的随机策略,以获得价值网络和策略网络;S4,基于所述MDP模型,利用近端策略优化算法对所述价值网络和所述策略网络进行训练,并利用训练后的策略网络输出最优动作策略,根据所述最优动作策略管理各电气设备。
[0006]更进一步地,所述电气负荷分为基本家庭用电负荷、时间可调负荷、功率可调负荷、家庭分布式光伏发电系统及其储能系统;所述MDP模型包括状态空间、动作空间、状态转
移概率和奖励函数,所述状态转移概率为未知参数。
[0007]更进一步地,所述状态空间为:
[0008]s(t)={s
B
(t),s
D
(t),s
C
(t),s
PV
(t),s
ESS
(t),s
P
(t)}
[0009]其中,s(t)为所述状态空间,s
B
(t)为所有基本家庭用电负荷的状态,s
D
(t)为所有时间可调负荷的状态,s
C
(t)为所有功率可调负荷的状态,s
PV
(t)为家庭分布式光伏发电系统的状态,s
ESS
(t)为储能系统的状态,s
P
(t)为电价信息的状态,t为时间。
[0010]更进一步地,所述功率可调负荷包括空调、电热水器和电动汽车,所述动作空间为:
[0011][0012]其中,a(t)为所述动作空间,为第d个时间可调负荷的运行状态,d=1,2,

,D,D为时间可调负荷的总数,u
ESS
(t)为储能系统的充电行为和放电行为响应于充放电控制信号,P
AC
(t)为所述空调消耗的功率,P
EWH
(t)为所述电热水器消耗的功率,P
EV
(t)为所述电动汽车的充电功率,t为时间。
[0013]更进一步地,所述奖励函数为:
[0014]r(t)=

C
elec
(t)

C
comf
(t)
[0015]其中,r(t)为所述奖励函数,C
elec
(t)为用电成本,C
comf
(t)为满意度成本,t为时间。
[0016]更进一步地,所述S3中使用以下概率分布来设计基于深度神经网络的随机策略:
[0017][0018]其中,π(a(t)|s(t))为所述随机策略,a(t)为动作空间,s(t)为状态空间,B(
·
)为伯努利分布,p(
·
)为打开离散动作控制的电气设备的概率,N(
·
)为高斯分布,μ
c
(
·
)为高斯分布的平均值,σ
c
为高斯分布的标准差,为第d个时间可调负荷的运行状态,d=1,2,

,D,D为时间可调负荷的总数,u
ESS
(t)为储能系统的充电行为和放电行为响应于充放电控制信号,P
AC
(t)为所述空调消耗的功率,P
EWH
(t)为所述电热水器消耗的功率,P
EV
(t)为所述电动汽车的充电功率,t为时间。
[0019]更进一步地,所述策略网络的输入为s(t),输出为p(s(t))、μ
c
(s(t))和log(σ
c
);所述价值网络的输出维度为1,其他结构和参数与所述策略网络相同,损失函数为:
[0020][0021]其中,L
V
(θ)为所述价值网络的损失函数,θ为所述策略网络和价值网络的参数,E
t
[
·
]为随机变量的期望值,V
πθ
(
·
)为价值函数,γ
l
为奖励折扣因子,r(t+1)为t+1时刻MDP模型的奖励函数。
[0022]更进一步地,所述S4中训练目标是最大化代替函数L
CLIP
(θ)和最小化损失函数L
V
(θ),整体损失函数为:
[0023]L
All
(θ)=L
CLIP
(θ)

c
·
L
V
(θ)
[0024][0025]其中,L
All
(θ)为所述整体损失函数,θ为所述策略网络和价值网络的参数,c为第一超参数,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,包括:S1,利用LSTM网络预测下一时间段的光伏发电量信息和电价信息,并作为下一时间段马尔可夫决策过程的状态空间信息;S2,根据家庭住宅中各类电气负荷对应电气设备的工作参数以及所述状态空间信息,将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程,得到MDP模型;S3,设计基于深度神经网络的随机策略,以获得价值网络和策略网络;S4,基于所述MDP模型,利用近端策略优化算法对所述价值网络和所述策略网络进行训练,并利用训练后的策略网络输出最优动作策略,根据所述最优动作策略管理各电气设备。2.如权利要求1所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述电气负荷分为基本家庭用电负荷、时间可调负荷、功率可调负荷、家庭分布式光伏发电系统及其储能系统;所述MDP模型包括状态空间、动作空间、状态转移概率和奖励函数,所述状态转移概率为未知参数。3.如权利要求2所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述状态空间为:s(t)={s
B
(t),s
D
(t),s
C
(t),s
PV
(t),s
ESS
(t),s
P
(t)}其中,s(t)为所述状态空间,s
B
(t)为所有基本家庭用电负荷的状态,s
D
(t)为所有时间可调负荷的状态,s
C
(t)为所有功率可调负荷的状态,s
PV
(t)为家庭分布式光伏发电系统的状态,s
ESS
(t)为储能系统的状态,s
P
(t)为电价信息的状态,t为时间。4.如权利要求2所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述功率可调负荷包括空调、电热水器和电动汽车,所述动作空间为:其中,a(t)为所述动作空间,为第d个时间可调负荷的运行状态,d=1,2,

,D,D为时间可调负荷的总数,u
ESS
(t)为储能系统的充电行为和放电行为响应于充放电控制信号,P
AC
(t)为所述空调消耗的功率,P
EWH
(t)为所述电热水器消耗的功率,P
EV
(t)为所述电动汽车的充电功率,t为时间。5.如权利要求2所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述奖励函数为:r(t)=

C
elec
(t)

C
comf
(t)其中,r(t)为所述奖励函数,C
elec
(t)为用电成本,C
comf
(t)为满意度成本,t为时间。6.如权利要求1所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述S3中使用以下概率分布来设计基于深度神经网络的随机策略:其中,π(a(t)|s(t))为所述随机策略,a(t)为动作空间,s(t)为状态空间,B(

【专利技术属性】
技术研发人员:池明张梦露刘智伟肖江文王燕舞刘骁康韦贵熙
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1