联合LSTM和深度强化学习的家庭能源管理方法及介质技术

技术编号：34387660 阅读：65 留言：0更新日期：2022-08-03 21:12

本发明专利技术公开了一种联合LSTM和深度强化学习的家庭能源管理方法及介质，属于智能电网需求响应领域，方法包括：利用LSTM网络预测下一时间段的光伏发电量信息和电价信息，并作为下一时间段马尔可夫决策过程的状态空间信息；根据家庭住宅中各类电气负荷对应电气设备的工作参数以及状态空间信息，将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程，得到MDP模型；设计基于深度神经网络的随机策略，以获得价值网络和策略网络；基于MDP模型，利用近端策略优化算法对价值网络和策略网络进行训练，并利用训练后的策略网络输出最优动作策略，根据最优动作策略管理各电气设备。实现最小化家庭用能成本和保证用户舒适度的目标。目标。目标。

全部详细技术资料下载

【技术实现步骤摘要】
联合LSTM和深度强化学习的家庭能源管理方法及介质

[0001]本专利技术属于智能电网需求响应领域，更具体地，涉及一种联合LSTM和深度强化学习的家庭能源管理方法及介质。

技术介绍

[0002]家庭能源管理系统(Home Energy Management System，HEMS)能够根据实时电价自动优化家庭用电负荷的用电量，降低用电成本。然而，由于实时电价定价过程和居民活动中存在随机性或不确定性，开发高效的家庭能源管理系统是具有挑战性的。具体而言，受居民生活活动影响，家庭用电负荷的运行时间和时长通常存在着很多不确定性，且难以预测。这种不确定性使得家庭能源管理系统很难有效地规划需求响应时间调度，以应对动态电价的不确定性。此外，为了能有效地控制调度设备，需要准确的设备模型信息和参数来对这些设备的电力特性和运行动态进行建模。然而，这样精确和专业的信息对于一般的家庭系统来说不是总能获得的。
[0003]现有技术中，家用电器的能源管理是以用户电费最低作为最优化目标，并且家庭能源管理调度策略都是基于具体模型的。研究基于模型的家庭能源管理调度策略需要显式的优化模型、预测器和求解器，这个过程需要详细且明确的电气负荷和运行场景的信息，并且算法性能可能会因为模型建立的不准确而恶化。深度强化学习算法利用深度神经网络的学习能力克服了许多问题，它并不需要精确的模型信息，并且可以被用来解决序贯决策问题。随着能源需求量不断增长，发展光伏、风电等清洁能源、应对气候变化已经成为普遍共识，家庭分布式光伏发电系统已逐渐得到推广和应用。但新能源发...

【技术保护点】

【技术特征摘要】
1.一种联合LSTM和深度强化学习的家庭能源管理方法，其特征在于，包括：S1，利用LSTM网络预测下一时间段的光伏发电量信息和电价信息，并作为下一时间段马尔可夫决策过程的状态空间信息；S2，根据家庭住宅中各类电气负荷对应电气设备的工作参数以及所述状态空间信息，将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程，得到MDP模型；S3，设计基于深度神经网络的随机策略，以获得价值网络和策略网络；S4，基于所述MDP模型，利用近端策略优化算法对所述价值网络和所述策略网络进行训练，并利用训练后的策略网络输出最优动作策略，根据所述最优动作策略管理各电气设备。2.如权利要求1所述的联合LSTM和深度强化学习的家庭能源管理方法，其特征在于，所述电气负荷分为基本家庭用电负荷、时间可调负荷、功率可调负荷、家庭分布式光伏发电系统及其储能系统；所述MDP模型包括状态空间、动作空间、状态转移概率和奖励函数，所述状态转移概率为未知参数。3.如权利要求2所述的联合LSTM和深度强化学习的家庭能源管理方法，其特征在于，所述状态空间为：s(t)＝{s
B
(t),s
D
(t),s
C
(t),s
PV
(t),s
ESS
(t),s
P
(t)}其中，s(t)为所述状态空间，s
B
(t)为所有基本家庭用电负荷的状态，s
D
(t)为所有时间可调负荷的状态，s
C
(t)为所有功率可调负荷的状态，s
PV
(t)为家庭分布式光伏发电系统的状态，s
ESS
(t)为储能系统的状态，s
P
(t)为电价信息的状态，t为时间。4.如权利要求2所述的联合LSTM和深度强化学习的家庭能源管理方法，其特征在于，所述功率可调负荷包括空调、电热水器和电动汽车，所述动作空间为：其中，a(t)为所述动作空间，为第d个时间可调负荷的运行状态，d＝1,2,
…
,D，D为时间可调负荷的总数，u
ESS
(t)为储能系统的充电行为和放电行为响应于充放电控制信号，P
AC
(t)为所述空调消耗的功率，P
EWH
(t)为所述电热水器消耗的功率，P
EV
(t)为所述电动汽车的充电功率，t为时间。5.如权利要求2所述的联合LSTM和深度强化学习的家庭能源管理方法，其特征在于，所述奖励函数为：r(t)＝
‑
C
elec
(t)
‑
C
comf
(t)其中，r(t)为所述奖励函数，C
elec
(t)为用电成本，C
comf
(t)为满意度成本，t为时间。6.如权利要求1所述的联合LSTM和深度强化学习的家庭能源管理方法，其特征在于，所述S3中使用以下概率分布来设计基于深度神经网络的随机策略：其中，π(a(t)|s(t))为所述随机策略，a(t)为动作空间，s(t)为状态空间，B(

【专利技术属性】
技术研发人员：池明，张梦露，刘智伟，肖江文，王燕舞，刘骁康，韦贵熙，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人