一种基于模型预测与深度强化学习的热水系统控制方法技术方案

技术编号：35211354 阅读：31 留言：0更新日期：2022-10-15 10:24

本发明专利技术提出一种基于模型预测与深度强化学习的热水系统控制方法，该方法将监督学习与近端策略优化方法进行结合，用于控制随机行为居住者的热水系统。首先，所提方法中的监督学习包括循环门控单元、深度神经网络判别器和时间序列预测模块。输入政策信息与行为信息，来预测未来一天居住者行为，并输出未来一天近端策略优化方法接入热水系统的概率。若概率小于阈值，则采用两点控制策略并继续训练智能体；反之，则采用近端策略优化方法。其次，所提方法中的近端策略优化方法能学习随机的居住者行为，无需特定调整即能应用在各种不同的居住场合，该方法能直接用于居住者家居，减少所需设备的安装与调试的时间，并且该方法的整体框架解释性比较优异。解释性比较优异。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于模型预测与深度强化学习的热水系统控制方法

[0001]本专利技术属于建筑能源系统优化运行领域，涉及监督学习与深度强化学习的热水系统控制方法，适用于随机行为居住者的热水系统。

技术介绍

[0002]在现代低能耗建筑中，热水能源需求占总能量需求的70％左右，热水系统的控制方法日益成为影响建筑能源系统优化运行的重要因素，家庭中热水需求与居住者行为密切相关，居住者行为是建筑能源系统优化运行的不确定性来源之一。
[0003]随机行为居住者将导致热水系统的保守操作方法，采用两点控制方法，当水箱温度低于较低阈值时打开热泵，当水箱温度高于较高阈值时关闭热泵。虽然它是一个简单易用的控制方法，但是与居住者的行为无关，过度准备热水会消耗大量能源。
[0004]现有的热水系统的控制方法除了两点控制方法还有一种基于强化学习的热水系统控制方法，但是该方法的设备所需的安装和调试时间长、可解释性比较差、并且有扰乱居住者舒适感的可能性。
[0005]因此，提出一种基于模型预测与深度强化学习的热水系统控制方法，来解决过度消耗能源、设备所需的安装和调试时间长、可解释性差的问题。

技术实现思路

[0006]本专利技术提出一种基于模型预测与深度强化学习的热水系统控制方法，该方法将监督学习和近端策略优化方法进行结合，用于随机行为居住者的热水系统的控制；无需特定调整即能应用在各种不同居民居住场合，能直接用于居住者家居，减少所需设备的安装与调试的时间，并且该方法的整体框架可解释性强；在使用过程中的步骤为：
[

【技术保护点】

【技术特征摘要】
1.一种基于模型预测与深度强化学习的热水系统控制方法，其特征在于，将监督学习和近端策略优化方法进行结合，用于随机行为居住者的热水系统的控制；无需特定调整即能应用在各种不同居民居住场合，能直接用于居住者家居，减少所需设备的安装与调试的时间，并且该方法的整体框架可解释性强；在使用过程中的步骤为：步骤(1)：将信息与居住者的行为输入到循环门控单元；居住者的行为表示前一周每日居住者在家每小时的热水使用情况，然后通过循环门控单元进行预测，输出未来一天居住者行为，即未来一天居住者每小时的热水使用情况；若居住者必须在家，则信息为1，若居住者能够外出，则信息为0；居住者的行为是一个7
×
24的信息矩阵，为过去一周每天每小时的热水使用情况；将信息和行为输入到循环门控单元后，能得到一个1
×
24的信息矩阵，该1
×
24的信息矩阵表示循环门控单元所预测的居住者未来一天24小时的热水使用情况；循环门控单元由许多个含两个门的门控神经元组成，包括更新门和重置门；重置门是为得到门控神经元的候选隐藏状态，重置门的输出为：R
GRU,t
＝σ(X
t
W
xr
+H
GRU,t
‑1W
hr
+b
r
) (1)式中：R
GRU,t
为门控神经元中重置门t时刻的输出；σ(
·
)为激活函数；X
t
为门控神经元t时刻的输入；W
xr
为门控神经元的输入与重置门之间的权重；H
GRU,t
‑1为门控神经元t
‑
1时刻的隐藏状态；W
hr
为门控神经元的隐藏状态与重置门之间的权重；b
r
为计算重置门的输出时的偏置；更新门的输出为：Z
GRU,t
＝σ(X
t
W
xz
+H
GRU,t
‑1W
hz
+b
z
) (2)式中：Z
GRU,t
为门控神经元中更新门t时刻的输出；W
xz
为门控神经元的输入与更新门之间的权重；W
hz
为门控神经元的隐藏状态与更新门之间的权重；b
z
为计算门控神经元的更新门的输出时的偏置；门控神经元的候选隐藏状态为:式中：为门控神经元t时刻的候选隐藏状态；tanh(
·
)为双曲函数；W
xh
为门控神经元的输入与门控神经元的候选隐藏状态之间的权重；
⊙
为同或逻辑运算符；W
hh
为门控神经元的隐藏状态与候选隐藏状态之间的权重；b
h
为计算门控神经元的候选隐藏状态时的偏置；根据更新门Z
GRU,t
的输出和候选隐藏状态计算得到隐藏状态H
GRU,t
：式中：H
GRU,t
为门控神经元t时刻的隐藏状态；步骤(2)：将循环门控单元输出的预测未来一天居住者行为和上一周对应那天的居住者行为输入到深度神经网络判别器中，即将未来一天每小时的热水使用情况和上周对应那天的每小时的热水使用情况输入到深度神经网络判别器中，通过深度神经网络判别器输出结果来判断未来一天居住者每小时的热水使用情况和上周对应那天的每小时的热水使用
情况是否一致；若输出结果为一致，则未来一天每小的时热水系统的控制与上周对应那天的每小时的热水系统的控制方法一致，若输出结果为不一致，则进入时间序列预测模块；深度神经网络判别器的输入为两个1
×
24的信息矩阵，一个信息矩阵是由步骤(1)中循环门控单元的输出结果，另外一个信息矩阵表示的是上周对应那天的24小时热水使用情况；深度神经网络判别器的输出结果为真或者假；若结果为真，则用1表示，若结果为假，则用0表示；热水系统包括：热水箱和热泵；深度神经网络判别器是由深度神经网络组成，包括输入层、隐藏层和输出层；层与层之间是全连接的，即第i层的任意一个神经元一定与第i+1层的任意一个神经元相连，每层共有m个神经元，则对于第l层的第j个神经元输出为：式中：为第l层的第j个神经元的输出值；为第l
‑
1层中第k个神经元与第l层中第j个神经元之间的权重；为计算第l层中第j个神经元输出值中的偏置；步骤(3)：进入时间序列预测模块后，将近端策略优化方法的评价损失函数值和动作损失函数值、归一化的优势函数值以及折扣回报输入到时间序列预测模块，然后输出一个概率值；输出的概率值表示未来一天近端策略优化方法接入热水系统的概率大小，若概率值大于0.95，则将近端策略优化方法接入热水系统，若概率值小于等于0.95，则将两点控制方法接入热水系统；两点控制方法为：当水箱温度低于65℃时，打开热泵；当水箱温度低于65℃时，关闭热泵；时间序列预测模块的概率值为：式中：为时间序列预测模块输出的概率值；z
i,t
表示第i条序列t时刻的值；x
i,t
表示第i条序列t时刻的特征，并且表示第i条序列t时刻的特征，并且x
i,1:T
＝[x
i,1
,x
i,2
,...,x
i,T
]；p(z
i,t
|θ(H
i,t,
Θ))为似然因子；t0表示预测的开始时刻；t0‑
1表示已知的最后时刻；T
forecast
为预测的最后时刻；[1,t0‑
1]表示历史区间，[t0,T
forecast
]表示预测区间；H
i,t
由长短期记忆神经网络生成；长短期记忆神经网络由许多个含三个门的网络神经元组成，包括输入门、遗忘门和输出门；其计算过程如下：首先，计算输入门、遗忘门、输出门的输出；输入门的输出为：I
i,t
＝σ(X
i,t
W
xi
+H
i,t
‑1W
hi
+b
i
) (7)式中：I
i,t
为网络神经元输入门第i条序列t时刻的输出；X
i,t
为网络神经元第i条序列t时刻的输入；W
xi
为网络神经元的输入与输入门之间的权重；W
hi
为网络神经元的隐藏状态与输入门之间的权重；H
i,t
‑1为网络神经元第i条序列t时刻的隐藏状态；b
i
为计算网络神经元
的输入门的输出时的偏置；遗忘门的输出为：F
i,t
＝σ(X
i,t
W
xf
+H
i,t
‑1W
hf
+b
f
) (8)式中：F
i,t
为网络神经元遗忘门第i条序列t时刻的输出；W
xf
为网络神经元的输入与遗忘门之间的权重；W
hf
为网络神经元的隐藏状态与遗忘门之间的权重；b
f
为计算网络神经元的遗忘门的输出时的偏置；输出门的输出为：O
i,t
＝σ(X
i,t
W
xo
+H
i,t
‑1W
ho
+b
o
) (9)式中：O
i,t
为网络神经元输出门第i条序列t时刻的输出；W
xo
为网络神经元的输入与输出门之间的权重；W
ho
为网络神经元的隐藏状态与输出门之间的权重；b
...

【专利技术属性】
技术研发人员：殷林飞，熊轶，胡立坤，
申请(专利权)人：广西大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人