一种基于离线强化学习的供热控制方法及系统技术方案

技术编号：33429725 阅读：21 留言：0更新日期：2022-05-19 00:20

本发明专利技术提供一种基于离线强化学习的供热控制方法及系统，所述方法包括以下步骤：采集供热数据，将供热数据集输入供热模型；从供热数据集中采样条交互数据获得四元组(s，a，r，s

全部详细技术资料下载

【技术实现步骤摘要】
一种基于离线强化学习的供热控制方法及系统

[0001]本专利技术涉及供热系统控制
，具体而言，涉及一种基于离线强化学习的供热控制方法及系统。

技术介绍

[0002]集中供热系统的智能控制对我国居民生活质量的提升和城市建设的发展具有较大影响，是当前备受重视的技术。集中供热系统主要由三部分组成：热源、换热站和用热户。当前集中供热系统的热源主要有热电厂、区域锅炉房和集中锅炉房，热源产生的蒸汽或热水通过一次管网送到换热站，换热站再通过二次管网将一次管网的蒸汽或热水的热量传至用热户终端。
[0003]以往多用一些传统的优化控制方法进行集中供热系统的控制，即通过物理机理构建模型驱动的算法进行调控，这类方法的缺点较为明显，运行工况一旦发生变化，算法的调整能力非常有限，此时就需要重新建模。
[0004]随着智能云技术和AI算法的快速发展，新型人工智能算法在集中供热系统中的应用逐步深入，其优势也逐步凸显。其中，基于数据驱动的智能控制算法相较于传统控制算法的优点在于鲁棒性强，响应速度快等。目前基于数据驱动的智能控制算法主要有以下两类：
[0005]1.监督学习：通过历史数据端到端的训练模型，模型性能十分依赖数据的质量以及数量，考虑到实际场景下数据的质量，泛化性能会比较差。
[0006]2.强化学习：需要与环境进行交互，，即给定一个环境的状态(State)，程序根据某种策略(Policy)选出一个对应的行为(Action)，而执行这个Action后环境又会发生改变，即状态会转换为新的状态S'，且每执行...

【技术保护点】

【技术特征摘要】
1.一种基于离线强化学习的供热控制方法，其特征在于，包括以下步骤：S1、采集供热数据，将供热数据集输入供热模型，设定时间步长T，目标网络更新率τ，小批量数据规模最大扰动φ，采样的动作数n，最小化权重λ，随机参数θ1，θ2，φ，ω；初始化两个Q矩阵Q
θ
(s，a)：Q
θ1
，Q
θ2
；扰动模型ξ
φ
，目标网络Q
θ
′1，Q
θ
′2，目标扰动模型ξ
φ
′
，生成VAE正态分布模型G
ω
＝{E
ω1
，D
ω2
}，其中θ
′1←
θ1，θ
′2←
θ2，φ
′←
φ；S2、从供热数据集中采样条交互数据获得四元组(s，a，r，s
′
)，以时间步长从t＝1到T步进行循环，训练G
ω
模型；基于正态分布N(μ，σ)，令μ，σ＝E
ω1
(s，a)，(s，a)，s为状态State，a为采取的行为action，s
′
为s执行a后的下一个状态；参数用来表示新的值对更新后值所造成的影响大小，r为在状态s下采取动作a后获得的奖励Reward；从G
ω
中根据数据集中的分布选出相似度最高的actions作为候选，采样的动作数n用来表示候选actions的个数；采样n个动作actions：对所述采样的每个动作action做扰动：根据Q网络选出actions中价值最高的作为实际采取的action；设定目标γ：其中的λ参数用来控制未来不确定性的惩罚程度；θ
←
argmin
ω
∑(y
‑
Q
θ
(s，a))2；更新目标网络：θ
‘
i
←
τθ+(1
‑
τ)θ
‘
i
；φ
′←
τφ+(1
‑
τ)φ
′
；循环直到两个Q矩阵的最小值结束；S3、将所述训练后的G
ω
模型部署至服务器，并通过定时任务，实施对一网和二网供水温度进行预测，将预测结果下发至换热站；并对G
ω
模型的效果进行监控，定时根据G
ω
模型的效果，对效果提升的G
ω
模型进行更新训练、对效果不佳的G
ω
模型进行回滚。2.根据权利要求1所述的供热控制方法，其特征在于，所述S1步骤的所述G
ω

【专利技术属性】
技术研发人员：马志军，胡继新，梁炜，何子峰，张康，成甜甜，曹玉玺，
申请(专利权)人：国家电投集团雄安能源有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人