一种基于离线强化学习的供热控制方法及系统技术方案

技术编号:33429725 阅读:21 留言:0更新日期:2022-05-19 00:20
本发明专利技术提供一种基于离线强化学习的供热控制方法及系统,所述方法包括以下步骤:采集供热数据,将供热数据集输入供热模型;从供热数据集中采样条交互数据获得四元组(s,a,r,s

【技术实现步骤摘要】
一种基于离线强化学习的供热控制方法及系统


[0001]本专利技术涉及供热系统控制
,具体而言,涉及一种基于离线强化学习的供热控制方法及系统。

技术介绍

[0002]集中供热系统的智能控制对我国居民生活质量的提升和城市建设的发展具有较大影响,是当前备受重视的技术。集中供热系统主要由三部分组成:热源、换热站和用热户。当前集中供热系统的热源主要有热电厂、区域锅炉房和集中锅炉房,热源产生的蒸汽或热水通过一次管网送到换热站,换热站再通过二次管网将一次管网的蒸汽或热水的热量传至用热户终端。
[0003]以往多用一些传统的优化控制方法进行集中供热系统的控制,即通过物理机理构建模型驱动的算法进行调控,这类方法的缺点较为明显,运行工况一旦发生变化,算法的调整能力非常有限,此时就需要重新建模。
[0004]随着智能云技术和AI算法的快速发展,新型人工智能算法在集中供热系统中的应用逐步深入,其优势也逐步凸显。其中,基于数据驱动的智能控制算法相较于传统控制算法的优点在于鲁棒性强,响应速度快等。目前基于数据驱动的智能控制算法主要有以下两类:
[0005]1.监督学习:通过历史数据端到端的训练模型,模型性能十分依赖数据的质量以及数量,考虑到实际场景下数据的质量,泛化性能会比较差。
[0006]2.强化学习:需要与环境进行交互,,即给定一个环境的状态(State),程序根据某种策略(Policy)选出一个对应的行为(Action),而执行这个Action后环境又会发生改变,即状态会转换为新的状态S',且每执行完一个Action后程序会得到一个激励值(Reward),而程序就依据得到的激励值的大小调整其策略,使得在所有步骤执行完后,即状态到达终止状态(Terminal)时,所获得的Reward之和最大。强化学习不断强化智能体的决策水平,但考虑到实际场景通常不会给予智能体“不断试错”的机会,安全性和成本都得不到保证。若不与环境交互,则会产生很大的外推误差。
[0007]以上两类方法都有各自的优点和局限性,监督学习的思想是一种纯端到端的形式,如果训练数据不足量,控制算法的泛化误差会很大。而一般强化学习的方法可以在集中供热这样的控制类任务中表现优良,但需要环境的交互作为提升模型性能的基础。

技术实现思路

[0008]鉴于此,本专利技术的目的在于提出一种新型算法,更稳定的满足用热户的用热需求,以及在满足用热需求的基础上,有效的降低供热系统的运行损耗,减少供暖成本,提出一种无需与环境交互的,又能够充分利用强化学习优势的离线强化学习方法。离线强化学习,是目前学届和工业届的热点,是强化学习落地供热场景的一种重要形式,可以降低强化学习应用于供热的门槛,有利于供热行业的智能化与数字化转型。集中供热系统控制的现实目标是为用热户提供舒适的室内环境,从技术角度说就是通过控制算法调节相关参数以满足
采暖用热户的用热需求。
[0009]本专利技术提供一种基于离线强化学习的供热控制方法,包括以下步骤:
[0010]S1、采集供热数据,将供热数据集输入供热模型,设定时间步长T,目标网络更新率τ,小批量数据规模最大扰动φ,采样的动作数n,最小化权重λ,随机参数θ1,θ2,φ,ω;
[0011]初始化两个Q矩阵Q
θ
(s,a):Q
θ1
,Q
θ2
;扰动模型ξ
φ
,目标网络Q
θ
′1,Q
θ
′2,用到两个目标网络目的是为了防止对Q值的过高估计,目标扰动模型ξ
φ

,扰动网络的目的在于提供action的多样性,这样可以采样[

φ,φ]内的动作,而不单单依靠生成器生成;生成VAE正态分布模型G
ω
={E
ω1
,D
ω2
},
[0012]其中θ1←
θ1,θ2←
θ2,φ

φ;
[0013]参数φ用来对动作action在[

φ,φ]范围内进行调整,这样可以使该算法访问受约束区域中的action而不用从生成模型G
ω
采样很多次;
[0014]S2、从供热数据集中采样条交互数据获得四元组(s,a,r,s

),以时间步长从t=1到T步进行循环,训练G
ω
模型;
[0015]基于正态分布N(μ,σ),令μ,σ=E
ω1
(s,a),
[0016][0017][0018]s为状态State,a为采取的行为action,s

为s执行a后的下一个状态;参数用来表示新的值对更新后值所造成的影响大小,r为在状态s下采取动作a后获得的奖励Reward;
[0019]从G
ω
中根据数据集中的分布选出相似度最高的actions作为候选,采样的动作数n用来表示候选actions的个数;
[0020]采样n个动作actions:
[0021]对所述采样的每个动作action做扰动:以增强action的多样性;
[0022]根据Q网络选出actions中价值最高的作为实际采取的action;
[0023]设定目标γ:
[0024][0025]其中的λ参数用来控制未来不确定性的惩罚程度;γ是一个discount值,用来减小新值的影响的值,其中d和γ的范围都在0~1之间;
[0026]θ

argmin
ω
∑(y

Q
θ
(s,a))2;
[0027][0028]更新目标网络:θ

i

τθ+(1

τ)θ

i
;φ
′←
τφ+(1

τ)φ


[0029]循环直到两个Q矩阵的最小值结束;
[0030]S3、将所述训练后的G
ω
模型部署至服务器,并通过定时任务,实施对一网和二网供
水温度进行预测,将预测结果下发至换热站;并对G
ω
模型的效果进行监控,定时根据G
ω
模型的效果,对效果提升的G
ω
模型进行更新训练、对效果不佳的G
ω
模型进行回滚;
[0031]部署后的G
ω
模型,可以进一步积累实时的专家数据,重新回到数据采集的步骤,周而复始,不断迭代模型,提升集中供热系统的运行效率,在保障居民供热量足够的情况下,节约能源。
[0032]进一步地,所述S1步骤的所述G
ω
模型的生成方法包括:针对不同渠道采集到的供热数据,进行基础的数据处理:包括数据清洗、数据聚合;
[0033]所述数据清洗的方法包括:基于椭圆模型Elliptic 本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于离线强化学习的供热控制方法,其特征在于,包括以下步骤:S1、采集供热数据,将供热数据集输入供热模型,设定时间步长T,目标网络更新率τ,小批量数据规模最大扰动φ,采样的动作数n,最小化权重λ,随机参数θ1,θ2,φ,ω;初始化两个Q矩阵Q
θ
(s,a):Q
θ1
,Q
θ2
;扰动模型ξ
φ
,目标网络Q
θ
′1,Q
θ
′2,目标扰动模型ξ
φ

,生成VAE正态分布模型G
ω
={E
ω1
,D
ω2
},其中θ
′1←
θ1,θ
′2←
θ2,φ
′←
φ;S2、从供热数据集中采样条交互数据获得四元组(s,a,r,s

),以时间步长从t=1到T步进行循环,训练G
ω
模型;基于正态分布N(μ,σ),令μ,σ=E
ω1
(s,a),(s,a),s为状态State,a为采取的行为action,s

为s执行a后的下一个状态;参数用来表示新的值对更新后值所造成的影响大小,r为在状态s下采取动作a后获得的奖励Reward;从G
ω
中根据数据集中的分布选出相似度最高的actions作为候选,采样的动作数n用来表示候选actions的个数;采样n个动作actions:对所述采样的每个动作action做扰动:根据Q网络选出actions中价值最高的作为实际采取的action;设定目标γ:其中的λ参数用来控制未来不确定性的惩罚程度;θ

argmin
ω
∑(y

Q
θ
(s,a))2;更新目标网络:θ

i

τθ+(1

τ)θ

i
;φ
′←
τφ+(1

τ)φ

;循环直到两个Q矩阵的最小值结束;S3、将所述训练后的G
ω
模型部署至服务器,并通过定时任务,实施对一网和二网供水温度进行预测,将预测结果下发至换热站;并对G
ω
模型的效果进行监控,定时根据G
ω
模型的效果,对效果提升的G
ω
模型进行更新训练、对效果不佳的G
ω
模型进行回滚。2.根据权利要求1所述的供热控制方法,其特征在于,所述S1步骤的所述G
ω

【专利技术属性】
技术研发人员:马志军胡继新梁炜何子峰张康成甜甜曹玉玺
申请(专利权)人:国家电投集团雄安能源有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1