一种基于DQN的供暖控制方法及系统技术方案

技术编号：43005193 阅读：20 留言：0更新日期：2024-10-18 17:13

本发明专利技术公开了一种基于DQN的供暖控制方法及系统，该方法包括：S1、通过传感器实时监测室外温度、供水温度和室内温度的状态信息；S2、构建供暖控制系统的MDP模型，MDP模型包括：状态空间、动作空间和奖励函数；状态空间包括：室外温度、供水温度和室内温度；动作空间选取供水温度的设定值作为控制动作；奖励函数用于供暖控制系统策略性能的定量评价；S3、根据构建的供暖控制系统的MDP模型，基于DQN算法神经网络获取供暖控制系统最优的控制策略；DQN算法神经网络包括：主网络和目标网络，本发明专利技术能够在最短的回合内通过调整供水温度使室内温度达到预设的目标温度，控制供暖系统以最佳的方式运行。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术供暖控制系统，更具体地说是涉及一种基于dqn的供暖控制方法及系统。

技术介绍

1、随着城镇化进程的推进及人民生活水平的提高，确保冬季室内温度的稳定与舒适成为民生关注的焦点。集中供热系统作为城市基础设施的关键组成部分，以其经济高效、环保安全等特点，在改善民生方面发挥着不可替代的作用。然而，作为连接热源厂与室内供热设施的关键节点，换热站在实际运行中面临着诸多挑战，传统气候补偿器控制策略因其模型简单、调节粗放以及缺乏实时反馈和预测控制等不足，已难以满足现代供暖系统对室内温度稳定舒适的需求。因此，如何在不同天气条件下精准调控供热水温，成为当前供暖控制系统亟待解决的关键问题。

2、由于现有的供暖控制系统中，面临着许多不确定性因素，因此需要一个既稳定又有效的控制策略，深度q网络(dqn)作为一种将深度学习和强化学习优势相结合的算法，为供暖控制系统的优化提供了新的思路。

技术实现思路

1、有鉴于此，本专利技术的目的是提供一种基于dqn的供暖控制方法及系统，从而解决现有技术中的供暖系统无法在不同天气条件下精准调控供热水温，进而无法稳定的维持室内温度的问题。

2、为实现上述目的，本专利技术提供如下技术方案：

3、一种基于dqn的供暖控制方法，包括如下步骤:

4、s1、通过传感器实时监测室外温度、供水温度和室内温度的状态信息；

5、s2、基于获得的室外温度、供水温度和室内温度的状态信息，构建供暖控制系统的mdp模型，所述mdp模型包

6、s3、根据构建的供暖控制系统的mdp模型，基于dqn算法神经网络获取供暖控制系统最优的控制策略；所述dqn算法神经网络包括两个神经网络：主网络q(s,a；θ)和目标网络q(s,a；θ')，所述主网络q(s,a；θ)用于预测供暖控制系统当前状态-动作对的q值，所述目标网络q(s,a；θ')用于计算目标q值。

7、进一步地，所述步骤s2中状态空间、动态空间和奖励函数的表达方式如下；

8、所述状态空间的表达方式为：

9、选取室外温度表示室外环境的影响，选取室内温度表示室内环境的影响，因此，最终环境状态包括室外温度、供水温度和室内温度三部分，具体表示如下：

10、st＝(outdoor_tempt,water_tempt,indoor_tempt) (1)

11、其中，st表示t时刻的环境状态，组成了环境的状态空间s，outdoor_tempt、water_tempt和indoor_tempt分别表示t时刻的室外温度、供水温度和室内温度,t为时序标记，其中：t＝0，1，2，…t；

12、所述动作空间的表达方式为：

13、选取供水温度的设定值作为控制动作，并将动作空间离散化，共包括三种动作：

14、

15、其中，at表示t时刻选择的动作，组成了动作空间a，max_temp_change为设置的供水温度调整值，其中max_temp_change＝5；

16、所述奖励函数的表达方式为：

17、

18、其中，target_temp＝23.5℃，表示希望供暖控制系统达到的目标室内温度，以indoor_tempt与target_temp的差值绝对值来设置agent的奖惩函数。

19、进一步地，所述步骤s3中dqn算法神经网络包括以下训练步骤:

20、步骤3-1，初始化dqn网络参数和训练过程中的参数，包括初始化主网络q(s,a；θ)的网络参数θ、目标网络q(s,a；θ')的网络参数θ'和经验缓冲池的容量n；

21、步骤3-2，智能体agent根据策略π选择一个动作与环境environment交互，并通过ε-greedy衰减机制引入概率参数ε来控制探索exploration与利用exploitation之间的平衡；

22、步骤3-3，将智能体agent与环境environment交互过程中产生的五元数组(s,a,r,s',done)存储在经验缓冲池中，其中s表示当前环境状态，a表示采取的动作，r表示获得的奖励，s'表示进入的新环境状态，done标记s是否为终止状态；

23、步骤3-4，获取下一环境状态s'，并计算获得的奖励r，将下一环境状态产生的五元数组(s,a,r,s',done)存储在经验缓冲池中，从经验缓冲池中随机获取批量样本训练主网络q(s,a；θ)，并判断是否满足步长要求，当满足时，则将主网络q(s,a；θ)的参数复制给目标网络q(s,a；θ')。

24、进一步地，所述步骤3-1中初始化dqn网络参数和训练过程中的参数，具体为：

25、在初始化时，主网络的网络参数θ和目标网络的网络参数θ'相同，即θ＝θ'，在训练过程中，通过最小化网络参数θ和网络参数θ'输出值的误差来更新θ，并通过公式(4)计算通过损失函数减少预测值与目标q值间的差异，计算式如下：

26、l(θj)＝e[yj-q(sj,a；θj)]2 公式(4)

27、其中，yj为j时刻的目标q值，sj和a分别表示j时刻的状态和当前状态下采取的动作，q(sj,a；θj)表示主网络在给定状态sj和动作a时的预测q值，e表示求期望，在实际操作中是通过从经验回放池中随机抽取的样本来近似这个期望值；

28、然后通过公式(5)对参数θj求偏导以获取误差损失梯度，进而利用优化算法更新参数θj；

29、

30、其中，和分别表示损失函数l(θj)和预测q值关于主网络参数θj的梯度。

31、进一步地，所述步骤3-2中智能体agent根据策略π选择一个动作与environment交互，具体为：

32、如下式，agent的训练目标是找到最优策略π*，使π*在所有状态下均可获得最高的期望回报

33、

34、所述通过ε-greedy衰减机制引入概率参数ε来控制探索exploration与利用exploitation之间的平衡，具体过程如下：

35、

36、通过公式(8)在训练初期设置一个较大的概率参数ε值，而在每回合训练后，将概率参数ε值乘以一个小于1的衰减因子：

37、

38、本专利技术还提供了一种基于dqn的供暖控制方法的系统，所述系统包括：

39、数据获取模块：通过传感器实时监测室外温度、供水温度和室内温度的状态信息；

40、模型构建模块：基于获得的室外温度、供水温度和室内温度的状态信息，构建供暖控制系统的mdp模型，所述mdp模型包括：状态空间、动作空间和奖励函数；所述状态空间包括：室外温度、供水温度和室内温度；所述动作空间选取供水温本文档来自技高网...

【技术保护点】

1.一种基于DQN的供暖控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于DQN的供暖控制方法，其特征在于，所述步骤S2中状态空间、动态空间和奖励函数的表达方式如下；

3.根据权利要求1所述的基于DQN的供暖控制方法，其特征在于，

4.根据权利要求3所述的基于DQN的供暖控制方法，其特征在于，所述步骤3-1中初始化DQN网络参数和训练过程中的参数，具体为：

5.根据权利要求3所述的基于DQN的供暖控制方法，其特征在于，所述步骤3-2中智能体agent根据策略π选择一个动作与environment交互，具体为：

6.一种用于执行权利要求1-5任一所述基于DQN的供暖控制方法的系统，其特征在于，所述系统包括：

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-5中任一项所述基于DQN的供暖控制方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行

...

【技术特征摘要】

1.一种基于dqn的供暖控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于dqn的供暖控制方法，其特征在于，所述步骤s2中状态空间、动态空间和奖励函数的表达方式如下；

3.根据权利要求1所述的基于dqn的供暖控制方法，其特征在于，

4.根据权利要求3所述的基于dqn的供暖控制方法，其特征在于，所述步骤3-1中初始化dqn网络参数和训练过程中的参数，具体为：

5.根据权利要求3所述的基于dqn的供暖控制方法，其特征在于，所述步骤3-2中智能体agent根据策略π选...

【专利技术属性】
技术研发人员：王楠，李思思，袁超凤，孟婷婷，敬浩然，
申请(专利权)人：黑龙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人