System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于强化学习和注意力机制的暖通空调节能减排方法及系统技术方案_技高网

基于强化学习和注意力机制的暖通空调节能减排方法及系统技术方案

技术编号:43317084 阅读:0 留言:0更新日期:2024-11-15 20:18
本方案公开了一种基于强化学习和注意力机制的暖通空调节能减排方法及系统,推理阶段包括B1.训练后的强化学习模型根据当前状态预测多个控制组合;B2.使用奖励函数选择前K个最高奖励的控制动作组合;B3.对所选的每个控制动作组合,预测执行该动作后的新状态;B4.对每个新状态预测新的控制动作组合,选择累积奖励最高的K个控制动作组合;B5.重复B3‑B4,直到找到最优的动作序列;B6.将累积奖励最高的动作序列作为最终决策。本方案利用强化学习进行暖通空调节能减排的控制,能够实现更精确的暖通控制,并且利用强化学习的环境学习能力使控制系统能够根据实时反馈自动调整控制策略以适应系统变化和外部条件的不确定性,从而不断提高系统贴合现实的控制能力。

【技术实现步骤摘要】

本专利技术属于暖通控制,尤其是涉及一种基于强化学习和注意力机制的暖通空调节能减排方法及系统


技术介绍

1、大型工业暖通空调能耗高,覆盖区域广,一年总能源账单普遍在上百万至千万量级。

2、传统的暖通空调控制系统多采用pid(比例-积分-微分)控制器,它是一种简单、成熟的控制方法,广泛应用于工业过程控制中,然而也存在着具诸多局限,如单一因素计算控制,依赖经验的粗放式调试,静态规则设定,震荡调试控制等。随着人工智能技术的发展,特别是机器学习算法的应用,暖通空调控制领域出现了许多创新方法,如,任春盛、乌日汗提出的“人工智能在暖通空调中的最新应用与展望”,美的提出的“绿色数智未来”都提及利用机器学习算法来实现暖通空调的节能减排控制。

3、但是,在暖通空调控制中,环境条件是在不断变化的,如室内外温湿度、占用率等,一般的机器学习算法难以适应不断变化的环境条件,从而导致控制效果不佳。而且,在暖通空调控制领域,我们是希望通过自动控制能够优化长期的能效和舒适度,一般的机器学习算法只能满足短期的控制效果,无法满足暖通空调控制的长期优化目标需求。为此,有研究提出将强化学习应用于暖通空调控制中,如“基于q-learning的空调系统冷却侧强化学习算法”,该研究具体提出了基于强化学习的无模型优化方法,将其用于空调冷却水系统的优化,其中状态变量是湿球温度和系统冷负荷,动作变量是风机和水泵的频率,优化目标是系统效率cop。但是该方法仅关注了系统效率cop,没有考虑到人体舒适性,在暖通空调控制中实用性并不强。而且长期优化的成功在很大程度上取决于奖励函数的设计,前述方案中,存在奖励函数设置不合理的问题,导致无法体现强化学习在暖通空调控制中的优势。


技术实现思路

1、本专利技术的目的是针对上述问题,提出一种基于强化学习和注意力机制的暖通空调节能减排方法及系统,使用强化学习来对暖通空调进行控制,实现确保人体舒适的情况下达到节能减排的目的。

2、一种基于强化学习和注意力机制的暖通空调节能减排方法,包括:

3、训练阶段

4、构建以transformer网络为主体的强化学习模型;

5、根据历史数据构建s-a序列组合,s表示暖通空调环境反馈的状态,a表示对暖通空调的控制动作;

6、使用s-a序列组合,利用交叉损失函数训练强化学习模型;

7、推理阶段

8、b1.训练后的强化学习模型根据当前状态预测多个控制组合;

9、b2.使用奖励函数选择前k个最高奖励的控制动作组合;

10、b3.对所选的每个控制动作组合,预测执行该动作后的新状态;

11、b4.对每个新状态预测新的控制动作组合,选择累积奖励最高的k个控制动作组合;

12、b5.重复b3-b4,直到找到最优的动作序列;

13、b6.将累积奖励最高的动作序列作为最终决策。

14、在上述的基于强化学习和注意力机制的暖通空调节能减排方法中,当根据状态预测的控制动作组合中包含无动作的控制动作组合时,认为已找到最优的动作序列;

15、或者,当根据状态预测的控制动作组合中,最高累积奖励的控制动作组合为无动作时,认为已找到最优的动作序列;

16、或者,达到决策的预定步数后认为已找到最优的动作序列。

17、在上述的基于强化学习和注意力机制的暖通空调节能减排方法中,推理阶段,在最终决策的最后一个动作执行完毕之前,重新执行步骤b1-b5做出下一阶段的最终决策;

18、在执行决策的过程中,实时接收真实的状态信息,当真实状态信息与预测的状态相差超过设定状态阈值时,重新启动推理执行步骤b1-b5;

19、步骤b1中,强化学习模型根据观测到的状态st预测得到动作概率高于设定阈值的一个或多个控制动作组合at1、……atn。

20、在上述的基于强化学习和注意力机制的暖通空调节能减排方法中,所述的历史数据为连续的s-a序列组合,包含了从状态到动作再到新状态的状态转移信息,以使强化学习模型在训练过程中学习根据状态预测动作的能力,同时学习根据旧状态和执行动作预测新动作的能力;

21、步骤b3中,强化学习模型预测执行该动作后的新状态st+1。

22、在上述的基于强化学习和注意力机制的暖通空调节能减排方法中,所述的状态s包括室内平均温度、室内平均湿度、送风温度、送风湿度、送风机电流频率;

23、所述的控制动作a包括表冷器阀门开度、加热器阀门开度、加湿器阀门开度。

24、在上述的基于强化学习和注意力机制的暖通空调节能减排方法中,奖励函数包括温湿度惩罚、能耗惩罚和温湿度标准差惩罚;

25、且所述的能耗惩罚包括,表冷器阀门、加热器阀门、加湿器阀门关闭时不惩罚,阀门开度从零至一百能耗惩罚线性增加。

26、在上述的基于强化学习和注意力机制的暖通空调节能减排方法中,所述的k为2或3或4或5或6或7或8或9或10。

27、在上述的基于强化学习和注意力机制的暖通空调节能减排方法中,步骤b4中,累积奖励最高的k个控制动作组合与在前的控制动作组合构成从当前状态开始至当前步的k个动作序列;

28、训练阶段:使用奖励函数离线计算s-a序列中每一行训练数据对应的奖励值,以构建s-a-r序列组合,使用s-a-r序列组合,利用交叉损失函数训练强化学习模型。

29、在上述的基于强化学习和注意力机制的暖通空调节能减排方法中,k>2,且步骤s5之前还包括,获取k个动作序列的累积奖励并排序,当排序靠后的动作序列较排序第一的动作序列累积奖励差值大于设定差值时,删除这些动作序列,且使k取k-n,n表示删除的动作序列条数,直到k≤2。

30、一种基于强化学习和注意力机制的暖通空调节能减排系统,通过执行上述方法进行暖通空调节能减排控制。

31、本专利技术的优点在于:

32、1、本方案利用强化学习进行暖通空调节能减排的控制,能够实现更精确更细致的暖通控制,并且利用强化学习的环境学习能力使控制系统能够根据实时反馈自动调整控制策略以适应系统变化和外部条件的不确定性,从而不断提高系统贴合现实的控制能力;

33、2、本方案为强化学习所设计的奖励函数不仅涉及到了能耗和温湿度,而且考虑了温湿度标准差,通过控制温湿度波动幅度尽可能小来避免阀门大开大关,以提高系统的稳定性,减少噪音和振动并延长设备使用寿命,以及从减少系统短时间内需消耗大量能量来达到设定温湿度水平的角度来降低能源的浪费;

34、同时,考虑了包括表冷器、加热器、加湿器的阀门开度的能耗惩罚,能够使阀门开度尽可能小,并关闭不必要的阀门,避免表冷/加热阀门同开导致冷热抵消,造成能源浪费;

35、3、本方案将transfromer网络用于暖通空调节能减排控制的强化学习,利用transfromer的快速学习能力,使用历史2年的数据来训练网络构建一本文档来自技高网...

【技术保护点】

1.一种基于强化学习和注意力机制的暖通空调节能减排方法,其特征在于,包括:

2.根据权利要求1所述的基于强化学习和注意力机制的暖通空调节能减排方法,其特征在于,当根据状态预测的控制动作组合中包含无动作的控制动作组合时,认为已找到最优的动作序列;

3.根据权利要求2所述的基于强化学习和注意力机制的暖通空调节能减排方法,其特征在于,推理阶段,在最终决策的最后一个动作执行完毕之前,重新执行步骤B1-B5做出下一阶段的最终决策;

4.根据权利要求1所述的基于强化学习和注意力机制的暖通空调节能减排方法,其特征在于,所述的历史数据为连续的s-a序列组合,包含了从状态到动作再到新状态的状态转移信息,以使强化学习模型在训练过程中学习根据状态预测动作的能力,同时学习根据旧状态和执行动作预测新动作的能力;

5.根据权利要求1所述的基于强化学习和注意力机制的暖通空调节能减排方法,其特征在于,所述的状态s包括室内平均温度、室内平均湿度、送风温度、送风湿度、送风机电流频率;

6.根据权利要求5所述的基于强化学习和注意力机制的暖通空调节能减排方法,其特征在于,奖励函数包括温湿度惩罚、能耗惩罚和温湿度标准差惩罚;

7.根据权利要求1所述的基于强化学习和注意力机制的暖通空调节能减排方法,其特征在于,所述的K为2或3或4或5或6或7或8或9或10。

8.根据权利要求1-7任意一项所述的基于强化学习和注意力机制的暖通空调节能减排方法,其特征在于,步骤B4中,累积奖励最高的K个控制动作组合与在前的控制动作组合构成从当前状态开始至当前步的K个动作序列;

9.根据权利要求8所述的基于强化学习和注意力机制的暖通空调节能减排方法,其特征在于,K>2,且步骤S5之前还包括,获取K个动作序列的累积奖励并排序,当排序靠后的动作序列较排序第一的动作序列累积奖励差值大于设定差值时,删除这些动作序列,且使K取K-n,n表示删除的动作序列条数,直到K≤2。

10.一种基于强化学习和注意力机制的暖通空调节能减排系统,其特征在于,通过执行权利要求1-9任意一项的方法进行暖通空调节能减排控制。

...

【技术特征摘要】

1.一种基于强化学习和注意力机制的暖通空调节能减排方法,其特征在于,包括:

2.根据权利要求1所述的基于强化学习和注意力机制的暖通空调节能减排方法,其特征在于,当根据状态预测的控制动作组合中包含无动作的控制动作组合时,认为已找到最优的动作序列;

3.根据权利要求2所述的基于强化学习和注意力机制的暖通空调节能减排方法,其特征在于,推理阶段,在最终决策的最后一个动作执行完毕之前,重新执行步骤b1-b5做出下一阶段的最终决策;

4.根据权利要求1所述的基于强化学习和注意力机制的暖通空调节能减排方法,其特征在于,所述的历史数据为连续的s-a序列组合,包含了从状态到动作再到新状态的状态转移信息,以使强化学习模型在训练过程中学习根据状态预测动作的能力,同时学习根据旧状态和执行动作预测新动作的能力;

5.根据权利要求1所述的基于强化学习和注意力机制的暖通空调节能减排方法,其特征在于,所述的状态s包括室内平均温度、室内平均湿度、送风温度、送风湿度、送风机电流频率;

6.根据权利...

【专利技术属性】
技术研发人员:徐叶琛吴永尚张玄远徐霄宇陈圣超季星佑乔方圆
申请(专利权)人:宁波草船科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1