System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于深度强化学习算法的散热风机机组的控制方法及系统技术方案_技高网

基于深度强化学习算法的散热风机机组的控制方法及系统技术方案

技术编号:44892428 阅读:7 留言:0更新日期:2025-04-08 00:30
本发明专利技术涉及基于深度强化学习算法的散热风机机组的控制方法及系统。本发明专利技术包括初始化Actor网络的参数以及Critic网络的参数;获取散热风机机组的当前状态,当前状态包括温度信息、当前时间和日期类型,其中,温度信息包括发热设备的温度以及风机周围环境温度;基于当前状态和Actor网络,得到动作;根据动作,控制散热风机机组运行,得到散热风机机组的新的状态,以及执行动作后获得的回报,得到经验样本,将经验样本并加入经验回放池;基于经验回放池中的经验样本,更新Critic网络的网络参数,基于当前状态和Critic网络,更新Actor网络的网络参数,直至达到目标值。本发明专利技术通过构建散热风机机组的优化控制模型,实现对散热风机机组的优化控制。

【技术实现步骤摘要】

本专利技术涉及电力设备暖通工程,尤其是指基于深度强化学习算法的散热风机机组的控制方法及系统


技术介绍

1、电力变压器、干式铁心电抗器等大型电力设备运行时发热量大,且考虑到防雨、防小动物、隔绝噪声等,必须安装在室内运行。如何提高通风散热的效率是电力行业亟待解决的问题。

2、现有技术大多是针对系统的当前状态建模,没有考虑风机的动作对系统当前状态的影响,没有对系统的状态基于所有动作,在下一时刻产生的转移情况进行完整的建模。显而易见的方法,例如按照经验公式设计风机的运行方式,无法实现自适应调节,未考虑到现场环境、设备运行状态、每日负荷曲线等特殊情况。且现有技术大多只能调节风力,不能改变出风口风向和位置,容易产生风路短路等问题。


技术实现思路

1、为此,本专利技术提供基于深度强化学习算法的散热风机机组的控制方法及系统,通过构建散热风机机组的优化控制模型,并采用深度强化学习算法求解,实现对电气设备散热风机机组的优化控制,可应用于变电站电气设备的散热,提高了散热效果、节约了能耗、降低了基建投资成本、保障了设备的安全运行、提高了平稳供电的可靠性。

2、为解决上述技术问题,本专利技术提供一种基于深度强化学习算法的散热风机机组的控制方法,包括:

3、初始化actor网络的参数以及critic网络的参数;

4、获取散热风机机组的当前状态,所述当前状态包括温度信息、当前时间和日期类型,其中,所述温度信息包括发热设备的温度以及风机周围环境温度;

5、基于所述当前状态和所述actor网络,得到动作;

6、根据所述动作,控制所述散热风机机组运行,得到散热风机机组的新的状态,以及执行所述动作后获得的回报,得到由所述当前状态、所述动作、所述新的状态和所述回报组成的经验样本,重复获取所述经验样本步骤,并将所述经验样本并加入经验回放池;

7、基于所述经验回放池中的所述经验样本,更新所述critic网络的网络参数,基于所述当前状态和所述critic网络,更新所述actor网络的网络参数,直至达到目标值。

8、在本专利技术的一种实施方式中,所述critic网络有两个,包括第一critic网络qφ1和第二critic网络qφ2,两者均采用多层感知机模型,其输入层节点数为11;第一隐藏层节点数为256,激活函数为修正线性单元;第二隐藏层节点数为128,激活函数为渗漏修正线性单元;输出层节点数为1,激活函数为双曲正切函数。

9、在本专利技术的一种实施方式中,所述actor网络采用多层感知机模型,其输入层节点数为6;第一隐藏层节点数为256,激活函数为修正线性单元;第二隐藏层节点数为128,激活函数为渗漏修正线性单元;输出层节点数为5,激活函数为双曲正切函数;随机初始化actor网络μθ的参数θ,服从

10、在本专利技术的一种实施方式中,还包括:

11、获取多个温度测点作为所述温度信息,包括分别采集变压器表面且位于散热叶片间隙和底部位置的第一温度st1和第二温度st2,以及采集位于风机底部的环境中的空气温度第三温度st3和第四温度st4。

12、在本专利技术的一种实施方式中,所述当前时间为一天内当前经过的总秒数除以86400;所述日期类型分为工作日、周末、春节和其他节假日,取值分别为-1、-0.5、0.5和1。

13、在本专利技术的一种实施方式中,基于所述当前状态和所述actor网络,得到动作;包括:

14、以风机的导流板旋转角度、风机的位移、风机的风力大小作为动作,风机的导流板旋转角度取值范围归一化到[-1,1]之间,-1表示不旋转,1表示旋转360度;风机的位移归一化到[-1,1]之间,-1表示不移动,1表示移动预定的距离。风机的风力大小归一化到[-1,1]之间,-1表示不输出风力,1表示按额定功率输出风力;

15、将温度信息、当前时间st、日期类型sd作为当前状态s,选择动作a为:

16、a=clip(μθ(s)+∈,alow,ahigh)

17、其中是均值为0,方差为σ2的高斯分布噪声,标准差σ=0.1;μθ为actor网络;动作量下限alow=(-1,-1,-1,-1,-1);动作量上限ahigh=(1,1,1,1,1)。

18、在本专利技术的一种实施方式中,根据所述动作,控制所述散热风机机组运行,得到散热风机机组的新的状态,以及执行所述动作后获得的回报,得到由所述当前状态、所述动作、所述新的状态和所述回报组成的经验样本,重复获取所述经验样本步骤,并将所述经验样本并加入经验回放池;包括:

19、将执行动作a后的温度信息、当前时间、日期类型作为新的状态s′,并得到回报r:

20、

21、其中t1,t2,...,tm为m个温度测点的温度,p1,p2,v,pn为n台风机的功耗,k1=0.2、k2=0.1为权重系数;

22、初始化一个空的经验回放池将(s,a,r,s′)作为样本,存入所述经验回放池中。

23、在本专利技术的一种实施方式中,基于所述经验回放池中的所述经验样本,更新所述critic网络的网络参数,基于所述当前状态和所述critic网络,更新所述actor网络的网络参数,直至达到最优的目标;包括:

24、初始化第一目标critic网络和第二目标critic网络的参数,使其对应和第一critic网络和第二critic网络的参数相同,即φtarg,1←φ1、φtarg,2←φ2;初始化目标actor网络的参数,使其和actor网络μθ的参数相同,即θtarg←θ;

25、当所述经验回放池中的样本数量大于预设的数量阈值时,从所述经验回放池中随机选取一批数据b={(s,a,r,s′)};

26、估算目标值为:

27、

28、其中:

29、

30、为折扣因子;c为随机噪声裁剪参数;

31、按照下式朝梯度下降的方向对第一critic网络和第二critic网络的参数φ1、φ2进行更新;

32、

33、按照下式朝以下梯度下降的方向对actor网络μθ的参数θ进行更新:

34、

35、按照下式更新第一目标critic网络第二目标critic网络和目标actor网络的参数:

36、φtarg,i←ρφtarg,i+(1-ρ)φi,i=1,2

37、θtarg←ρθtarg+(1-ρ)θ;

38、其中,ρ为软更新学习率。

39、在本专利技术的一种实施方式中,目标函数为:

40、

41、其中t1t,t2t,v,tmt为m个温度测点在时刻t的温度,p1t,p2t,...,pnt为n台风机在时刻t的功耗,rt为时刻t的回报,k1=0.2、k2=0.1为权重系数;γ为折扣因子,优化目标rt为时刻t的折扣回报。

42、本专利技术本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习算法的散热风机机组的控制方法,其特征在于,包括:

2.根据权利要求1所述的基于深度强化学习算法的散热风机机组的控制方法,其特征在于,所述Critic网络有两个,包括第一Critic网络和第二Critic网络两者均采用多层感知机模型,其输入层节点数为11;第一隐藏层节点数为256,激活函数为修正线性单元;第二隐藏层节点数为128,激活函数为渗漏修正线性单元;输出层节点数为1,激活函数为双曲正切函数。

3.根据权利要求1所述的基于深度强化学习算法的散热风机机组的控制方法,其特征在于,所述Actor网络采用多层感知机模型,其输入层节点数为6;第一隐藏层节点数为256,激活函数为修正线性单元;第二隐藏层节点数为128,激活函数为渗漏修正线性单元;输出层节点数为5,激活函数为双曲正切函数;随机初始化Actor网络μθ的参数θ,服从

4.根据权利要求1所述的基于深度强化学习算法的散热风机机组的控制方法,其特征在于,还包括:

5.根据权利要求1所述的基于深度强化学习算法的散热风机机组的控制方法,其特征在于,所述当前时间为一天内当前经过的总秒数除以86400;所述日期类型分为工作日、周末、春节和其他节假日,取值分别为-1、-0.5、0.5和1。

6.根据权利要求2所述的基于深度强化学习算法的散热风机机组的控制方法,其特征在于,基于所述当前状态和所述Actor网络,得到动作;包括:

7.根据权利要求6所述的基于深度强化学习算法的散热风机机组的控制方法,其特征在于,根据所述动作,控制所述散热风机机组运行,得到散热风机机组的新的状态,以及执行所述动作后获得的回报,得到由所述当前状态、所述动作、所述新的状态和所述回报组成的经验样本,重复获取所述经验样本步骤,并将所述经验样本并加入经验回放池;包括:

8.根据权利要求7所述的基于深度强化学习算法的散热风机机组的控制方法,其特征在于,基于所述经验回放池中的所述经验样本,更新所述Critic网络的网络参数,基于所述当前状态和所述Critic网络,更新所述Actor网络的网络参数,直至达到最优的目标;包括:

9.根据权利要求8所述的基于深度强化学习算法的散热风机机组的控制方法,其特征在于,目标函数为:

10.一种基于深度强化学习算法的散热风机机组的系统,其特征在于,包括:

...

【技术特征摘要】

1.一种基于深度强化学习算法的散热风机机组的控制方法,其特征在于,包括:

2.根据权利要求1所述的基于深度强化学习算法的散热风机机组的控制方法,其特征在于,所述critic网络有两个,包括第一critic网络和第二critic网络两者均采用多层感知机模型,其输入层节点数为11;第一隐藏层节点数为256,激活函数为修正线性单元;第二隐藏层节点数为128,激活函数为渗漏修正线性单元;输出层节点数为1,激活函数为双曲正切函数。

3.根据权利要求1所述的基于深度强化学习算法的散热风机机组的控制方法,其特征在于,所述actor网络采用多层感知机模型,其输入层节点数为6;第一隐藏层节点数为256,激活函数为修正线性单元;第二隐藏层节点数为128,激活函数为渗漏修正线性单元;输出层节点数为5,激活函数为双曲正切函数;随机初始化actor网络μθ的参数θ,服从

4.根据权利要求1所述的基于深度强化学习算法的散热风机机组的控制方法,其特征在于,还包括:

5.根据权利要求1所述的基于深度强化学习算法的散热风机机组的控制方法,其特征在于,所述当前时间为一天内当前经过的总秒数除以86400...

【专利技术属性】
技术研发人员:王嘉宁曹健胡志伟王强
申请(专利权)人:国网江苏省电力有限公司无锡供电分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1