System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及工业控制,特别涉及一种基于rl的三相分离器参数设置方法。
技术介绍
1、三相分离器在餐厨垃圾预处理中用于将油、水和固渣进行分离的设备。传统的三相分离器pid控制算法,需要人为的多次的对控制参数进行调整,完全依赖工程师的个人经验,并且在物料或工况发生改变时又需要重新调整,存在技术门槛高并耗费工时等问题。
2、近年来,人工智能技术在控制系统领域得到广泛应用,其中强化学习算法是一种有效的优化方法。标准强化学习包含与环境交互的学习代理。代理代表决策机制,而环境通常代表对象。代理的目标是找到最佳策略,以便通过与通常以马尔可夫决策过程为特征的环境交互来优化长期累积奖励。目前已被广泛应用于控制系统、复杂决策、信号处理等领域,并取得了很好的效果。所以亟待需要一种通过强化学习算法对三相分离器参数设置的方法。
技术实现思路
1、本专利技术提供了一种基于rl的三相分离器参数设置方法,以解决传统的三相分离器pid控制算法采用人工设置,完全依赖工程师的个人经验的技术问题。
2、为达到上述目的,本专利技术的技术方案是这样实现的:
3、本专利技术提供了一种基于rl的三相分离器参数设置方法,具体包含如下步骤:
4、s1、构建q价值函数,确定q价值函数的参数;
5、s2、构建强化学习系统,强化学习系统包括actor网络μθ(sk)、critic网络q(sk,ak,w)、actor目标网络μθ′(sk+1)以及critic目标网络q(sk+1,
6、s3、构建运行奖励函数rr(t),并确定设定奖励;
7、s4、借助运行奖励函数rr(t)、设定奖励、基线控制器以及q价值函数对强化学习系统进行迭代训练,直至迭代次数达到设定要求,更新强化学习系统的参数,得到训练后的强化学习系统;
8、s5、利用训练后的强化学习系统预估三相分离器的参数。
9、进一步地,所述actor网络μθ(sk)用于根据当前状态选择动作;
10、critic网络q(sk,ak,w)用于评估当前q价值函数;
11、actor目标网络μθ′(sk+1)用于选择最大化下一步q价值函数的动作;
12、critic目标网络q(sk+1,μθ′(sk+1),w′)用于评估下一个状态的最佳g价值函数。
13、进一步地,所述s3中的运行奖励函数rr(t)具体如下:
14、
15、其中,t表示时间步长;s表示某种状态;es表示在状态s下的跟踪误差。
16、进一步地,所述s4具体包含如下步骤:
17、s41、对运行奖励函数rr(t)进行初始化,即rr(t)=0,观察状态s,并利用actor网络μθ(sk)选择动作a,其中a=clip(μθ(sk)+ò,alow,ahigh);ò为随机噪声;clip(.)函数用于将数组中的元素控制在一个给定的范围内,给定需要控制的范围的上、下边界,alow、ahigh分别为下边界与上边界;
18、s42、强化学习系统的在参数(kp,τi,τd)下执行迭代训练,训练过程中如果运行奖励函数rr(t)大于设定奖励,即rr(t)>λrbmk,其中λ表示基准奖励的倍数,且λ≥1;rbmk表示基准奖励;则使用基线控制器中的参数替换掉三相分离器pid中的参数,然后进入s43;
19、s43、判断当前时间步长是否大于设定时间步长t,如果是,则结束迭代训练,得到训练后的强化学习系统,否则使用actor目标网络μθ′(sk+1)模拟下一步动作,并更新下一步动作所对应的运行奖励函数rr(t),将状态s更新到状态s′,并计算下一步动作所对应的运行奖励函数rr(t)的奖励数据r,更新参数(s,a,r,s′)到三相分离器pid的缓存区,对强化学习系统的参数进行更新,当前时间步长加1并进入到s42中。
20、进一步地,所述s43中对强化学习系统的参数进行更新具体包含如下步骤:
21、s431、从三相分离器pid的缓存区中随机采样参数b,b={(s,a,r,s′)},采样个数为|b|;
22、s432、利用s43中求解的奖励数据r计算参数b中每个样本的目标y;
23、s433、根据s432中求解出来的目标y,计算critic网络q(sk,ak,w)的梯度,并利用梯度下降算法最小化评估值和期望值之间的差值;利用差值并通过最大化累积期望回报来更新critic网络的参数w;
24、s434、计算actor网络μθ(sk)的梯度,并利用梯度上升算法最大化累积期望回报来更新actor网络μθ(sk)的参数θ;
25、s435、对actor目标网络μθ′(sk+1)和critic目标网络q(sk+1,μθ′(sk+1),w′)的参数w′和当前策略参数θ′进行更新,具体如下:
26、w′←ρw′+(1-ρ)w,θ′←ρθ′+(1-ρ)θ;
27、其中,ρ表示学习率,且ρ∈(0,1)。
28、进一步地,所述s432中的目标y计算过程具体如下:
29、
30、进一步地,所述s433中计算critic网络q(sk,ak,w)的梯度采用公式表示具体如下:
31、
32、进一步地,所述s434中计算actor网络μθ(sk)的梯度采用公式表示具体如下:
33、
34、本专利技术的有益效果:
35、本专利技术明确考虑了整个基于强化学习调参过程的闭环稳定性。特别提出了一种新型的情景调整框架,允许在选定的pid参数下进行闭环操作,其中演员和critic网络在每次训练结束时更新一次。为了确保调整过程中的闭环稳定性,使用保守但稳定的基线pid控制器来初始化训练,并将所得奖励作为基准分数。一旦运行奖励超过基准分数,底层控制器就会被基线控制器替换,作为早期修正以防止不稳定。使用层归一化来标准化参与者和critic网络中每一层的输入,以克服行动边界处的策略饱和问题,以确保收敛到最优。
本文档来自技高网...【技术保护点】
1.一种基于RL的三相分离器参数设置方法,其特征在于,具体包含如下步骤:
2.根据权利要求1所述的三相分离器参数设置方法,其特征在于,所述Actor网络μθ(sk)用于根据当前状态选择动作;
3.根据权利要求1所述的三相分离器参数设置方法,其特征在于,所述S3中的运行奖励函数RR(t)具体如下:
4.根据权利要求1所述的三相分离器参数设置方法,其特征在于,所述S4具体包含如下步骤:
5.根据权利要求4所述的三相分离器参数设置方法,其特征在于,所述S43中对强化学习系统的参数进行更新具体包含如下步骤:
6.根据权利要求5所述的三相分离器参数设置方法,其特征在于,所述S432中的目标y计算过程具体如下:
7.根据权利要求6所述的三相分离器参数设置方法,其特征在于,所述S433中计算Critic网络Q(sk,ak,w)的梯度采用公式表示具体如下:
8.根据权利要求7所述的三相分离器参数设置方法,其特征在于,所述S434中计算Actor网络μθ(sk)的梯度采用公式表示具体如下:
【技术特征摘要】
1.一种基于rl的三相分离器参数设置方法,其特征在于,具体包含如下步骤:
2.根据权利要求1所述的三相分离器参数设置方法,其特征在于,所述actor网络μθ(sk)用于根据当前状态选择动作;
3.根据权利要求1所述的三相分离器参数设置方法,其特征在于,所述s3中的运行奖励函数rr(t)具体如下:
4.根据权利要求1所述的三相分离器参数设置方法,其特征在于,所述s4具体包含如下步骤:
5.根据权利要求4所述的三相分离器参数设置方法,其...
【专利技术属性】
技术研发人员:江未来,郑成宏,蔡田青,陈博,方乐缘,汤琳,王耀南,
申请(专利权)人:湖南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。