【技术实现步骤摘要】
一种用于污水处理最优跟踪控制的在线ADHDP方法
[0001]本专利技术属于污水处理领域。
技术介绍
[0002]目前我国城市污水处理厂最常用的有效工艺是活性污泥法,在该工艺过程中,各变量之间具有高度的非线性,并且伴有大量的干扰,生化反应的机理非常复杂,存在一定的时滞性,这使得污水处理系统具有非线性、大时变、大滞后等特点。目前国内外学者对于污水处理的控制问题做了大量研究,其中包括传统的开关控制、比例
‑
积分
‑
微分控制、专家控制、模型预测控制等多种控制方法,每一种控制方案都有其自身的优势,但也分别存在自适应能力差、先验知识不足、系统模型难以精确建立等弊端。因此,该领域的研究热点是设计良好的控制器使得污水处理系统出水水质达到国家排放标准,并在保持系统稳定运行的前提下,尽量降低能耗和减少成本。
[0003]自适应动态规划(Adaptive Dynamic Programming,ADP)是近些年逐渐发展起来的一种针对复杂未知非线性系统的最优控制方法,该方法融合了强化学习和动态规划的思想,模拟人通过环境反馈进行学习的思路,有效地解决了动态规划带来的“维数灾难”问题。执行依赖启发式动态规划(Action Dependent Heuristic Dynamic Programming,ADHDP)是ADP方法中的一种,它由被控对象、评判网络和执行网络三个模块组成,其中评判网络和执行网络通常是基于反向传播(Back Propagation,BP)神经网络建立的。评判网络起着评估系统性能 ...
【技术保护点】
【技术特征摘要】
1.一种用于污水处理最优跟踪控制的在线ADHDP方法,其特征在于:污水处理系统具有非仿射动态:x(t+1)=Φ(x(t),u(t)),t=0,1,
…ꢀꢀꢀꢀ
(1)其中,t为污水处理过程的时刻,x(t)=[S
O,5
,S
NO,2
]
Τ
表示t时刻的系统状态,即第五单元溶解氧浓度S
O,5
和第二单元硝态氮浓度S
NO,2
,u(t)=[K
La,5
,Q
a,2
]
Τ
为t时刻的控制输入,表示第五单元的氧传递系数和第五单元到第二单元的内回流量;设计反馈控制u(x(t))的目标是令第五单元的溶解氧浓度和第二单元的硝态氮浓度跟踪上期望轨迹;为设计这一控制器,将跟踪问题转换为最优调节问题;首先定义溶解氧浓度和硝态氮浓度的期望轨迹为:s(t)=[2,1]
Τ
,t=0,1,
…ꢀꢀꢀꢀ
(2)跟踪误差定义为:e(t)=x(t)
‑
s(t)
ꢀꢀꢀꢀ
(3)对于期望轨迹s(t)存在一个稳定的控制律,将其定义为u(s(t)),假设其满足:s(t+1)=Φ(s(t),u(s(t)))
ꢀꢀꢀꢀ
(4)则跟踪控制表示为:u(e(t))=u(x(t))
‑
u(s(t))
ꢀꢀꢀꢀ
(5)根据式(1)
‑
(5),将原始系统转换为关于跟踪误差的系统e(t+1)=Φ(e(t)+s(t),u(e(t))+u(s(t)))
‑
s(t+1)
ꢀꢀꢀꢀ
(6)在污水处理控制系统中,最优控制的效果与第五单元溶解氧浓度和第二单元硝态氮浓度的跟踪效果直接相关;针对这一误差调节系统,设定效用函数为U(e(t),u(e(t)))=e
Τ
(t)Qe(t)+u
Τ
(e(t))Ru(e(t))
ꢀꢀꢀꢀ
(7)其中,U(e(t),u(e(t)))表示当前时刻控制向量产生的立即成本,且U(0,0)=0;e(t)和u(e(t))均为2
×
1的向量,选取Q和R为二维的正定矩阵,误差动态系统的代价函数定义为求解最优控制问题的目标是找到最优的控制序列使得代价函数最小;方便起见,将V(e(t),u(e(t)))简写为V(e(t)),将式(8)展开为如下形式:接下来,定义最优控制问题的Hamiltonian函数:H(V,e,u)=V(e(t+1))
‑
V(e(t))+U(e(t),u(e(t)))
ꢀꢀꢀꢀꢀ
(10)根据Bellman最优性原理,最优代价函数V
*
(e(t))满足以下离散时间Hamilton
‑
Jacobi
‑
Bellman方程:则最优控制输入u
*
(e(t))满足:
最后,原始系统的最优跟踪控制策略表示为:u
*
(x(t))=u(s(t))+u
*
(e(t))
ꢀꢀꢀꢀꢀ
(13)。2.根据权利要求1所述的方法,其特征在于:采用一个三层的BP神经网络来辨识污水处理过程的动态系统,其输出的表达式为:这里,[x
Τ
(t),u
Τ
(x(t))]
Τ
作为输入,输出为下一时刻的状态预测值,w
m1
(t)和ρ1(t)分别为输入层与隐含层之间的网络权值和阈值向量,w
m2
(t)和ρ2(t)分别为隐含层与输出层之间的网络权值和阈值向量,δ(
·
)为该神经网络的激活函数,这里选取双曲正切函数:其中,定义系统辨识器的预测误差为输出的近似值与实际值之间的差值,即训练的目标函数为系统辨识器各层之间的网络权值与阈值向量的更新规则均采用如下的梯度下降算法:w
mi
(t+1)=w
mi
(t)+Δw
mi
(t)
ꢀꢀꢀꢀꢀ
(18)ρ
i
(t+1)=ρ
i
(t)...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。