一种用于污水处理最优跟踪控制的在线ADHDP方法技术

技术编号:32356271 阅读:15 留言:0更新日期:2022-02-20 03:16
一种用于污水处理最优跟踪控制的在线ADHDP方法属于污水处理领域。污水处理系统结构复杂,存在明显的非线性特征且较难建立精确的机理模型。在污水处理过程中,溶解氧与硝态氮浓度的控制效果直接影响系统的除氮效果,所以使溶解氧与硝态氮浓度跟踪上期望轨迹是污水处理过程的一个主要控制目标。首先构建神经网络对污水处理系统进行辨识,然后引入执行依赖启发式动态规划(Action Dependent Heuristic Dynamic Programming,ADHDP)方法,并采用在线学习的方式实现神经网络训练与系统控制的同步进行,最后将该策略应用于晴天情况下的污水处理跟踪控制中,验证方法的有效性。性。性。

【技术实现步骤摘要】
一种用于污水处理最优跟踪控制的在线ADHDP方法


[0001]本专利技术属于污水处理领域。

技术介绍

[0002]目前我国城市污水处理厂最常用的有效工艺是活性污泥法,在该工艺过程中,各变量之间具有高度的非线性,并且伴有大量的干扰,生化反应的机理非常复杂,存在一定的时滞性,这使得污水处理系统具有非线性、大时变、大滞后等特点。目前国内外学者对于污水处理的控制问题做了大量研究,其中包括传统的开关控制、比例

积分

微分控制、专家控制、模型预测控制等多种控制方法,每一种控制方案都有其自身的优势,但也分别存在自适应能力差、先验知识不足、系统模型难以精确建立等弊端。因此,该领域的研究热点是设计良好的控制器使得污水处理系统出水水质达到国家排放标准,并在保持系统稳定运行的前提下,尽量降低能耗和减少成本。
[0003]自适应动态规划(Adaptive Dynamic Programming,ADP)是近些年逐渐发展起来的一种针对复杂未知非线性系统的最优控制方法,该方法融合了强化学习和动态规划的思想,模拟人通过环境反馈进行学习的思路,有效地解决了动态规划带来的“维数灾难”问题。执行依赖启发式动态规划(Action Dependent Heuristic Dynamic Programming,ADHDP)是ADP方法中的一种,它由被控对象、评判网络和执行网络三个模块组成,其中评判网络和执行网络通常是基于反向传播(Back Propagation,BP)神经网络建立的。评判网络起着评估系统性能的作用,即用于近似系统的代价函数,执行网络则不断采集被控对象的状态,根据控制算法输出近似最优的控制信号。这两个网络均可采用梯度下降算法对其权值进行训练。
[0004]针对污水处理过程中溶解氧与硝态氮浓度的最优跟踪控制问题,提出一种基于ADHDP的在线学习算法,并将其应用于晴天情况下的污水处理控制过程中。首先采用神经网络对污水处理的动态系统进行辨识,然后将该系统的跟踪控制问题转换为误差调节问题,并设计基于ADHDP的控制器,应用梯度下降算法对网络权值进行在线训练。最终实现溶解氧与硝态氮浓度的有效跟踪控制。
[0005]我们考虑一种常用的基准仿真模型(Benchmark Simulation Model No.1,BSM1)。该模型由欧盟科学技术合作组织和国际水协合作提出,为污水处理控制策略的有效性验证提供了一个较为理想的平台。该模型一共包含两部分,分别是生化反应池和二沉池,其中生化反应池有五个单元,前两个单元为厌氧区,后三个单元为好氧区,污水经过生化反应池中一系列硝化和反硝化反应之后,进入到二沉池进行沉淀,分离出的污泥直接排放出去或者是作为生化反应载体回流至厌氧区,二沉池分离出的水可直接排出。图1展示了BSM1模型的总体布局结构。在生化反应池中,位于好氧区第五单元的溶解氧浓度S
O,5
和厌氧区第二单元的硝态氮浓度S
NO,2
很大程度上影响着污水处理过程的除氮效果,氧传递系数K
La,5
和内回流量Q
a,2
分别对应为两个组分浓度的控制变量。所以,设计良好的控制器,对溶解氧和硝态氮的浓度进行有效地控制并使其保持在理想的设定点,已经成为污水处理系统顺利运行的关
键。

技术实现思路

[0006]一)设计思路
[0007]考虑上述污水处理系统具有非仿射动态:
[0008]x(t+1)=Φ(x(t),u(t)),t=0,1,...
ꢀꢀꢀꢀꢀ
(1)
[0009]其中,t为污水处理过程的时刻,x(t)=[S
O,5
,S
NO,2

表示t时刻的系统状态,即第五单元溶解氧浓度S
O,5
和第二单元硝态氮浓度S
NO,2
,u(t)=[K
La,5
,Q
a,2

为t时刻的控制输入,表示第五单元的氧传递系数和第五单元到第二单元的内回流量。设计反馈控制u(x(t))的目标是令第五单元的溶解氧浓度和第二单元的硝态氮浓度跟踪上期望轨迹。为设计这一控制器,我们将跟踪问题转换为最优调节问题。首先定义溶解氧浓度和硝态氮浓度的期望轨迹为:
[0010]s(t)=[2,1]Τ
,t=0,1,
…ꢀ
(2)
[0011]跟踪误差定义为:
[0012]e(t)=x(t)

s(t) (3)
[0013]对于期望轨迹s(t)存在一个稳定的控制律,将其定义为u(s(t)),假设其满足:
[0014]s(t+1)=Φ(s(t),u(s(t))) (4)
[0015]则跟踪控制可以表示为:
[0016]u(e(t))=u(x(t))

u(s(t)) (5)
[0017]根据式(1)

(5),可以将原始系统转换为关于跟踪误差的系统
[0018]e(t+1)=Φ(e(t)+s(t),u(e(t))+u(s(t)))

s(t+1) (6)
[0019]在污水处理控制系统中,最优控制的效果与第五单元溶解氧浓度和第二单元硝态氮浓度的跟踪效果直接相关。针对这一误差调节系统,我们可以设定效用函数为
[0020]U(e(t),u(e(t)))=e
Τ
(t)Qe(t)+u
Τ
(e(t))Ru(e(t)) (7)
[0021]其中,U(e(t),u(e(t)))表示当前时刻控制向量产生的立即成本,且U(0,0)=0。e(t)和u(e(t))均为2
×
1的向量,选取Q和R为二维的正定矩阵,误差动态系统的代价函数可以定义为
[0022][0023]求解最优控制问题的目标是找到最优的控制序列使得代价函数最小。方便起见,可以将V(e(t),u(e(t)))简写为V(e(t)),将式(8)展开为如下形式:
[0024][0025]接下来,可以定义最优控制问题的Hamiltonian函数:
[0026]H(V,e,u)=V(e(t+1))

V(e(t))+U(e(t),u(e(t))) (10)
[0027]根据Bellman最优性原理,最优代价函数V
*
(e(t))满足以下离散时间Hamilton

Jacobi

Bellman方程:
[0028][0029]则最优控制输入u
*
(e(t))满足:
[0030][0031]最后,原始系统的最优跟踪控制策略可以表示为:
[0032]u
*
(x(t))=u(s(t))+u
*
(e(t)) (13)
[0033]本技术的创新之处主要体现在:针对晴天情况下的污水处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于污水处理最优跟踪控制的在线ADHDP方法,其特征在于:污水处理系统具有非仿射动态:x(t+1)=Φ(x(t),u(t)),t=0,1,
…ꢀꢀꢀꢀ
(1)其中,t为污水处理过程的时刻,x(t)=[S
O,5
,S
NO,2
]
Τ
表示t时刻的系统状态,即第五单元溶解氧浓度S
O,5
和第二单元硝态氮浓度S
NO,2
,u(t)=[K
La,5
,Q
a,2
]
Τ
为t时刻的控制输入,表示第五单元的氧传递系数和第五单元到第二单元的内回流量;设计反馈控制u(x(t))的目标是令第五单元的溶解氧浓度和第二单元的硝态氮浓度跟踪上期望轨迹;为设计这一控制器,将跟踪问题转换为最优调节问题;首先定义溶解氧浓度和硝态氮浓度的期望轨迹为:s(t)=[2,1]
Τ
,t=0,1,
…ꢀꢀꢀꢀ
(2)跟踪误差定义为:e(t)=x(t)

s(t)
ꢀꢀꢀꢀ
(3)对于期望轨迹s(t)存在一个稳定的控制律,将其定义为u(s(t)),假设其满足:s(t+1)=Φ(s(t),u(s(t)))
ꢀꢀꢀꢀ
(4)则跟踪控制表示为:u(e(t))=u(x(t))

u(s(t))
ꢀꢀꢀꢀ
(5)根据式(1)

(5),将原始系统转换为关于跟踪误差的系统e(t+1)=Φ(e(t)+s(t),u(e(t))+u(s(t)))

s(t+1)
ꢀꢀꢀꢀ
(6)在污水处理控制系统中,最优控制的效果与第五单元溶解氧浓度和第二单元硝态氮浓度的跟踪效果直接相关;针对这一误差调节系统,设定效用函数为U(e(t),u(e(t)))=e
Τ
(t)Qe(t)+u
Τ
(e(t))Ru(e(t))
ꢀꢀꢀꢀ
(7)其中,U(e(t),u(e(t)))表示当前时刻控制向量产生的立即成本,且U(0,0)=0;e(t)和u(e(t))均为2
×
1的向量,选取Q和R为二维的正定矩阵,误差动态系统的代价函数定义为求解最优控制问题的目标是找到最优的控制序列使得代价函数最小;方便起见,将V(e(t),u(e(t)))简写为V(e(t)),将式(8)展开为如下形式:接下来,定义最优控制问题的Hamiltonian函数:H(V,e,u)=V(e(t+1))

V(e(t))+U(e(t),u(e(t)))
ꢀꢀꢀꢀꢀ
(10)根据Bellman最优性原理,最优代价函数V
*
(e(t))满足以下离散时间Hamilton

Jacobi

Bellman方程:则最优控制输入u
*
(e(t))满足:
最后,原始系统的最优跟踪控制策略表示为:u
*
(x(t))=u(s(t))+u
*
(e(t))
ꢀꢀꢀꢀꢀ
(13)。2.根据权利要求1所述的方法,其特征在于:采用一个三层的BP神经网络来辨识污水处理过程的动态系统,其输出的表达式为:这里,[x
Τ
(t),u
Τ
(x(t))]
Τ
作为输入,输出为下一时刻的状态预测值,w
m1
(t)和ρ1(t)分别为输入层与隐含层之间的网络权值和阈值向量,w
m2
(t)和ρ2(t)分别为隐含层与输出层之间的网络权值和阈值向量,δ(
·
)为该神经网络的激活函数,这里选取双曲正切函数:其中,定义系统辨识器的预测误差为输出的近似值与实际值之间的差值,即训练的目标函数为系统辨识器各层之间的网络权值与阈值向量的更新规则均采用如下的梯度下降算法:w
mi
(t+1)=w
mi
(t)+Δw
mi
(t)
ꢀꢀꢀꢀꢀ
(18)ρ
i
(t+1)=ρ
i
(t)...

【专利技术属性】
技术研发人员:王鼎赵慧玲任进赵明明
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1