基于多时间尺度奇异摄动系统最优跟踪控制工业工艺方法技术方案

技术编号:37366448 阅读:20 留言:0更新日期:2023-04-27 07:13
本发明专利技术基于多时间尺度奇异摄动系统最优跟踪控制工业工艺方法,涉及一种跟踪控制的工业工艺方法,本发明专利技术通过奇异摄动理论和强化学习技术,将系统分解为快子系统和慢子系统,分别设计子系统对应的最优控制策略,进而为奇异摄动系统设计一个组合的次优控制策略,解决了约束于奇异摄动系统的最优跟踪问题。其间,提出了一种新颖的基于数据的岭回归强化学习控制技术,减小了摄动参数对系统的影响。本发明专利技术设计了奇异摄动系统的最优跟踪控制策略,从而通过次优的方法使系统达到理想的轨迹,通过可测量的数据设计了分解后的慢变子系统的控制策略。策略。

【技术实现步骤摘要】
基于多时间尺度奇异摄动系统最优跟踪控制工业工艺方法


[0001]本专利技术涉及一种跟踪控制工业工艺方法,特别是涉及一种基于多时间尺度奇异摄动系统最优跟踪控制工业工艺方法。

技术介绍

[0002]最优跟踪控制由于其实际意义而成为控制理论和工程应用中的一个基本问题,因为它希望系统通过设计一个成本和能耗最低的控制器来跟踪理想的轨迹。在最优跟踪控制的工业工艺应用中,多单元装置和操作过程一般包含快、慢模式,即在工业过程中存在多时间尺度,如混合分离增厚工艺、催化裂化工艺等。为了控制奇异摄动系统,奇异摄动理论及其变体在完全分离快和慢子系统设计控制器方面发挥了主导作用。
[0003]解决最优跟踪控制问题的各种方法确实已经被报道过,但其中大多数方法适用于具有相同时间尺度的正常线性系统。设计多时间尺度系统的最优跟踪控制策略已经引起了研究人员和工程师的广泛关注。值得指出的是,大多数现有的奇异摄动方法要求预先了解系统模型。即使系统模型已知,系统运行的真正不同的时间尺度也给设计最优跟踪控制策略带来了严重的麻烦,而如果没有关于系统模型的信息,则更具挑战性。
[0004]近年来,一些初步的尝试为利用数据驱动的方法设计快、慢模式系统的最优跟踪控制器奠定了基础。在这些研究中,强化学习技术与奇异摄动理论相结合,用于具有多时间尺度的工业过程的设定点跟踪。然而,值得注意的是,变量之间更复杂的相互耦合和慢状态的不可测量性是未被关注的。

技术实现思路

[0005]本专利技术的目的在于提供一种基于多时间尺度奇异摄动系统最优跟踪控制工业工艺方法,本专利技术设计了奇异摄动系统的最优跟踪控制策略,从而通过次优的方法使系统达到理想的轨迹;解决了约束于奇异摄动系统的最优跟踪问题。其间,提出了一种新颖的基于数据的岭回归强化控制技术,减小了摄动参数对系统的影响,通过可测量的数据设计了分解后的慢变子系统的控制策略。
[0006]本专利技术的目的是通过以下技术方案实现的:
[0007]基于多时间尺度奇异摄动系统最优跟踪控制工业工艺方法,所述方法包括以下步骤:
[0008]步骤1、建立线性离散时间多时间尺度高阶系统的动态模型和参考轨迹的线性动态模型,基于奇异摄动理论分解全局系统;
[0009]步骤2、针对理想的设定值,提出跟踪控制问题,并对其问题进行处理为约束于子系统的优化控制问题,设计了子系统对应的最优理论解;
[0010]步骤3、考虑奇异摄动系统的慢状态和其对应的动态信息未知时,使用多个历史时刻的输出和输入数据并引入非策略迭代学习模式,设计一种新颖的基于数据的岭回归非策略强化学习算法设计最优控制策略。
[0011]所述的基于多时间尺度奇异摄动系统最优跟踪控制工业工艺方法,所述步骤1,考虑两个时间尺度下线性离散奇异摄动系统:
[0012]x1(n+1)=(I+εA1)x1(n)+εA2x2(n)+εB1u(n)
[0013]x2(n+1)=A3x1(n)+A4x2(n)+B2u(n)
[0014]y(n)=Cx1(n) (1)
[0015]其中,x
i
(n)(i=1,2)和u(n)分别表示n时刻的状态和控制输入,ε为摄动参数,A
i
(i=1,2,

,4)和B
j
(j=1,2)分别表示系统矩阵和控制矩阵,并且矩阵A1,A2,B1是未知的;n(n=0,1,2,

)表示快采样时间。
[0016]所述的基于多时间尺度奇异摄动系统最优跟踪控制工业工艺方法,所述步骤2理想参考轨迹的动力学模型为:
[0017]r(k+1)=Fr(k) (9)
[0018]其中,r(k)为k时刻理想的参考轨迹,F为参考轨迹的系数矩阵。
[0019]所述的基于多时间尺度奇异摄动系统最优跟踪控制工业工艺方法,所述步骤3慢系统的动力学信息未知,使用基于数据驱动的在线学习的方式进行学习即引入行为策略被用来使得系统产生数据,目标策略用来被学习,慢变增广子系统改写为:
[0020][0021]其中u
s
(k)是行为策略,是目标策略。
[0022]所述的基于多时间尺度奇异摄动系统最优跟踪控制工业工艺方法,所述步骤3提出的基于非策略的岭回归强化学习算法包括以下步骤:
[0023]步骤3.1、通过行为控制策略和添加探测噪声,收集整体系统变量数据和各个时刻的参考轨迹值;
[0024]步骤3.2、给出可允许的初始的控制增益,设定迭代指标j
s
,j
f
,从j
s
=0,j
f
=0开始;
[0025]步骤3.3、根据系统变量数据和式(28),式(30)分别对子系统对应的进行性能策略评估;
[0026]步骤3.4、根据策略评估学习到的参数数据和式(29),式(31)进行策略更新;
[0027]步骤3.5、判断学习到的控制增益和是否收敛到前一时刻,若是,执行下个步骤,否则j
s
=j
s
+1、j
f
=j
f
+1,返回执行步骤3.3。
[0028]本专利技术的优点与效果是:
[0029]本专利技术针对最优跟踪控制问题提出了一种基于数据的多时间尺度奇异摄动系统跟踪问题的强化学习技术。通过奇异摄动理论和强化学习技术,将系统分解为快子系统和慢子系统,分别设计子系统对应的最优控制策略,进而为奇异摄动系统设计一个组合的次优控制策略,解决了约束于奇异摄动系统的最优跟踪问题。其间,提出了一种新颖的基于数据的岭回归强化学习控制技术,减小了摄动参数对系统的影响。具体表现为:
[0030]1)提出了一种结合奇异摄动理论的非策略岭强化学习方法,设计了奇异摄动系统的最优跟踪控制策略,从而通过次优的方法使系统达到理想的轨迹;
[0031]2)在系统模型上,该系统是一个离散奇异摄动系统,即会受到一些小参数的影响,并且快模式系统与慢模式系统变量间存在相互耦合的关系;
[0032]3)考虑实际过程中,慢模式系统中的状态变量是不可测量的或测量成本较高,使用一些数学变换和奇异摄动系统可测量的输出

输入数据的数据替换掉了难以测量的慢状态数据,通过可测量的数据设计了分解后的慢变子系统的控制策略。
附图说明
[0033]图1为本专利技术一种实施例的应用数值例子并实施算法2的控制器增益的学习过程图;
[0034]图2为本专利技术一种实施例的应用数值例子并实施算法2的系统输出变量轨迹图;
[0035]图3为本专利技术一种实施例的应用数值例子并实施算法2的系统控制输入的学习过程图;
[0036]图4为本专利技术一种实施例的应用实际例子并实施算法2的控制器增益的学习过程图;
[0037]图5为本专利技术一种实施例的应用实际例子并实施算法2的系统输出变量轨迹图;
[0038]图6为本专利技术一种实施例的应用实际例子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多时间尺度奇异摄动系统最优跟踪控制工业工艺方法,其特征在于,所述方法包括以下步骤:步骤1、建立线性离散时间多时间尺度高阶系统的动态模型和参考轨迹的线性动态模型,基于奇异摄动理论分解全局系统;步骤2、针对理想的设定值,提出跟踪控制问题,并对其问题进行处理为约束于子系统的优化控制问题,设计了子系统对应的最优理论解;步骤3、考虑奇异摄动系统的慢状态和其对应的动态信息未知时,使用多个历史时刻的输出和输入数据并引入非策略迭代学习模式,设计一种新颖的基于数据的岭回归非策略强化学习算法设计最优控制策略。2.根据权利要求1所述的基于多时间尺度奇异摄动系统最优跟踪控制工业工艺方法,其特征在于,所述步骤1,考虑两个时间尺度下线性离散奇异摄动系统:(1)其中,和分别表示时刻的状态和控制输入,为摄动参数,和分别表示系统矩阵和控制矩阵,并且矩阵是未知的;表示快采样时间。3.根据权利要求1所述的 基于多时间尺度奇异摄动系统最优跟踪控制工业工艺方法,其特征在于,所述步骤2理想参考轨迹的动力学模型为:(9)其中,为时刻理想的...

【专利技术属性】
技术研发人员:李金娜杨明伟
申请(专利权)人:辽宁石油化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1