具有执行器故障的时滞间歇过程Q学习最优跟踪控制方法技术

技术编号:38771470 阅读:19 留言:0更新日期:2023-09-10 10:44
具有执行器故障的时滞间歇过程Q学习最优跟踪控制方法,属于工业过程控制技术领域,该方法克服了传统控制方法中系统动态参数时变性的限制,具体的步骤如下:步骤一:描述了时滞间歇过程的状态空间表达形式,在此基础上建立了一个由状态增量和输出误差组成的新的系统模型;步骤二:引入时滞性能指标函数,设计了一种在具有时滞环境下能抵制部分执行器失效的控制律;步骤三:提出了具有执行器故障的非策略Q学习算法,通过不断迭代学习求解最优控制增益矩阵;此方法能够有效地处理在具有状态时滞的注塑成型过程中存在建模困难和具有重复性等复杂特性的难题,通过基于数据的方式,很好地降低了系统依赖于模型这一难点,也降低了计算的成本。计算的成本。

【技术实现步骤摘要】
具有执行器故障的时滞间歇过程Q学习最优跟踪控制方法


[0001]本专利技术属于工业过程控制
,具体涉及具有执行器故障的时滞间歇过程Q学习最优跟踪控制方法。

技术介绍

[0002]在全球化和竞争激烈的市场环境下,各大行业需要不断提高生产效率和产品质量、降低生产成本,才能保持竞争力。为此,采用数字化、智能化、自动化等先进技术的工业生产方式已成为不可或缺的趋势。这种生产方式不仅能满足上述生产需求,还可以实现资源的高效利用和环境的可持续发展。
[0003]工业过程的生产方式可以分为连续生产过程和间歇生产过程。从原材料的投入到产品的输出是连续的、不间断的,这类工业过程被称为连续生产过程。然而随着社会的不断发展,可供选择的产品越来越广泛,市场需求变化迅速,人们越来越多的倾向于小规模多工序生产方式,间歇生产过程刚好满足这些需求,它主要是一种不断重复操作获得产品的加工过程。与连续生产过程不同的是,间歇过程具有重复性、快速性、低成本的独特性质,因而被广泛应用在各个领域,如:航空航天、交通运输、制造业等。化工、食品、饮料及医药领域中间歇生产过程的比例很高占。通过有效地控制间歇生产过程,各个行业可以提高生产效率、降低生产成本、提高产品质量,并增强市场竞争力。因此,研究间歇生产过程的控制方法对各个领域都非常有意义的。
[0004]鉴于在注塑成型生产过程中模型往往比较难以获得同时会有大量的数据产生并进行存储,这些数据包含时间方向和批次方向上的数据。那么在没有精确的过程模型的情况下,如何有效地利用数据直接设计注塑成型生产过程的控制器是非常重要的,因此依赖于数据的方法在时滞批处理的问题中更加适用。强化学习由于具有仅仅依赖于数据而没有先验信息的情况下,可以对复杂系统进行优化控制的优势,自发展以来,强化学习在具有状态时滞系统的最优跟踪控制问题方面也有着一定的研究。为此,针对具有状态时滞的间歇过程,研究一种基于强化学习的控制方法,能使系统不依赖于模型,仅仅依靠数据不断学习得到最优的控制律是非常重要的。

技术实现思路

[0005]本专利技术是针对具有执行器故障的时滞间歇过程Q学习最优跟踪控制方法,属于工业过程控制
,该方法克服了传统控制方法中系统动态参数时变性的限制,具体的步骤如下:步骤一:描述了时滞间歇过程的状态空间表达形式,在此基础上建立了一个由状态增量和输出误差组成的新的系统模型;步骤二:引入时滞性能指标函数,设计了一种在具有时滞环境下能抵制部分执行器失效的控制律;步骤三:提出了具有执行器故障的非策略Q学习算法,通过不断迭代学习求解最优控制增益矩阵。用注塑成型过程产生的数据进行多次学习后,可获得注塑成型过程的最优控制器增益,通过控制器增益可得到性能指标下的最优控制律,随后作用于执行器控制系统可使系统的输出逐渐跟踪上设定值。
[0006]本专利技术是通过以下技术方案实现的:
[0007]本专利技术是针对具有执行器故障的时滞间歇过程Q学习最优跟踪控制方法,属于工业过程控制
,该方法克服了传统控制方法中系统动态参数时变性的限制,具体的步骤如下:步骤一:描述了时滞间歇过程的状态空间表达形式,在此基础上建立了一个由状态增量和输出误差组成的新的系统模型;步骤二:引入时滞性能指标函数,设计了一种在具有时滞环境下能抵制部分执行器失效的控制律;步骤三:提出了具有执行器故障的非策略Q学习算法,通过不断迭代学习求解最优控制增益矩阵。用注塑成型过程产生的数据进行多次学习后,可获得注塑成型过程的最优控制器增益,通过控制器增益可得到性能指标下的最优控制律,随后作用于执行器控制系统可使系统的输出逐渐跟踪上设定值。
[0008]步骤一:描述了时滞间歇过程的状态空间表达形式,在此基础上建立了一个由状态增量和输出误差组成的新的系统模型;
[0009]首先,考虑一类具有状态时滞的间歇过程:
[0010][0011]其中,t表示时间,和u
t
=[u
1t
u
2t
...u
mt
]T
∈R
m
分别表示系统状态,系统输出,控制输入;表示时间延迟,A,A
d
,B,C表示维数适当的系统矩阵,R表示为实数矩阵,n
x
,n
y
和m表示为实数矩阵R的适当维数;
[0012]根据(1)式,设计如下迭代学习控制律形式:
[0013]u
t
=u
t
‑1+u
Δt
(2)
[0014]其中,u
Δt
是t时刻与t

1时刻的控制输入之差;
[0015]对于期望输出轨迹y
d
,在t时刻的跟踪误差变量和状态误差变量,在t

d时刻的状态误差变量分别可以表示为:
[0016]y
Δt
=y
d

y
t
(3)
[0017]x
Δt
=x
t

x
t
‑1(4)
[0018]x
Δt

d
=x
t

d

x
t

d
‑1(5)
[0019]其中,x
t
,x
t
‑1,x
t

d
和x
t

d
‑1分别代表t时刻,t

1时刻,t

d时刻和t

d

1时刻的状态变量;
[0020]根据(1)至(5)式,可推导出一个新的增广模型如下:
[0021][0022]其中,其中,和是维数适当的相关矩阵,X
t
,X
t

d
和u
Δt
分别是新的系统模型在t时刻的状态变量,在t

d时刻的状态变量和t时刻的控制输入,R表示为实数矩阵,n+1表示为实数矩阵R的适当维数;
[0023]当执行器发生故障的时候,系统的控制输入u
t
并不是总能达到期望值;对于执行器故障的情况,主要是分为三种情况:部分失效故障,停机故障和卡死故障;本文研究部分
执行器故障的现象,通过定义α的取值范围来表示不同情况的故障类型,并采用故障模型为:
[0024][0025]其中,α=diag[α1α2,


m
],可见,为执行器正常情况,α
i
=0为执行器完全失效的情况,α
i
>0(α
i
≠1)为执行器部分失效的情况;
[0026]那么公式(6)可以改写为:
[0027][0028]步骤二:引入时滞性能指标函数,设计了一种在具有时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.具有执行器故障的时滞间歇过程Q学习最优跟踪控制方法,具体步骤如下:步骤一:描述了时滞间歇过程的状态空间表达形式,在此基础上建立了一个由状态增量和输出误差组成的新的系统模型;首先,考虑一类具有状态时滞的间歇过程:其中,t表示时间,和u
t
=[u
1t
u
2t

u
mt
]
T
∈R
m
分别表示系统状态,系统输出,控制输入;表示时间延迟,A,A
d
,B,C表示维数适当的系统矩阵,R表示为实数矩阵,n
x
,n
y
和m表示为实数矩阵R的适当维数;根据(1)式,设计如下迭代学习控制律形式:u
t
=u
t
‑1+u
Δt
(2)其中,u
Δt
是t时刻与t

1时刻的控制输入之差;对于期望输出轨迹y
d
,在t时刻的跟踪误差变量和状态误差变量,在t

d时刻的状态误差变量分别可以表示为:y
Δt
=y
d

y
t
(3)x
Δt
=x
t

x
t
‑1(4)x
Δt

d
=x
t

d

x
t

d
‑1(5)其中,x
t
,x
t
‑1,x
t

d
和x
t

d
‑1分别代表t时刻,t

1时刻,t

d时刻和t

d

1时刻的状态变量;根据(1)至(5)式,可推导出一个新的增广模型如下:其中,其中,其中,和是维数适当的相关矩阵,X
t
,X
t

d
和u
Δt
分别是新的系统模型在t时刻的状态变量,在t

d时刻的状态变量和t时刻的控制输入,R表示为实数矩阵,n+1表示为实数矩阵R的适当维数;当执行器发生故障的时候,系统的控制输入u
t
并不是总能达到期望值;对于执行器故障的情况,主要是分为三种情况:部分失效故障,停机故障和卡死故障;本文研究部分执行器故障的现象,通过定义α的取值范围来表示不同情况的故障类型,并采用故障模型为:其中,α=diag[α1α2,


m
],可见,为执行器正常情况,α
i
=0为执行器完全失效的情况,α
i
>0(α
i
≠1)为执行器部分失效的情...

【专利技术属性】
技术研发人员:施惠元高维吕梦迪姜雪莹苏成利肖默涵李平
申请(专利权)人:辽宁石油化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1