一种非线性网络控制系统多目标协同最优控制方法技术方案

技术编号：40497791 阅读：14 留言：0更新日期：2024-02-26 19:25

本发明专利技术提出了一种非线性网络控制系统多目标协同最优控制方法，竞争神经网络将被控系统状态、控制器接收到的传感器数据和目标构成的增广状态作为输入，经过特征表征网络，分别输入状态值函数网络、连续控制策略网络和优势值函数网络。状态值函数网络输出不同通讯网络模式下的状态值函数。连续控制策略网络输出不同通讯网络模式下的连续控制信号。优势值函数采用标准正态分布形式，输出不同通讯网络模式下的优势值函数。通过更新竞争网络同时对离散网络调度策略和连续控制策略协同优化。本发明专利技术协同优化非线性系统的网络调度策略和被控对象的控制策略，实现全局最优,本发明专利技术可以有效处理多目标学习任务，提高策略对不同任务的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种协同最优控制方法，针对非线性网络控制对象，以多目标强学习理论和切换控制理论为基础，属于智能控制。

技术介绍

1、(1)研究意义

2、网络控制系统是一种典型的信息物理系统，通过网络传输信息，打破了空间物理位置限制，扩宽了工作场景，降低了系统的连接复杂性、运行成本和维护费用，在工业自动化、智能交通、远程医疗等领域产生了深远影响。但是通讯网络的不确定性所导致的网络诱导时延、数据包丢失等问题对控制器设计提出了巨大的挑战，不仅会影响控制器的性能，甚至可能导致系统的不稳定。现有非线性网络系统最优控制方法可以大致分为时间驱动控制策略和事件触发控制策略。

3、时间驱动最优控制方法大多以模型已知的线性网络控制系统为对象展开，重点针对网络时延和数据丢包问题，以系统稳定性和性能表现为出发点进行控制器设计。李海涛等在2009年的控制与决策期刊发表的论文一类具有数据包丢失的网络控制系统的最优控制中针对数据丢包影响下的网络控制系统最优控制问题，结合动态规划算法计算离散二次型性能指标下的最优控制序列，并给出了最优控制策略的实现算法。这样的方式依赖精确的数学模型，对于复杂非线性系统，难以起到很好的效果。xuhao等在2011年的americancontrol conference的2819-2824发表的论文stochastic optimal control of unknownlinear networked control system using q-learning methodology中研究了一类系统动态

4、事件触发最优控制方法考虑通信网络带宽受限的实际情况，缓解定时传输信息导致的网络拥塞，有效降低通信消耗和计算成本。zhang xian-ming和han qing-long等在2017年的international journal of robust and nonlinear control期刊的679-700页发表的论文event-triggered h∞control for a class of nonlinear networkedcontrol systems using novel integral inequalities针对一类考虑网络诱导延时的非线性网络控制系统，设计了基于事件驱动的控制器，并利用线性矩阵不等式推导出了驱动阈值。事件触发控制器设计的过程中大多预先设计了输入控制策略，然后在此基础上根据李雅普诺夫稳定性定理选择网络触发条件。但是，这种方法需要预先设计连续控制策略，并只能保证系统的稳定性，无法实现全局最优控制。

5、aliheydari在2019年的ieee tranactions on industrial electronics期刊的482-490页发表的论文optimal codesign of control input andtriggering instantsfor networked controlsystems using adaptive dynamic programming基于自适应动态规划算法，利用actor-critic网络结构，设计了一种非线性网络控制系统协同优化算法。但是，这种方法需要预先知道被控对象的动态方程，并且缺乏对不同目标的泛化学习能力。

6、对国内外的相关研究分析可以得到以下结论：目前针对非线性网络控制系统协同最优控制问题，已有方法都存在一些不足，比如需要预知被控系统数学模型，无法实现通讯网络调度和连续控制输入的协同优化，无法实时调节连续控制策略，缺乏多目标学习能力等，目前还没有提出一种相对完善和通用非线性网络控制系统多目标协同最优控制强化学习方法。

技术实现思路

1、鉴于现有技术存在上述不足，本专利技术主要针对非线性网络控制系统通讯网络调度和被控对象控制协同优化问题，考虑系统模型未知情况以及多目标学习要求，设计一种目标驱动的强化学习算法，实现数据驱动的非线性网络系统协同策略优化。

2、为了实现上述目的，本专利技术提出了一种非线性网络控制系统多目标协同最优控制方法，该方法基于多目标强化学习算法框架，将被控系统状态、控制器接收到的传感器数据以及目标组合构建增广状态，结合归一化优势函数方法设计竞争神经网络结构，实现非线性网络控制系统的网络调度策略和连续控制策略的协同优化。

3、本专利技术的目的可以通过以下技术方案实现：

4、一种非线性网络控制系统多目标协同最优控制方法，包括以下步骤：

5、步骤1：针对非线性网络控制系统多目标协同最优控制问题，建立包括被控系统状态、控制器接收到的传感器数据和目标的增广状态，以及由通讯网络调度信号和连续控制信号构成的混合动作，根据贝尔曼最优性原理建立关于增广状态和混合动作的贝尔曼方程模型；

6、步骤2：构建竞争神经网络结构，将系统状态、通讯网络传输信号和目标构成的增广状态输入竞争神经网络，根据状态值函数选择通讯网络调度信号，然后根据网络调度信号选择相应的连续控制信号；

7、步骤3：将通讯网络调度信号和连续控制信号作用于非线性网络控制系统，得到奖励反馈和下一时刻的系统状态，更新控制器接收到的传感器数据；

8、步骤4：将增广状态输入竞争神经网络，计算状态-动作值函数以及竞争神经网络误差函数大小，利用随机梯度下降方法更新所述竞争神经网络的权值。

9、进一步地，所述非线性网路控制系统由被控系统、传感器、通讯网络、通讯网络触发器、控制器和执行机构组成。所述被控系统具有非线性特性，动态方程表示为：xk+1＝f(xk,uk)，其中x表示系统状态，u表示控制输入，k表示时间步长。传感器按固定时间周期采样被控系统状态x。通讯网络存在开通和关断两种工作模式，分别用v＝1和v＝0表示。当通讯网络处于开通模式时，传感器采样数据xk通过通讯网络传输给控制器：dk+1＝xk，其中d表示控制器由通讯网络接收到的最新传感器数据。当通讯网络处于关断模式时，控制器接收到的传感器信号不变：dk+1＝dk。所述非线性网络控制系统可以用切换系统模型表示，动态方程为：

10、

11、其中，y＝[xt,dt]t表示非线性网络系统的关于被控系统状态和控制器接收到的状态信号的增广状态。f0和f1分别表示通讯网络开通和关断模式下网络控制系统的动态方程。

12、进一步地，所述步骤1中关于非线性网络控制系统多目标学习的性能指标函数需要考虑不同目标对效用函数的影响，表示为：

13、

14、其中，g表示目标状态，u(x,u,v,g)表示效用函数。效用函数考虑通讯网络传输信息的成本，大小与需要传输的状态相关，表示为c(x)。所有目标状态组成的集合称为目标空间，用g表示。目标空间根据被控对象特性和任务要求选择。...

【技术保护点】

1.一种非线性网络控制系统多目标协同最优控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的非线性网络控制系统多目标协同最优控制方法，其特征在于，所述非线性网路控制系统由被控系统、传感器、通讯网络、通讯网络触发器、控制器和执行机构组成，所述被控系统具有非线性特性，动态方程表示为：xk+1＝f(xk,uk)，其中x表示系统状态，u表示控制输入，k表示时间步长，传感器按固定时间周期采样被控系统状态x，通讯网络存在开通和关断两种工作模式，分别用v＝1和v＝0表示，当通讯网络处于开通模式时，传感器采样数据xk通过通讯网络传输给控制器：dk+1＝xk，其中d表示控制器由通讯网络接收到的最新传感器数据，当通讯网络处于关断模式时，控制器接收到的传感器信号不变：dk+1＝dk，所述非线性网络控制系统用切换系统模型表示，动态方程为：

3.根据权利要求2所述的非线性网络控制系统多目标协同最优控制方法，其特征在于，步骤1中关于非线性网络控制系统多目标学习的性能指标函数需要考虑不同目标对效用函数的影响，表示为：

4.根据权利要求3所述的非线性网络控制系统多目

5.根据权利要求4所述的非线性网络控制系统多目标协同最优控制方法，其特征在于，步骤2所述竞争神经网络结构包括特征表征网络、状态值函数网络、连续控制策略网络、优势值函数网络；将增广状态[yT,gT]T输入特征表征网络，提取有效特征表示，并分别输入状态值函数网络、连续控制策略网络和优势值函数网络；状态值函数网络输出通讯网络关断和开通模式下关于增广状态的状态值函数[V(y,0,g),V(y,1,g)]T；比较V(y,0,g)和V(y,1,g)的大小，选择使V(y,v,g)小的模式v为通讯网络的调度信号；连续控制策略网络的输出通讯网络关断和开通模式下的连续控制信号[μ(y,0,g)T,μ(y,1,g)T]T，根据网络调度信号v选择相应的连续控制信号。

6.根据权利要求5所述的非线性网络控制系统多目标协同最优控制方法，其特征在于，所述竞争网络中的优势值函数服从标准正态分布模型，当且仅当连续控制策略网络输入等于连续控制输入时，优势函数取得最大值；增广状态经特征表征网络后输入优势值函数网络，输出标准正态分布的方差；优势值函数表示为A(y,δu,v,g)，其中δu表示连续控制策略网络输出与真实动作之差。

7.根据权利要求6所述的非线性网络控制系统多目标协同最优控制方法，其特征在于，所述步骤3中在任意时间步长k，根据通讯网络调度信号vk选择非线性网络控制系统动态方程Fvk；将xk、dk和uk输入动态方程Fvk，得到下一时刻的被控系统状态xk+1和控制器接收到的传感器数据dk+1；将(x,u,v,g)输入效用函数得到奖励反馈。

8.根据权利要求7所述的非线性网络控制系统多目标协同最优控制方法，其特征在于，所述步骤4中增广状态输入竞争网络，得到状态值函数向量[V(y,0,g),V(y,1,g)]T；比较V(y,0,g)和V(y,1,g)的大小，选择使V(y,v,g)小的模式v为通讯网络的调度信号；根据选择的调度信号v确定连续控制信号μ(y,v,g)，并得到对应的优势值函数A(y,δu,v,g)；状态值函数减去优势值函数得到状态-动作值函数：Q(y,u,v,g)＝V(y,v,g)-A(y,δu,v,g)。

9.根据权利要求8所述的非线性网络控制系统多目标协同最优控制方法，其特征在于，步骤4所述竞争神经网络的损失函数如下所示：

...

【技术特征摘要】

1.一种非线性网络控制系统多目标协同最优控制方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的非线性网络控制系统多目标协同最优控制方法，其特征在于，根据贝尔曼最优性原理，建立步骤1所述非线性网络控制系统多目标学习的贝尔曼方程模型：

5.根据权利要求4所述的非线性网络控制系统多目标协同最优控制方法，其特征在于，步骤2所述竞争神经网络结构包括特征表征网络、状态值函数网络、连续控制策略网络、优势值函数网络；将增广状态[yt,gt]t输入特征表征网络，提取有效特征表示，并分别输入状态值函数网络、连续控制策略网络和优势值函数网络；状态值函数网络输出通讯网络关断和开通模式下关于增广状态的状态值函数[v(y,0,g),v(y,1,g)]t；比较v(y,0,g)和v(y...

【专利技术属性】
技术研发人员：李晓峰，孙长银，柳文章，任璐，
申请(专利权)人：安徽大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人