System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
【国外来华专利技术】
本公开总体上涉及控制系统,更具体地,涉及一种用于基于反馈信号在不同控制步骤控制装置的操作的系统和方法。
技术介绍
1、最优控制涉及在一段时间内寻求对动力系统的控制,使得目标函数被优化。它在科学、工程和运筹学方面有广泛应用。例如,动力系统可以是具有与火箭推进器对应的控制的航天器,目标可能是以最小的燃料支出到达月球。类似地,动力系统可以是具有与载具的加速对应的控制的载具。诸如线性二次型调节器(lqr)或模型预测控制(mpc)的基于模型的控制方法使用动力系统的数学模型来确定致动器命令/输入。出于数值原因,这种动力系统模型被简化以方便数值优化,即,它是“面向控制的”模型。这种面向控制的模型被选择为线性/非线性和连续的解析函数,因此适合于基于梯度的优化。
2、随着控制应用变得越来越复杂并且计算资源变得更强大,对更先进控制器的关注和能力不断增加以应对复杂行为。例如,准确地控制动力系统可能需要考虑难以解析建模为显函数的行为。这些行为包括接触动力学、摩擦、复杂形状的惯性、如软体机器人中的柔性体、隐式微分方程等。考虑复杂动力学的最优控制问题的表述带来了在实时控制应用中难以解决的许多计算挑战。例如,当动态模型包括不连续函数时,用于寻求最优控制问题的最优解的动态规划可能失败。
3、因此,需要一种用于求解最优控制问题的系统和方法,其适合于具有复杂动力学的控制系统。
技术实现思路
1、一些实施方式的目的是提供一种适合于具有复杂动力学的系统的反馈控制的系统和方法。另外地或另选地,一些实
2、一些实施方式基于这样的理解:为了实现这种目标,需要用于求解最优控制问题的替代方法,其不同于搜索解析解和/或迭代优化,例如不同于基于梯度的优化。
3、用于求解复杂优化问题的这种替代方法的示例基于在物理信息神经网络(pinn)的新
中开始训练深度神经网络(dnn)的原理。通过使损失函数最小化来训练dnn以基于训练数据构建模型,以便在没有明确规划这样做的情况下进行预测或决策。因此,dnn的利用通常被分成两个阶段,即,学习dnn的参数的训练阶段和采用训练的dnn进行决策的测试阶段。因此,在训练阶段期间dnn所生成的输出通常被忽略,因为该输出仅用于训练dnn的参数。
4、然而,训练dnn以使损失函数最小化可被视为寻找损失函数的解,或者具体地,寻找迫使训练的dnn在给定输入时输出损失函数的解的dnn参数。一些实施方式基于这样的理解:损失函数可被表述为最优控制问题。在这方面,使用损失函数训练神经网络可被视为等同于求解最优控制问题。例如,训练的神经网络的输出可以是受控装置对当前控制步骤的控制输入。对神经网络的输入可包括指示受控装置在当前控制步骤的状态的反馈信号。因此,需要针对各个控制步骤重新训练神经网络。
5、然而,尽管此示例提供了用于求解最优控制问题的替代方法,但将最优控制问题表述为训练dnn会遭受收敛缓慢的问题,使其不太适合于实时控制应用。一些实施方式的目的是寻找用于求解最优控制问题的不同替代方法。
6、一些实施方式基于这样的认识:为求解最优控制问题而产生的dnn训练收敛缓慢的原因在于dnn的输出的确定性本质。尽管dnn可被解释为用于近似未知期望函数的多元统计模型,但由dnn的输出层生成的输出是确定性和有限的,无需进一步修改。另外,收敛缓慢的另一原因可在dnn的参数的确定性更新中找到。这种确定性减缓了搜索使损失函数最小化的dnn参数的dnn的反向传播训练。
7、一些实施方式基于这样的认识:最优控制问题的解的估计以及对这种解的迭代搜索应该是概率的。解的估计的概率本质以及当前解的概率更新可增加所估计的解朝着最优解的收敛,因为它允许探索具有可能最优解的解空间。
8、为此,一些实施方式的目的是寻找概率框架,其允许概率上搜索由最优控制问题的解提供的用于控制装置的控制输入。此外,一些实施方式的目的是寻找这样的概率框架,其概率上更新控制输入的当前概率估计,直至满足终止条件。
9、各种实施方式所探索的这种概率框架的示例是概率求解器,例如卡尔曼滤波器。概率求解器使用随时间观测到的一系列测量,包括统计噪声以及其它不准确性,并且生成未知变量的估计,其往往比仅基于单个测量的那些估计更准确。概率求解器用于跟踪所控制的装置的状态。换言之,卡尔曼滤波器在所控制的装置的状态上进行参数化。例如,卡尔曼滤波器可用于如gnss应用中一样从卫星信号的测量估计载具的状态。在此示例中,卡尔曼滤波器在载具的状态上进行参数化。
10、概率求解器的操作框架包括两个阶段,即,预测阶段和校正阶段。对于预测阶段,概率求解器生成当前状态变量的估计及其不确定性。为此,概率求解器采用经受过程噪声的预测模型。预测模型的示例是所控制的装置的运动模型,例如载具的运动模型。一旦观测到下一测量的结果(必然带有一些误差,包括随机噪声),就使用测量的加权平均来更新估计,其中给予具有更大确定性的测量更多权重。为此,概率求解器采用经受测量噪声的测量模型。测量模型将测量与状态估计联系起来。例如,测量模型将gnss测量与载具的状态联系起来。
11、过程噪声和测量噪声二者可由显示预测的状态和/或接收的测量的可能变化的可能性的概率密度函数(pdf)表示。概率求解器是递归的,并且可仅使用当前输入测量和先前估计的状态及其不确定性矩阵实时操作;不需要额外的过去信息,但如果期望也可使用。
12、一些实施方式基于这样的原理:卡尔曼滤波器可提供用于以概率方式搜索最优控制问题的解的框架。实际上,并非使卡尔曼滤波器在状态变量(例如,载具的状态)上进行参数化,卡尔曼滤波器可在控制输入(例如,载具的加速度值)上进行参数化。因此,卡尔曼滤波器的预测模型应该预测经受过程噪声的控制输入的值,以生成控制输入的预测值的pdf。这种预测模型的示例是恒等模型。另一示例是基于面向控制的模型进行这种预测。
13、这种在控制输入上进行参数化的修改的卡尔曼滤波器的测量模型应该将测量与控制输入的当前估计联系起来。此外,这种联系应该指示在最优控制问题的解的背景下从测量推导的受控输入与估计的控制输入之间的不匹配。
14、一些实施方式基于这样的认识:可通过利用预测的控制输入和装置操作的当前测量对装置的操作进行仿真来评估最优控制问题的成本函数。例如,该仿真可基于所控制的装置的数字孪生来执行,以估计在所评估的控制输入下装置操作的性能度量。针对成本函数评估仿真结果并映射在经受测量噪声的控制空间中。为此,一些实施方式的测量模型将装置操作的性能度量与经受测量噪声的控制输入联系起来,以估计控制输入的测量值的pdf。
15、此外,卡尔曼滤波器的校正步骤基于控制输入的测量值的pdf来更新控制输入的预测值的p本文档来自技高网...
【技术保护点】
1.一种用于基于反馈信号在不同控制步骤控制装置的操作的反馈控制器,所述反馈信号包括指示在所述不同控制步骤所述装置的状态的测量,所述反馈控制器包括:至少一个处理器;以及存储有指令的存储器,所述指令在由所述至少一个处理器执行时使得所述反馈控制器针对控制步骤:
2.根据权利要求1所述的反馈控制器,其中,所述预测模型是恒等模型。
3.根据权利要求1所述的反馈控制器,其中,所述预测模型由所述成本函数相对于所述控制输入的梯度给出。
4.根据权利要求1所述的反馈控制器,其中,对于针对各个所述控制步骤执行的迭代中的每次迭代,所述概率求解器还被配置为评估定义预测值的所述PDF的仿真试验的多个样本的所述成本函数。
5.根据权利要求4所述的反馈控制器,其中,为了从多个性能度量生成与所述控制输入相联系的所述仿真值的所述PDF,所述概率求解器还被配置为确定预测值的所述PDF的多个样本的评估的加权组合。
6.根据权利要求4所述的反馈控制器,其中,使用多个处理器并行评估预测值的所述PDF的多个样本的所述成本函数。
7.根据权利要求1所述的
8.根据权利要求1所述的反馈控制器,其中,所述概率求解器是卡尔曼滤波器。
9.根据权利要求1所述的反馈控制器,其中,所述概率求解器是执行所述控制输入的所述预测值的无梯度校正的无迹卡尔曼滤波器。
10.根据权利要求9所述的反馈控制器,其中,为了使用所述无梯度校正来更新所述预测值的所述PDF,所述无迹卡尔曼滤波器被配置为使用所述成本函数的评估来生成与所述控制输入相联系的所述仿真值的PDF。
11.根据权利要求9所述的反馈控制器,其中,所述无迹卡尔曼滤波器评估所述预测值的所述PDF的多个西格玛点的所述成本函数。
12.根据权利要求11所述的反馈控制器,其中,为了确定所述西格玛点,所述无迹卡尔曼滤波器被配置为基于预测值的所述PDF的预测的均值和预测值的所述PDF的协方差矩阵来生成所述西格玛点。
13.根据权利要求12所述的反馈控制器,其中,所述西格玛点是基于Cholesky分解来确定的。
14.一种用于基于反馈信号在不同控制步骤控制装置的操作的方法,所述反馈信号包括指示在所述不同控制步骤所述装置的状态的测量,所述方法包括以下步骤:
15.根据权利要求14所述的方法,其中,所述预测模型是恒等模型。
16.根据权利要求14所述的方法,其中,所述预测模型由所述成本函数相对于所述控制输入的梯度给出。
17.根据权利要求14所述的方法,其中,对于针对各个所述控制步骤执行的迭代中的每次迭代,所述概率求解器还被配置为评估定义预测值的所述PDF的仿真试验的多个样本的所述成本函数。
18.根据权利要求17所述的方法,其中,为了从多个性能度量生成与所述控制输入相联系的所述仿真值的所述PDF,所述概率求解器还被配置为确定预测值的所述PDF的多个样本的评估的加权组合。
19.根据权利要求14所述的方法,其中,所述终止条件基于所述控制输入的值的所述PDF与在先前迭代所述控制输入的值的PDF之间的相似度度量。
20.一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质上具体实现有程序,所述程序能够由处理器执行以用于执行用于基于反馈信号在不同控制步骤控制装置的操作的方法,所述反馈信号包括指示在所述不同控制步骤所述装置的状态的测量,所述方法包括以下步骤:
...【技术特征摘要】
【国外来华专利技术】
1.一种用于基于反馈信号在不同控制步骤控制装置的操作的反馈控制器,所述反馈信号包括指示在所述不同控制步骤所述装置的状态的测量,所述反馈控制器包括:至少一个处理器;以及存储有指令的存储器,所述指令在由所述至少一个处理器执行时使得所述反馈控制器针对控制步骤:
2.根据权利要求1所述的反馈控制器,其中,所述预测模型是恒等模型。
3.根据权利要求1所述的反馈控制器,其中,所述预测模型由所述成本函数相对于所述控制输入的梯度给出。
4.根据权利要求1所述的反馈控制器,其中,对于针对各个所述控制步骤执行的迭代中的每次迭代,所述概率求解器还被配置为评估定义预测值的所述pdf的仿真试验的多个样本的所述成本函数。
5.根据权利要求4所述的反馈控制器,其中,为了从多个性能度量生成与所述控制输入相联系的所述仿真值的所述pdf,所述概率求解器还被配置为确定预测值的所述pdf的多个样本的评估的加权组合。
6.根据权利要求4所述的反馈控制器,其中,使用多个处理器并行评估预测值的所述pdf的多个样本的所述成本函数。
7.根据权利要求1所述的反馈控制器,其中,所述终止条件基于所述控制输入的值的所述pdf与在先前迭代所述控制输入的值的pdf之间的相似度度量。
8.根据权利要求1所述的反馈控制器,其中,所述概率求解器是卡尔曼滤波器。
9.根据权利要求1所述的反馈控制器,其中,所述概率求解器是执行所述控制输入的所述预测值的无梯度校正的无迹卡尔曼滤波器。
10.根据权利要求9所述的反馈控制器,其中,为了使用所述无梯度校正来更新所述预测值的所述pdf,所述无迹卡尔曼滤波器被配置为使用所述成本函数的评估来生成与所述控制输入相联系的所述仿真值的pdf。
11.根据权...
【专利技术属性】
技术研发人员:M·门纳,S·迪卡拉诺,K·贝恩拓普,A·查克拉巴尔蒂,
申请(专利权)人:三菱电机株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。