一种模块化机器人系统的非零和博弈神经-最优控制方法技术方案

技术编号:29212490 阅读:27 留言:0更新日期:2021-07-10 00:49
本发明专利技术提出了一种模块化机器人系统的非零和博弈神经

【技术实现步骤摘要】
一种模块化机器人系统的非零和博弈神经

最优控制方法


[0001]本专利技术涉及不确定环境下补偿

评判结构的模块化机器人非零和博弈神经

最优控制方法,属于机器人控制算法领域。

技术介绍

[0002]模块化机器人由电源、处理系统、执行器和传感器等模块组成。这些模块组合满足不同构形的标准机电接口来适应复杂工作环境的各种任务要求,基于上述优点,模块化机器人经常应用于不确定环境中,例如人机交互、外界碰撞等。此外,在不确定环境下,模块化机器人需要兼顾控制精度和功耗的合适控制系统。
[0003]最优控制作为控制理论的重要组成部分,其研究的核心问题是对于一个给定的被控系统,选择合适的控制策略使系统的某些性能指标达到最优。对于模块化机器人系统,获取其最优控制策略则需要求解耦合的哈密顿

雅克比方程,而该方程是一类非线性偏微分方程,难以用解析方法求得最优解。自适应动态规划方法是一种解决非线性系统最优控制问题的强有力工具,在自适应动态规划系统中,神经网络被设计用来近似性能指标函数并估计哈密顿

雅克比方程的解。
[0004]对于不确定环境下的非线性系统,尤其是模块化机器人系统,通过设计补偿

评判结构的非零和神经

最优控制,并结合通过求解耦合的哈密顿

雅克比方程得到非零和最优控制律,运用到动力学模型,获得关节位置变量。

技术实现思路

[0005]本专利技术为了解决传统的模块化机器人控制方法中存在不确定环境情况下,机器人关节的跟踪性能较低的问题,提出一种性能较好的非零和最优控制方法,以实现不确定环境下模块化机器人系统的高精度非零和最优控制。将模块化机器人系统的动力学模型描述为一个相互耦合的子系统的合成,通过求解耦合的HJ方程,结合补偿结构以及近似性能指标函数对位置和速度跟踪性能及各关节模块的控制力矩进行优化,并最终实现完备的非零和神经

最优控制。
[0006]本专利技术解决技术问题的方案是:
[0007]一种模块化机器人系统的非零和博弈神经

最优控制方法,其特征是,首先建立模块化机器人系统动力学模型,通过对模块化机器人关节子系统间的耦合交联项的分析,然后构建代价函数与耦合的HJ方程,接下来采用神经网络对代价函数进行近似,从而得到本专利技术所提出的补偿

评判结构的非零和博弈神经

最优控制律。
[0008]该方法包括如下步骤:
[0009]step1,建立模块化机器人系统动力学模型如下:
[0010][0011]上式中,下标i代表第i个模块,I
mi
是转动轴的转动惯量,γ
i
是齿轮传动比,θ
i
,和
分别是关节位置,速度和加速度,是关节摩擦项,是关节子系统间的关节子系统间的耦合交联项,τ
is
是关节输出转矩,τ
i
是电机输出转矩;
[0012]令g
i
=(I
im
γ
i
)
‑1∈R
+
,定义状态向量控制输入u
i
=τ
i
。重新改写式(1)中第i个子系统的动力学模型可以得到:
[0013][0014]其中,表示动力学模型中的已精确建模和估计的部分,是模型不确定项,包括摩擦模型误差和关节子系统间的耦合力矩交联项以及不确定环境项。定义系统的状态向量控制输入u
i
=τ
i

[0015]step2,构建代价函数为:
[0016][0017]其中,s(e(τ))定义为为滤波误差,且e=x1‑
x
d
和分别代表关节的位置和速度跟踪误差,x
d
与分别是期望的位置和速度,α
e
为确定常数,U
i
(s,u1,...,u
n
)为效用函数,和是确定的正常数矩阵;
[0018]定义哈密顿方程如下:
[0019][0020]其中,为代价函数J
i
(s)的梯度,为计算辅助项,为期望的加速度;
[0021]定义如下最优代价函数:
[0022][0023]已知在最优控制设计下,J
i*
(s,u1,...,u
n
)满足如下耦合的HJ方程:
[0024][0025]令满足式(14)的分散最优控制律定义为如下形式:
[0026][0027]其中,u
i1
是鲁棒控制律,是最优补偿控制律;
[0028]定义鲁棒控制律u
i1
为:
[0029]u
i1
=u
i1C
+u
i1F
ꢀꢀꢀ
(16)
[0030]其中u
i1C
,u
i1F
分别为鲁棒常数与变量补偿的控制律,其中u
i1C
可以定义为:
[0031][0032]其中上式控制律的参数可以由已经测量和已知项得到。
[0033]u
i1F
=u
i1Fp
+Y
i
(x
i2
)(u
i1FYa
+u
i1FYb
)
ꢀꢀꢀ
(18)
[0034]其中u
i1Fp
,u
i1FYa
,u
i1FYb
可以定义为:
[0035][0036]其中ε
iFp

iFrc

iFrm

iFvm
代表为已知的函数阈值,并为正常数;
[0037]step3,通过神经网络来近似代价函数J
i
(s),定义如下:
[0038][0039]其中,W
ic
是理想的权值向量,φ
ic
(s)是激活函数,ε
ic
是神经网络的逼近误差,J
i
(s)的梯度通过神经网络近似为:
[0040][0041]定义激活函数φ
ic
(s)为:
[0042][0043]由于理想权值W
ic
是未知的,所以用近似权值建立一个评价神经网络来估计代价函数:
[0044][0045]根据哈密顿方程(12)和HJ方程(14),哈密顿方程可以进一步改写为:
[0046][0047]其中,e
icH
是由神经网络逼近误差而得到的残差;
[0048]以同样的方式近似哈密顿方程,可得:
[0049][0050]定义误差方程为权值估计误差为结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模块化机器人系统的非零和博弈神经

最优控制方法,其特征是,首先建立模块化机器人系统动力学模型,通过对模块化机器人关节子系统间的耦合交联项的分析,然后构建代价函数与耦合的HJ方程,最后采用神经网络对代价函数进行近似,从而得到本发明所提出的补偿

评判结构的非零和博弈神经

最优控制律。2.根据权利要求1所述的一种模块化机器人系统的非零和博弈神经

最优控制方法,该方法包括以下步骤:Step1,建立模块化机器人系统动力学模型如下:上式中,下标i代表第i个模块,I
mi
是转动轴的转动惯量,γ
i
是齿轮传动比,θ
i
,和分别是关节位置,速度和加速度,是关节摩擦项,是关节子系统间的耦合交联项,τ
is
是关节输出转矩,τ
i
是电机输出转矩;令g
i
=(I
im
γ
i
)
‑1∈R
+
,定义状态向量控制输入u
i
=τ
i
;重新改写式(1)中第i个子系统的动力学模型可以得到:其中,表示动力学模型中的已精确建模和估计的部分,是模型不确定项,包括摩擦模型误差和关节子系统间的耦合力矩交联项以及不确定环境项;定义系统的状态向量控制输入u
i
=τ
i
;Step2,构建代价函数为:其中,s(e(τ))定义为为滤波误差,且e=x1‑
x
d
和分别代表关节的位置和速度跟踪误差,x
d
与分别是期望的位置和速度,α
e
为确定常数,U
i
(s,u1,...,u
n
)为效用函数,和是确定的正常数矩阵;定义哈密顿方程如下:其中,为代价函数J
i
(s)的梯度,为计算辅助项,为期望的加速度;定义如下最优代价函数:
已知在最优控制设计下,J
i*
(s,u1,...,u
n
)满足如下耦合的HJ方程:令满足式(14)的分散最优控制律定义为如下形式:其中,u
i1
是鲁棒控制律,是最优补偿控制律。定义鲁棒控制律u
i1
为:u
i1
=...

【专利技术属性】
技术研发人员:张振国刘克平董博朱新野马冰王悦西杨宏韬李岩
申请(专利权)人:长春工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1