一种基于强化学习的六足机器人阻抗控制方法技术

技术编号：28308952 阅读：39 留言：0更新日期：2021-05-04 12:46

本发明专利技术公开了一种基于强化学习的六足机器人阻抗控制方法，包括如下步骤：建立带噪声参数的基于动态运动基元的六足机器人动力学系统；基于阻抗控制确定力矩控制表达式；确定变增益表的表式形式；确定控制系统的代价函数；确定基于路径积分学习算法的参数更新规则。本发明专利技术所述的控制方法最终的目标是通过路径积分学习算法学习并更新系统参数，使得代价函数的值尽量小，进而在有不确定力场干扰下机器人能不断调整足端运动的参考轨迹与控制器增益，得到良好的变阻抗控制效果，以期望形式运动到理想的目标点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的六足机器人阻抗控制方法
本专利技术涉及机器人控制与强化学习领域，具体涉及一种基于强化学习的六足机器人阻抗控制方法。
技术介绍
在六足机器人控制领域，控制目标通常为机器人足端根据给定的期望轨迹稳定运动，控制器可通过位置控制减小关节期望转角与实际转角的误差。但在非平坦的复杂地面环境下，六足机器人的足端可能会因为受力不均而导致不稳定，因此仅使用位置控制难以达到柔顺控制的目的。阻抗控制是六足机器人的柔顺控制中应用的最为广泛的方法之一，它通过改变末端执行器的阻尼与刚度使得位置与力均满足期望的动力学方程。但传统的阻抗控制存在如下不足之处：控制参数是固定不变的，难以应对非结构环境下的非线性时变干扰。因此，学术界就提出了变阻抗控制的方法，通过与环境的交互对控制参数进行动态的规划与调整。如何准确的自适应调整参数，成为六足机器人之智能控制的关键。现今，将人工智能技术与变阻抗控制结合起来，实现自适应调整参数，取得不错成果。例如，李正义等在论文《适应环境刚度、阻尼参数未知或变化的机器人阻抗控制方法》中提出了一种基于神经网络的阻抗控制算法，使机器人拥有了变阻抗能力，但神经网络方法存在以下不足：一是需要建立较为复杂网络模型；二是需要计算梯度，并完成向后传播，计算量较大。强化学习技术是一种新兴的智能学习算法，它设定一个称为回报函数的表达式，通过不断的试错和迭代，进而找到能够得到高回报的参数更新策略，无需建立被控对象的系统模型，也无需了解工作环境的先验知识，十分适合与机器人变阻抗控制结合起来。专利技...

【技术保护点】
1.一种基于强化学习的六足机器人阻抗控制方法，其特征在于，包括步骤：/nS1、建立带噪声参数的基于动态运动基元的六足机器人动力学系统；/nS2、基于阻抗控制确定力矩控制表达式；/nS3、确定变增益表的表式形式；/nS4、确定控制系统的代价函数；/nS5、确定基于路径积分学习算法的参数更新规则。/n

【技术特征摘要】
1.一种基于强化学习的六足机器人阻抗控制方法，其特征在于，包括步骤：
S1、建立带噪声参数的基于动态运动基元的六足机器人动力学系统；
S2、基于阻抗控制确定力矩控制表达式；
S3、确定变增益表的表式形式；
S4、确定控制系统的代价函数；
S5、确定基于路径积分学习算法的参数更新规则。

2.根据权利要求1所述的一种基于强化学习的六足机器人阻抗控制方法，其特征在于，所述步骤S1中，带噪声参数的基于动态运动基元的六足机器人动力学系统表达式为：

其中，xt为运动系统的位置，与则分别为对应的速度与加速度；x0是系统初始位置；g为目标点，即期望的运动位置；τ为缩放因子；α与β是典型系统的阻尼参数；θ是可调节的形状更新参数；εt,m是噪声参数；是非线性强迫函数；ωk(st)是基于高斯核函数的基函数；k为第k个基函数，K为基函数总数；st为相位变量，为对应的相位微分变量。

3.根据权利要求2所述的一种基于强化学习的六足机器人阻抗控制方法，其特征在于，所述εt,m从标准差为σ的高斯分布中随机采样。

4.根据权利要求3所述的一种基于强化学习的六足机器人阻抗控制方法，其特征在于，所述基于动态运动基元的六足机器人动力学系统描述从初始点x0到目标点g的运动过程中位置xt的变化情况：当st＝1时表示整个运动系统在初始点位置，当st趋近于0时表示整个运动系统已到达目标位置g，并且通过调节τ的值控制st衰减速度，在xt收敛到g之前生成期望的运动轨迹，轨迹形状通过θ来决定。

5.根据权利要求4所述的一种基于强化学习的六足机器人阻抗控制方法，其特征在于，所述步骤S2中，基于阻抗控制原理，确定力矩控制表达式为：

其中，u为力矩控制输入；qt为机器人关节的实际位置，为对应关节的实际速度；qr,t为机器人关节的参考位置，为对应关节的参考速度；KP为位置增益；KD为速度增益，且取C为比例因子常数；F为前馈项参数，用于补偿重力与惯性力，通过逆动力学方程求得。

6.根据权利要求5所述的一种基于强化学习的六足机器人阻抗控制方法，其特征在于，所述步骤S3中，由于运动系统的位置增益KP无特定目标点，增益不用表示为收敛于目标点的变换系统，且KD与KP相关，根据动态运动基元额外维度，直接对KP作函数逼近，得到增...

【专利技术属性】
技术研发人员：周翔，魏武，高勇，王栋梁，余秋达，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人