本发明专利技术公开了一种基于强化学习的六足机器人阻抗控制方法,包括如下步骤:建立带噪声参数的基于动态运动基元的六足机器人动力学系统;基于阻抗控制确定力矩控制表达式;确定变增益表的表式形式;确定控制系统的代价函数;确定基于路径积分学习算法的参数更新规则。本发明专利技术所述的控制方法最终的目标是通过路径积分学习算法学习并更新系统参数,使得代价函数的值尽量小,进而在有不确定力场干扰下机器人能不断调整足端运动的参考轨迹与控制器增益,得到良好的变阻抗控制效果,以期望形式运动到理想的目标点。
【技术实现步骤摘要】
一种基于强化学习的六足机器人阻抗控制方法
本专利技术涉及机器人控制与强化学习领域,具体涉及一种基于强化学习的六足机器人阻抗控制方法。
技术介绍
在六足机器人控制领域,控制目标通常为机器人足端根据给定的期望轨迹稳定运动,控制器可通过位置控制减小关节期望转角与实际转角的误差。但在非平坦的复杂地面环境下,六足机器人的足端可能会因为受力不均而导致不稳定,因此仅使用位置控制难以达到柔顺控制的目的。阻抗控制是六足机器人的柔顺控制中应用的最为广泛的方法之一,它通过改变末端执行器的阻尼与刚度使得位置与力均满足期望的动力学方程。但传统的阻抗控制存在如下不足之处:控制参数是固定不变的,难以应对非结构环境下的非线性时变干扰。因此,学术界就提出了变阻抗控制的方法,通过与环境的交互对控制参数进行动态的规划与调整。如何准确的自适应调整参数,成为六足机器人之智能控制的关键。现今,将人工智能技术与变阻抗控制结合起来,实现自适应调整参数,取得不错成果。例如,李正义等在论文《适应环境刚度、阻尼参数未知或变化的机器人阻抗控制方法》中提出了一种基于神经网络的阻抗控制算法,使机器人拥有了变阻抗能力,但神经网络方法存在以下不足:一是需要建立较为复杂网络模型;二是需要计算梯度,并完成向后传播,计算量较大。强化学习技术是一种新兴的智能学习算法,它设定一个称为回报函数的表达式,通过不断的试错和迭代,进而找到能够得到高回报的参数更新策略,无需建立被控对象的系统模型,也无需了解工作环境的先验知识,十分适合与机器人变阻抗控制结合起来。专利技术内容本专利技术要解决的技术问题是提供一种基于强化学习的六足机器人阻抗控制方法,以实现在不确定力场干扰下的六足机器人足端的自适应平滑运动。本专利技术至少通过如下技术方案之一实现。一种基于强化学习的六足机器人阻抗控制方法,包括步骤:S1、建立带噪声参数的基于动态运动基元的六足机器人动力学系统;S2、基于阻抗控制确定力矩控制表达式;S3、确定变增益表的表式形式;S4、确定控制系统的代价函数;S5、确定基于路径积分学习算法的参数更新规则。优选的,所述步骤S1中,带噪声参数的基于动态运动基元的六足机器人动力学系统表达式为:其中,xt为运动系统的位置,与则分别为对应的速度与加速度;x0是系统初始位置;g为目标点,即期望的运动位置;τ为缩放因子;α与β是典型系统的阻尼参数;θ是可调节的形状更新参数;εt,m是噪声参数;是非线性强迫函数;ωk(st)是基于高斯核函数的基函数;k为第k个基函数,K为基函数总数;st为相位变量,为对应的相位微分变量。优选的,所述εt,m从标准差为σ的高斯分布中随机采样。优选的,所述基于动态运动基元的六足机器人动力学系统描述从初始点x0到目标点g的运动过程中位置xt的变化情况:当st=1时表示整个运动系统在初始点位置,当st趋近于0时表示整个运动系统已到达目标位置g,并且通过调节τ的值控制st衰减速度,在xt收敛到g之前生成期望的运动轨迹,轨迹形状通过θ来决定。优选的,所述步骤S2中,基于阻抗控制原理,确定力矩控制表达式为:其中,u为力矩控制输入;qt为机器人关节的实际位置,为对应关节的实际速度;qr,t为机器人关节的参考位置,为对应关节的参考速度;KP为位置增益;KD为速度增益,且取C为比例因子常数;F为前馈项参数,用于补偿重力与惯性力,通过逆动力学方程求得。优选的,所述步骤S3中,由于运动系统的位置增益KP无特定目标点,增益不用表示为收敛于目标点的变换系统,且KD与KP相关,根据动态运动基元额外维度,直接对KP作函数逼近,得到增益表的表示形式为:其中,θK为扩展维度得到的可调节的增益表更新参数。优选的,所述步骤S4中,根据机器人控制系统三个关心的目标:位置误差、增益与加速度,确定代价函数为:其中,代价函数J分为三项,第一项中,d(xt)表示机器人足端从起点运动到终点的过程中偏离期望运动轨迹的位置误差,希望有较小的位值误差保证准确性;第二项中,表示第j个关节的增益,表示第j个关节的增益的最小值,表示机器人四个关节的增益表分别减去对应的最小值后进行求和,希望增益较小进而产生较小的控制力矩;第三项中,表示机器人足端加速度绝对值,不希望产生很大的加速度造成电机损坏。优选的,所述步骤S5中,使用强化学习中的路径积分学习算法对可调节的形状更新参数θ和θK进行更新学习,将θ和θK共同表示为参数向量Θ。优选的,确定参数更新规则表示为:其中,m为第m次更新次数;M为更新总次数;ti、tj分别为第i、j个时刻;tN为第N个时刻即最终时刻;τi为算法的代价变量;S(τi,m)路径积分学习算法的更新代价函数;为在tN时的最终代价;为在tj时刻的瞬时代价;R为常正定矩阵;为tj时刻的非线性强迫函数,为其转置项;是相对于所在空间的空间投影矩阵;P(τi,m)为概率变量;λ为指数积函数调节参数;为第k个高斯核函数;ΔΘ为参数更新变化量,为其ti时刻的值;[ΔΘ]k表示ΔΘ的第k个分量,为其ti时刻的值;Θnew为更新后的参数向量。优选的,所述参数更新规则中,对于参数向量Θ的一个更新周期内的过程为:(1)计算路径积分学习算法的更新代价函数S(τi,m);(2)根据S(τi,m)计算出概率变量P(τi,m);(3)将所有的P(τi,m)进行加权平均得到参数更新变化量ΔΘ;(4)用高斯核函数给ΔΘ中每个变量添加一个权重;(5)原参数向量加上参数更新变化量得到更新后的参数向量Θnew,完成一个周期的参数更新。对于该机器人系统,最终的理想目标是通过路径积分学习算法学习并更新参数向量Θ,即学习θ和θK,使得代价函数J的值尽量小,进而在有不确定力场干扰下机器人能通过不断调整足端运动参考轨迹xt与改变控制器增益KP,得到良好的变阻抗控制效果,以期望形式达到理想的目标点。与现有技术相比,本专利技术具有如下有益效果:(1)本专利技术采用强化学习方法并利用动态运动基元的额外维度思想,对阻抗控制参数进行更新,实现变阻抗控制,使得六足机器人能够应对非结构环境下的随机力场干扰,生成合适的参考轨迹,运动到指定目标点。(2)本专利技术采用了运动动态基元模型,其所建立的模型能够生成任意形状的平滑的运动轨迹,有利于机器人足端实现在非结构环境下的平顺运动。(3)本专利技术采用了基于无模型的强化学习算法,不需要建立复杂的被控对象的系统模型和环境的模型;同时所述的更新规则,不需要计算梯度,不需要对函数进行向后传播,计算复杂度较小。附图说明图1为本专利技术所述的一种基于强化学习的六足机器人阻抗控制方法的流程示意图;图2为本专利技术实施例的六足机器人单腿支链实验场景图;图3为本专利技术所述的基于强化学习的六足机器人阻抗控制方法的参数更新策略示意图。具体实施方式为了使本
的人本文档来自技高网...
【技术保护点】
1.一种基于强化学习的六足机器人阻抗控制方法,其特征在于,包括步骤:/nS1、建立带噪声参数的基于动态运动基元的六足机器人动力学系统;/nS2、基于阻抗控制确定力矩控制表达式;/nS3、确定变增益表的表式形式;/nS4、确定控制系统的代价函数;/nS5、确定基于路径积分学习算法的参数更新规则。/n
【技术特征摘要】
1.一种基于强化学习的六足机器人阻抗控制方法,其特征在于,包括步骤:
S1、建立带噪声参数的基于动态运动基元的六足机器人动力学系统;
S2、基于阻抗控制确定力矩控制表达式;
S3、确定变增益表的表式形式;
S4、确定控制系统的代价函数;
S5、确定基于路径积分学习算法的参数更新规则。
2.根据权利要求1所述的一种基于强化学习的六足机器人阻抗控制方法,其特征在于,所述步骤S1中,带噪声参数的基于动态运动基元的六足机器人动力学系统表达式为:
其中,xt为运动系统的位置,与则分别为对应的速度与加速度;x0是系统初始位置;g为目标点,即期望的运动位置;τ为缩放因子;α与β是典型系统的阻尼参数;θ是可调节的形状更新参数;εt,m是噪声参数;是非线性强迫函数;ωk(st)是基于高斯核函数的基函数;k为第k个基函数,K为基函数总数;st为相位变量,为对应的相位微分变量。
3.根据权利要求2所述的一种基于强化学习的六足机器人阻抗控制方法,其特征在于,所述εt,m从标准差为σ的高斯分布中随机采样。
4.根据权利要求3所述的一种基于强化学习的六足机器人阻抗控制方法,其特征在于,所述基于动态运动基元的六足机器人动力学系统描述从初始点x0到目标点g的运动过程中位置xt的变化情况:当st=1时表示整个运动系统在初始点位置,当st趋近于0时表示整个运动系统已到达目标位置g,并且通过调节τ的值控制st衰减速度,在xt收敛到g之前生成期望的运动轨迹,轨迹形状通过θ来决定。
5.根据权利要求4所述的一种基于强化学习的六足机器人阻抗控制方法,其特征在于,所述步骤S2中,基于阻抗控制原理,确定力矩控制表达式为:
其中,u为力矩控制输入;qt为机器人关节的实际位置,为对应关节的实际速度;qr,t为机器人关节的参考位置,为对应关节的参考速度;KP为位置增益;KD为速度增益,且取C为比例因子常数;F为前馈项参数,用于补偿重力与惯性力,通过逆动力学方程求得。
6.根据权利要求5所述的一种基于强化学习的六足机器人阻抗控制方法,其特征在于,所述步骤S3中,由于运动系统的位置增益KP无特定目标点,增益不用表示为收敛于目标点的变换系统,且KD与KP相关,根据动态运动基元额外维度,直接对KP作函数逼近,得到增...
【专利技术属性】
技术研发人员:周翔,魏武,高勇,王栋梁,余秋达,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。