基于深度强化学习的四足机器人适应性步态自主生成方法技术

技术编号：29488015 阅读：39 留言：0更新日期：2021-07-30 18:59

本发明专利技术公开了基于深度强化学习的四足机器人适应性步态自主生成方法，包括步骤1)定义四足机器人运动控制特征属性、奖励函数和评价指标，明确动作空间和状态空间；2)在不同环境模型中使用基于PPO算法训练模型参数，得到适应不同环境的四足机器人步态；3)利用评价指标评价对得到的四足机器人步态进行评估。本发明专利技术解决传统四足机器人运动控制需要手动指定步态、手动根据环境不同指定不同运动控制参数等问题，建立四足机器人步态自主生成训练库，在仿真中实现四足机器人鲁棒性强、控制性能好的步态自主涌现，使强化学习算法应用在四足机器人运动控制上。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的四足机器人适应性步态自主生成方法
本专利技术涉及机器人运动控制领域，具体是指一种四足机器人环境适应性运动控制步态的自主生成方法。
技术介绍
随着机器人技术的不断发展，步行机器人的应用领域越来越广。双足机器人控制难度较高，六足及多足机器人制作难度较大，因此四足机器人由于其优势成为了足式步行机器人的研究重点。四足机器人利用孤立的地面支撑而不是轮式机器人所需的连续地面支撑；在非平整的复杂吸顶中可以以稳定的不行方式而非接触式的行进方式避障；可以以跨步的方式跨过粗糙路面等。四足机器人由于其结构特性使其能够快速穿梭于崎岖不平的地面，这使得四足机器人尤其适用于搜救、侦察、野外运输等任务。自然界中大多数在自然地形中能够高速移动并灵活转向的哺乳动物都具有四足移动机构的配置，根据仿生学原理就可以构建四足机器人的运动控制策略。然而，不同任务中四足机器人执行移动任务的环境复杂多变，单纯的人为根据仿生学原理构建的四足机器人运动控制方法难以应用于四足机器人运动控制中。复杂四足机器人的运动控制系统使非线性的多输入多输出不稳定系统，具有时变性和间歇动态性。目前四足机器人的步态运动大多数是基于步态的几何位置轨迹规划、关节位置控制的规划的控制策略。而对机器人进行单纯的集合位置或关节控制，会因为惯性、机器人状态不稳定等原因导致机器人失稳，同时，人工根据仿生学原理定义的四足机器人步态只能适应规定地形，不具备环境鲁棒性的同时，也不是环境中的最优控制步态。相较于传统的运动控制，使用强化学习的运动控制策略生成方法具有无模型、环境...

【技术保护点】
1.基于深度强化学习的四足机器人适应性步态自主生成方法，其特征在于：包括以下步骤：/n步骤1：利用Pybullet物理引擎构建四足机器人快速仿真环境，包括四足机器人物理模型和物理属性；根据四足机器人需要执行行走任务的不同环境对环境的物理模型和物理属性进行建模，并通过可视化的方式进行显示；/n步骤2：在仿真环境中，制定奖励函数，使用PPO算法在不同地形环境中优化四足机器人运动控制器，在仿真环境中，实现控制策略的自主生成；/n步骤3：通过在不同环境、根据速度最优、能耗最优、末端控制力最优三种不同评价指标设定不同奖赏函数权重，在仿真中得到四足机器人适应性步态，根据不同的评价指标评价得到的四足机器人步态；/n

【技术特征摘要】
1.基于深度强化学习的四足机器人适应性步态自主生成方法，其特征在于：包括以下步骤：
步骤1：利用Pybullet物理引擎构建四足机器人快速仿真环境，包括四足机器人物理模型和物理属性；根据四足机器人需要执行行走任务的不同环境对环境的物理模型和物理属性进行建模，并通过可视化的方式进行显示；
步骤2：在仿真环境中，制定奖励函数，使用PPO算法在不同地形环境中优化四足机器人运动控制器，在仿真环境中，实现控制策略的自主生成；
步骤3：通过在不同环境、根据速度最优、能耗最优、末端控制力最优三种不同评价指标设定不同奖赏函数权重，在仿真中得到四足机器人适应性步态，根据不同的评价指标评价得到的四足机器人步态；

2.根据权利要求1所述的基于深度强化学习的四足机器人适应性步态自主生成方法，其特征在于：步骤1中，包括以下步骤：
步骤1.1：构建可视化的四足机器人模型。根据四足机器人结构特性，各关节重量、转动惯量、摩擦力系数物理属性，使用SolidWorks构建四足机器人模型，并导入Pybullet物理引擎中；
步骤1.2：构建环境模型。根据环境的摩擦力系数、阻尼比和地面刚度，由平面、20°上坡、20°下坡这三个典型地形及他们的拼接地形构建相应的urdf格式地面模型并导入Pybullet物理引擎中；得到四足机器人和环境的模型之后，根据四足机器人适应性步态生成目标，构建基于强化学习的四足机器人步态自主生成框架。

3.根据权利要求1所述的基于深度强化学习的四足机器人适应性步态自主生成方法，其特征在于：步骤2中，包括以下步骤：
步骤2.1：设计深度强化学习PPO算法所使用的奖励函数R：
R＝λ0*(x1-x0)+λ1*(y1-y0)+λ2*(z1-z0)+λ3*E

其中，λi(i＝0,1,2,3)表示奖励函数各部分所占的权重，通过调节λi的相对大小来控制各个指标的相对重要程度，λi的相对大小不同即可以使四足机器人生成评价指标不同的适应性步态。x1，y1，z1表示当前四足机器人的三维坐标值，x0，y0，z0表示前一时刻的坐标值，取当前的变化量作为奖励函数的指标；E表示四足机器人当前时刻消耗的能量，作为奖励函数的一部分，使用八个电机的当前转速和输出转矩乘积的和来表示。
步骤2.2：使用强化学习优化四足机器人腿部的关节角度：
设计强化学习框架需要的动作空间和状态空间。不对四足机器...

【专利技术属性】
技术研发人员：胡标，邵士博，曹政才，邵琦，李群智，马超，
申请(专利权)人：北京化工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人