一种基于带感知深度强化学习的四足机器人运动控制方法技术

技术编号：44730251 阅读：10 留言：0更新日期：2025-03-21 17:54

本发明专利技术公开了一种基于带感知深度强化学习的四足机器人运动控制方法，将四足机器人速度跟踪优化目标改进为点到点的距离最小化优化目标，并与三维环境感知网络结合；三维环境感知网络使用多层、多分辨率的环境扫描信息作为特权信息输入到教师策略网络，根据基于位置的多目标奖励机制计算损失，对教师策略网络进行优化；使用四足机器人机载的深度信息作为学生网络的输入，使用模仿学习的方式训练自适应模块和学生网络；根据四足机器人在九种不同的参数化地形中的表现，计算地形完成分数，根据所得分数提升地形难度或降低地形难度。上述方法具有更强的运动能力，能使四足机器人在各种困难地形中完成跑酷越障任务，且计算复杂度低、受误差影响小。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器人控制，尤其涉及一种基于带感知深度强化学习的四足机器人运动控制方法。

技术介绍

1、使四足机器人拥有像动物一样的运动能力是机器人学中一个巨大的挑战，传统控制方法依赖于事先定义的假设和模型简化来实现计算复杂的优化轨迹，但是繁重的计算量、环境的不确定性以及传感器的飘逸限制了此类传统方法在困难地形跑酷场景中的表现。

2、深度强化学习通过将难以建模的动力学建模成一个马尔科夫决策过程，并从不断的尝试中学习最优策略，广泛应用于足式机器人的运动控制。深度强化学习通过定义一个速度跟踪目标计算策略的损失，由此使用梯度更新深度神经网络。然而事先定义的目标速度使策略失去了自主性，例如通过周围环境和障碍自动调节速度的方向和大小。神经网络同样也被广泛利用于图像处理来应对复杂、高维的像素数据，例如目标检测和图像生成等应用。通过卷积神经网络从图像中选取落足点交由控制器追踪，可以使机器人越过带夹缝的地面，使用三维重建网络可以从部分点云中重建出地面的完整信息，输入策略网络进行感知越障。但上述方法受限于感知能力与计算负载之间的平衡，仍然无法很好的解决四足机器人跑酷越障问题。

技术实现思路

1、本专利技术的目的是提供一种基于带感知深度强化学习的四足机器人运动控制方法，该方法具有更强的运动能力，能使四足机器人在各种困难地形中完成跑酷越障任务，且计算复杂度低、受误差影响小。

2、本专利技术的目的是通过以下技术方案实现的：

3、一种基于带感知深度强化学习的四足机器人运动控制方法，所述方法包括：

4、步骤1、将四足机器人速度跟踪优化目标改进为点到点的距离最小化优化目标，并与三维环境感知网络结合，提升四足机器人的跑酷越障能力；

5、步骤2、所述三维环境感知网络使用多层、多分辨率的环境扫描信息作为特权信息输入到教师策略网络，根据基于位置的多目标奖励机制计算损失，对教师策略网络进行优化；

6、步骤3、所述三维环境感知网络使用四足机器人机载的深度信息作为学生网络的输入，使用模仿学习的方式训练自适应模块和学生网络，能使四足机器人仅使用机载摄像头对环境进行精确感知；

7、步骤4、根据四足机器人在九种不同的参数化地形中的表现，计算地形完成分数，根据所得分数提升地形难度或降低地形难度，实现对四足机器人的运动控制。

8、由上述本专利技术提供的技术方案可以看出，上述方法具有更强的运动能力，能使四足机器人在各种困难地形中完成跑酷越障任务，且计算复杂度低、受误差影响小。

本文档来自技高网...

【技术保护点】

1.一种基于带感知深度强化学习的四足机器人运动控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述基于带感知深度强化学习的四足机器人运动控制方法，其特征在于，在步骤2中，在仿真环境中，首先扫描获取教师策略网络的观测数据，包括完整机器人状态，地面扫描点，上方采样点和环境属性；下标t代表在第t个仿真时间步的信息；

3.根据权利要求1所述基于带感知深度强化学习的四足机器人运动控制方法，其特征在于，在步骤3中，

4.根据权利要求1所述基于带感知深度强化学习的四足机器人运动控制方法，其特征在于，在步骤4中，

【技术特征摘要】

1.一种基于带感知深度强化学习的四足机器人运动控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述基于带感知深度强化学习的四足机器人运动控制方法，其特征在于，在步骤2中，在仿真环境中，首先扫描获取教师策略网络的观测数据，包括完整机器人状态，地面扫描点，上...

【专利技术属性】
技术研发人员：阚震，钱唐钰，秦家虎，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人