一种机械手视觉策略模型训练方法、操纵方法及系统技术方案

技术编号：42477628 阅读：4 留言：0更新日期：2024-08-21 12:59

本发明专利技术提供了一种机械手视觉策略模型训练方法、操纵方法及系统。机械手视觉策略模型训练方法包括：获取多个人手操纵物体视频；提取多条参考轨迹；强化学习训练基于状态的策略学习模型，在强化学习训练中，利用参考轨迹计算奖励函数；对基于状态的策略学习模型进行多次回滚，获得视觉训练数据，利用视觉训练数据对机械手视觉策略模型进行训练，在训练过程中，将初始三维场景点云作为机械手视觉策略模型的输入，机械手视觉策略模型输出规划控制信号，基于规划控制信号对应轨迹和回滚动作轨迹计算损失，根据损失调整机械手视觉策略模型的网络参数。本发明专利技术使机械手操纵更为自然，无需任何特权对象信息，增强了实际应用能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机械手控制，尤其涉及一种机械手视觉策略模型训练方法、操纵方法及系统。

技术介绍

1、近年来，深度学习(dl)和强化学习(rl)的进步已经促成了学习型算法在机械手控制领域的显著进展，例如机械手的旋转、解决魔方、以及像人类一样演奏钢琴等。然而，机械手训练强化学习策略在很大程度上依赖于复杂的奖励工程和大量的计算资源，可能导致出现高奖励的不自然行为。

2、为改善机械手动作不自然问题，越来越多的研究关注于利用人类视频学习熟练操纵技能，从人类视频中提取机械手和物体姿势，并利用这些数据通过示范增强的策略梯度(dapg)来加速强化学习。然而，由于提取的机械手和物体姿势存在噪声，该方法需要数百个人类视频来学习单个物体的操纵，仍然需要为不同任务进行奖励工程。此外，在机械手实际工作中还需要利用策略学习中的特权信息，例如已知的物体cad模型和真实物体姿势，这些特权信息在真实世界场景中从原始视觉传感器中获取是非常困难的，导致这些方法实际应用能力差。

技术实现思路

1、本专利技术旨在至少解决现有机械手操纵物体技术中存在的机械手动作不自然、需要依赖于复杂的奖励工程和大量的计算资源，以及在机械手实际工作需要利用策略学习中的特权信息，导致实际应用能力差的技术问题，提供一种机械手视觉策略模型训练方法、操纵方法及系统。

2、为了实现本专利技术的上述目的，根据本专利技术的第一个方面，本专利技术提供了一种机械手视觉策略模型训练方法，包括：获取多个人手操纵物体视频；基于多个人手操纵物体视

3、为了实现本专利技术的上述目的，根据本专利技术的第二个方面，本专利技术提供了一种机械手视觉策略操纵方法，包括：获取机械手和物体所在场景的当前三维场景点云，所述当前三维场景点云中包括机械手和物体的当前点云；将当前三维场景点云输入通过本专利技术第一方面所述的一种机械手视觉策略模型训练方法训练获得的机械手视觉策略模型，所述机械手视觉策略模型输出规划控制信号；机械手响应所述规划控制信号操纵物体。

4、为了实现本专利技术的上述目的，根据本专利技术的第三个方面，本专利技术提供了一种本专利技术第二方面所述方法的机械手控制系统，包括机械手、控制器和多个深度摄像头；所述多个深度摄像头用于采集机械手和物体所在场景的当前三维场景点云；所述控制器配置了机械手视觉策略模型，控制器分别与机械手和深度摄像头连接。

5、本专利技术从人手操纵物体视频中提取包括手部姿态和物体姿态的参考轨迹，虽然参考轨迹中存在噪声不能直接用于机械手控制，但它们提供了自然的手和物体交互的示例，将参考轨迹应用于基于状态的策略学习模型的强化学习训练的奖励函数计算中，这样能使机械手完成操纵物体任务的同时保持与人手姿势相似性，从而使机械手操纵更为自然，通过训练完成的基于状态的策略学习模型回滚来获取视觉训练数据，利用视觉训练数据对机械手视觉策略模型进行训练，无需任何特权对象信息，训练完成后的机械视觉策略模型，不需要输入物体状态，仅需输入包含机械手和物体的当前三维场景点云就能获得用于操纵物体的规划控制信号，增强了机械手视觉策略模型实际应用能力。

本文档来自技高网...

【技术保护点】

1.一种机械手视觉策略模型训练方法，其特征在于，包括：

2.如权利要求1所述的一种机械手视觉策略模型训练方法，其特征在于，所述基于多个人手操纵物体视频提取多条参考轨迹，包括：

3.如权利要求2所述的一种机械手视觉策略模型训练方法，其特征在于，所述获得每帧图像的语义分割结果，包括：

4.如权利要求3所述的一种机械手视觉策略模型训练方法，其特征在于，后向背景检测器包括依次连接的第一卷积层、第二卷积层、第三卷积层和全连接层。

5.如权利要求1-4之一所述的一种机械手视觉策略模型训练方法，其特征在于，所述强化学习训练基于状态的策略学习模型，包括：

6.如权利要求5所述的一种机械手视觉策略模型训练方法，其特征在于，所述第一奖励函数为：

7.如权利要求6所述的一种机械手视觉策略模型训练方法，其特征在于，所述第二奖励函数为：

8.如权利要求5或6或7所述的一种机械手视觉策略模型训练方法，其特征在于，在遍历参考轨迹执行强化学习训练之前，还包括参考轨迹增强步骤，包括：对参考轨迹中手部指尖位置、物体位置、物体方向三者中全部或部分进行插值。

9.一种机械手视觉策略操纵方法，其特征在于，包括：

10.一种基于权利要求9所述的一种机械手视觉策略操纵方法的机械手控制系统，其特征在于，包括机械手、控制器和多个深度摄像头；

...

【技术特征摘要】

1.一种机械手视觉策略模型训练方法，其特征在于，包括：

2.如权利要求1所述的一种机械手视觉策略模型训练方法，其特征在于，所述基于多个人手操纵物体视频提取多条参考轨迹，包括：

3.如权利要求2所述的一种机械手视觉策略模型训练方法，其特征在于，所述获得每帧图像的语义分割结果，包括：

5.如权利要求1-4之一所述的一种机械手视觉策略模型训练方法，其特征在于，所述强化学习训练基于状态的策略学习模型，包括：

6...

【专利技术属性】
技术研发人员：朱冬，宋雯，方向明，张建，唐国梅，胡小东，杨光夏，仲元红，
申请(专利权)人：七腾机器人有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人