基于多模态融合模仿学习的灵巧手自适应抓取方法技术

技术编号：43037511 阅读：8 留言：0更新日期：2024-10-18 17:41

本发明专利技术涉及一种基于多模态融合模仿学习的灵巧手自适应抓取方法，包括：执行多模态数据的采集，并构建出多模态数据集；其中，所述多模态数据集包括：与灵巧手抓取动作相对应的视觉图像、手指关节扭矩和手指关节角度；基于所述多模态数据集构建用于控制灵巧手的自适应抓取模型；针对抓取目标，所述自适应抓取模型输出供所述灵巧手执行的动作指令以自适应抓取所述抓取目标。本发明专利技术提出的灵巧手自适应抓取方法以视觉、手指关节角度、手指关节扭矩三种模态数据为依据，相比现有灵巧手抓取算法具有更高的成功率、更强的物体类型适应性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及灵巧手控制设计领域，尤其涉及一种基于多模态融合模仿学习的灵巧手自适应抓取方法。

技术介绍

1、仿人灵巧手具有极高的灵活性和类人结构特征，能够执行精细的操作，如工具处理和各种手部操作任务。在灵巧手所有接触丰富的任务中，可靠且通用的抓取任务仍未得到解决，尤其是在考虑到可变形物体的情况下。传统方法遇到了许多问题，如预测非结构化表面上的接触位置、非线性交互建模和手指抓取等，要获得确定性的解决方案具有挑战性。因此，强化学习和模仿学习方法在这一领域得到了广泛应用。

2、强化学习需要精心设计的奖励函数和与环境的广泛交互来提高性能。模仿学习需要收集大量的人类示范数据，并用这些数据训练模型。在这些方法中，物理仿真引擎被广泛使用。然而，在仿真环境中同时模拟灵巧手、可变形物体以及它们之间的非线性交互是非常困难的。当把在仿真环境中表现良好的策略移植到真实的机器人系统中时，仿真环境和真实环境之间的差异往往会导致性能大幅下降。与此同时，之前的一些工作（aloha、umi）已经验证了直接收集演示数据并训练机器人在真实世界中复制人类操作的可行性。

3、参照人类抓取行为的信息处理机制，人类在抓取前会用眼睛观察物体的位置、形状和大小，并根据已有知识估计其类型和硬度。在抓取过程中，人类会根据形变和触觉反馈调整手势。与人类的多模态感知和控制策略类似，灵巧手在操作过程中也需要整合来自多个来源的异构信息，以实现自适应控制。然而，有效融合异构模态数据仍面临巨大挑战。

技术实现思路

1、本专

2、为实现上述专利技术目的，本专利技术提供一种基于多模态融合模仿学习的灵巧手自适应抓取方法，包括以下步骤：

3、s1.执行多模态数据的采集，并构建出多模态数据集；其中，所述多模态数据集包括：与灵巧手抓取动作相对应的视觉图像、手指关节扭矩和手指关节角度；

4、s2.基于所述多模态数据集构建用于控制灵巧手的自适应抓取模型；其中包括：

5、s21.对所述多模态数据集进行特征提取，以获得多组特征向量，其中，多组所述特征向量包括：与所述视觉图像相对应的第一特征向量，与所述手指关节扭矩相对应的第二特征向量，与所述手指关节角度相对应的第三特征向量；

6、s22.将属于连续状态的多组所述特征向量进行多模态融合，以获得连续状态的多模态特征；

7、s23.将连续状态的所述多模态特征输入多层感知器获取灵巧手自适应抓取动作输出，以及，对所述多模态数据集进行特征提取的特征提取神经网络，用于进行多模态融合的多模态融合网络和所述多层感知器构成自适应抓取模型；

8、s3.针对抓取目标，所述自适应抓取模型输出供所述灵巧手执行的动作指令以自适应抓取所述抓取目标。

9、根据本专利技术的一个方面，步骤s1中，执行多模态数据的采集，并构建出多模态数据集的步骤中，所述手指关节扭矩包括：小指弯曲扭矩、无名指弯曲扭矩、中指弯曲扭矩、食指弯曲扭矩、拇指弯曲扭矩和拇指摆动扭矩；

10、所述手指关节角度包括：小指弯曲角度、无名指弯曲角度、中指弯曲角度、食指弯曲角度、拇指弯曲角度和拇指摆动角度。

11、根据本专利技术的一个方面，步骤s21中，对所述多模态数据集进行特征提取，以获得多组特征向量的步骤中，所述特征向量为 d维特征向量。

12、根据本专利技术的一个方面，步骤s21中，对所述多模态数据集进行特征提取，以获得多组特征向量的步骤中，包括：

13、s211.获取连续时刻的所述视觉图像并对所述视觉图像进行时间位置编码，基于时间位置编码的所述视觉图像进行特征提取，以获得所述第一特征向量；

14、s212.获取连续时刻的所述手指关节扭矩，采用one-hot编码对所述手指关节扭矩进行空间关系的归一化，并对归一化的所述手指关节扭矩进行时间位置编码，以及基于双层多层感知器将空间关系归一化且时间位置编码后的所述手指关节扭矩进行特征提取，以获得所述第二特征向量；

15、s213.获取连续时刻的所述手指关节角度，采用one-hot编码对所述手指关节角度进行空间关系的归一化，并对归一化的所述手指关节角度进行时间位置编码，以及基于双层多层感知器将空间关系归一化且时间位置编码后的所述手指关节角度进行特征提取，以获得所述第三特征向量。

16、根据本专利技术的一个方面，步骤s211中，对所述视觉图像进行时间位置编码的步骤中，基于所述视觉图像的采集时间以用于对所述视觉图像进行时间编码，以及基于正弦和余弦位置编码方式对所述视觉图像进行位置编码；

17、步骤s212中，对归一化的所述手指关节扭矩进行时间位置编码的步骤中，基于所述手指关节扭矩的采集时间以用于对所述手指关节扭矩进行时间编码，以及基于正弦和余弦位置编码方式对所述手指关节扭矩进行位置编码；

18、步骤s213中，对归一化的所述手指关节角度进行时间位置编码的步骤中，基于所述手指关节角度的采集时间以用于对所述手指关节角度进行时间编码，以及基于正弦和余弦位置编码方式对所述手指关节角度进行位置编码。

19、根据本专利技术的一个方面，步骤s22中，将属于连续状态的多组所述特征向量进行多模态融合，以获得多模态特征的步骤中，用于多模态融合的模态融合网络采用多头注意力机制构成，以将多组连续状态的所述特征向量在所述多头注意力机制的控制下生成具有连续状态的多模态特征。

20、根据本专利技术的一个方面，所述多头注意力机制表示为：

21、；

22、；

23、；

24、其中，表示注意力头的查询，表示注意力头的键，表示注意力头的值，表示所述第一特征向量、所述第二特征向量和所述第三特征向量的拼接矩阵，,表示注意力头的数量，为注意力头的编号；表示修改注意力机制中单个注意力头的查询、键和值对应的线性变换矩阵，和分别表示输入特征的数量和维度，是一个参数矩阵，其参数在所述自适应抓取模型训练中迭代更新。

25、根据本专利技术的一个方面，基于所述连续状态的多模态特征经过多层感知器获取灵巧手自适应抓取动作输出，并以对所述多模态数据集进行特征提取的特征提取神经网络，用于进行多模态融合的多模态融合网络和所述多层感知器构成自适应抓取模型的步骤中，基于损失函数以引导所述自适应抓取模型的生成，其中，所述损失函数表示为：

26、；

27、；

28、其中，表示角度损失函数，表示扭矩损失函数，表示手指关节角度，表示预测出的手指关节角度，表示手指关节扭矩，表示预测出的手指关节扭矩，表示手指关节角度的调整阈值，表示手指关节扭矩的调整阈值。

29、根据本专利技术的一种方案，本专利技术提出的灵巧手自适应抓取算法以视觉、手指关节角度、手指关节扭矩三种模态数据为依据，相比现有灵巧手抓取算法具有更高的成功率、更强的物体类型适应性，为后本文档来自技高网...

【技术保护点】

1.基于多模态融合模仿学习的灵巧手自适应抓取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的灵巧手自适应抓取方法，其特征在于，步骤S1中，执行多模态数据的采集，并构建出多模态数据集的步骤中，所述手指关节扭矩包括：小指弯曲扭矩、无名指弯曲扭矩、中指弯曲扭矩、食指弯曲扭矩、拇指弯曲扭矩和拇指摆动扭矩；

3.根据权利要求2所述的灵巧手自适应抓取方法，其特征在于，步骤S21中，对所述多模态数据集进行特征提取，以获得多组特征向量的步骤中，所述特征向量为D维特征向量。

4.根据权利要求3所述的灵巧手自适应抓取方法，其特征在于，步骤S21中，对所述多模态数据集进行特征提取，以获得多组特征向量的步骤中，包括：

5.根据权利要求4所述的灵巧手自适应抓取方法，其特征在于，步骤S211中，对所述视觉图像进行时间位置编码的步骤中，基于所述视觉图像的采集时间以用于对所述视觉图像进行时间编码，以及基于正弦和余弦位置编码方式对所述视觉图像进行位置编码；

6.根据权利要求5所述的灵巧手自适应抓取方法，其特征在于，步骤S22中，将属于连续状态的

7.根据权利要求6所述的灵巧手自适应抓取方法，其特征在于，所述多头注意力机制表示为：

8.根据权利要求7述的灵巧手自适应抓取方法，其特征在于，基于所述连续状态的多模态特征经过多层感知器获取灵巧手自适应抓取动作输出，并以对所述多模态数据集进行特征提取的特征提取神经网络，用于进行多模态融合的多模态融合网络和所述多层感知器构成自适应抓取模型的步骤中，基于损失函数以引导所述自适应抓取模型的生成，其中，所述损失函数表示为：

...

【技术特征摘要】

1.基于多模态融合模仿学习的灵巧手自适应抓取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的灵巧手自适应抓取方法，其特征在于，步骤s1中，执行多模态数据的采集，并构建出多模态数据集的步骤中，所述手指关节扭矩包括：小指弯曲扭矩、无名指弯曲扭矩、中指弯曲扭矩、食指弯曲扭矩、拇指弯曲扭矩和拇指摆动扭矩；

3.根据权利要求2所述的灵巧手自适应抓取方法，其特征在于，步骤s21中，对所述多模态数据集进行特征提取，以获得多组特征向量的步骤中，所述特征向量为d维特征向量。

4.根据权利要求3所述的灵巧手自适应抓取方法，其特征在于，步骤s21中，对所述多模态数据集进行特征提取，以获得多组特征向量的步骤中，包括：

5.根据权利要求4所述的灵巧手自适应抓取方法，其特征在于，步骤s211中，对所述视觉图像进行时间位置编码的步骤中，基于所述视觉图像的采集时间以用于对所述视觉图...

【专利技术属性】
技术研发人员：任君凯，李依鸿，郭策，张辉，卢惠民，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人