一种基于Transformer模型的机械臂抓手位姿预测方法技术

技术编号：32785393 阅读：13 留言：0更新日期：2022-03-23 19:44

本发明专利技术公开了一种基于Transformer模型的机械臂抓手位姿预测方法，包括如下步骤：构建抓手位姿预测模型，所述模型包括Pointnet++模块、Transformer模块及预测模块；将场景点云输入Pointnet++模块中，对点云进行下采样，并提取场景中每一个点的几何特征；将下采样后的点云及几何特征输入Transformer模块，通过计算点云的全局特征和局部特征来获取点云特征；将点云特征输入预测模块对机械臂抓手的位姿信息进行预测。本发明专利技术将Transformer模型应用于机械臂抓手位姿预测技术领域，通过计算点云的全局特征和局部特征，并通过多头自注意力模块获取点云特征，提升了机械臂抓手位姿信息的预测性能和效率，增强了鲁棒性。增强了鲁棒性。增强了鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Transformer模型的机械臂抓手位姿预测方法

[0001]本专利技术涉及机械臂抓手位姿预测
，具体涉及一种基于Transformer模型的机械臂抓手位姿预测方法。

技术介绍

[0002]机械臂抓取一般分为两个步骤，即感知和规划。首先通过计算机来感知物体，获取抓取的物体信息，以及预测抓取物体的抓手位姿；接着根据预测出的位姿和机械臂的起始点，通过逆动力学的计算方式，规划出机械臂的运动路径，进而操控机械臂来进行物体的抓取。
[0003]关于机械臂抓手信息的预测，一直是计算机视觉领域的一个难点。2020年上海交通大学卢策吾团队在《GraspNet
‑
1Billion:A Large
‑
Scale Benchmark for General Object Grasping》文章中创建了一个超过10亿抓手的大型数据集GraspNet
‑
1Billion，并且还提出了一种端到端的抓手位姿预测模型，该模型将点云通过Pointnet++模块，获取下采样后的点云坐标以及点云特征，然后将其送到ApproachNet模块中预测抓手是否可抓取，接着再输入到OperationNet模块和ToleranceNet模块分别预测抓手的位姿以及抓手的鲁棒性，但预测性能和效率较低。
[0004]Transformer模型是2017年由Google学者提出的基于自注意力的神经网络，该模型一开始是用于自然语言处理领域。但近年来的研究表明，该模型在计算机视觉等领域都取得了...

【技术保护点】

【技术特征摘要】
1.基于Transformer模型的机械臂抓手位姿预测方法，其特征在于，包括以下步骤：构建抓手位姿预测模型，所述模型包括Pointnet++模块、Transformer模块及预测模块；将场景点云输入Pointnet++模块中，对点云进行下采样，并提取场景中每一个点的几何特征；将下采样后的点云及几何特征输入Transformer模块，通过计算点云的全局特征和局部特征来获取点云特征；将点云特征输入预测模块对机械臂抓手的位姿信息进行预测。2.根据权利要求1所述基于Transformer模型的机械臂抓手位姿预测方法，其特征在于，所述抓手位姿预测模型是基于GraspNet 1
‑
Billion数据集，使用Adam优化器在GPU上进行训练得到。3.根据权利要求1所述基于Transformer模型的机械臂抓手位姿预测方法，其特征在于，所述将场景点云输入Pointnet++模块中，对点云进行下采样，并提取场景中每一个点的几何特征，具体为：将场景点云输入Pointnet++模型中，使用最远点距离采样算法对输入的场景点云进行下采样N个点，得到点云坐标p＝{p1，p2，...，p
N
}；将下采样后的点云进行球采样，将p中的每一个点作为球心，在半径为r的球内获得(N，k
′
，3)维度的坐标信息，其中k
′
为在半径为r的球内获得的坐标数目；对于球采样获取的坐标信息，通过两层全连接层和最大池化层，输出(N，C)维度的几何特征f，其中C为每个点的特征维度。4.根据权利要求3所述基于Transformer模型的机械臂抓手位姿预测方法，其特征在于，所述通过计算点云的全局特征和局部特征来获取点云特征，具体为：将下采样后的点云及几何特征输入Transformer模块，对于输入的(N，3)维度的点云坐标p先经过Transformer模型中的一个卷积层，得到(N，C)维度的点云坐标编码，再与(N，C)维度的几何特征f进行拼接，通过一个全连接层，得到全局特征f
g
，公式为：f
g
＝MLP(Concat(f，PE(p)))其中，PE()表示卷积层，MLP()表示全连接层，Concat()表示拼接函数；将全局特征f
g
输入Transformer模型中多头自注意力模块，得到自注意力特征f
attn
，公式为：其中，W
q
为可学习的查询矩阵，W
k
为关键点矩阵，W
v
为值矩阵，d为全局特征的维度大小，Softmax()表示归一化指数函数；对于点云坐标p中的每个点，使用K最近邻算法获取距离最近的k个邻居节点，然后输入Transformer模型中的全连接层，再通过最大池化层，得到该点一个(N，C)维度的近邻特征；取不同的邻居节点个数k，重复s次，将获取的s个(N，C)维度的近邻特征拼接起来，获得一个(N，C
×
s)维度的局部特征f
l
，公式为：，公式为：
其中，Max()表示最大池化层；将自注意力特征f
attn
和局部特征f
l
拼接起来，通过全连接层后与几何特征f进行相加，得到维度为(N，2C)的点云特征f
o
，公式为：f
o
＝MLP(Concat(f
attn
，f
l
))+f。5.根据权利要求4所述基于Transformer模型的机械臂抓手位姿预测方法，其特征在于，所述机械臂抓手的位姿信息进行预测时，以点云坐标p的每一个点为中心，预测一个抓手位姿信息，共生成N个抓手位姿信息；所述抓手位姿信息包括抓手状态、抓手中心点、抓手旋转方向、抓手宽度、抓手深度以及抓手分数；所述抓手状态为布尔值，用于判断该抓手是否可抓取；所述抓手中心点即为抓手两指尖的中心点位置；所述抓手旋转方向定...

【专利技术属性】
技术研发人员：郑伟诗，李荣毅，刘志轩，陈自博，谢尚锦，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人