【技术实现步骤摘要】
一种基于Transformer模型的机械臂抓手位姿预测方法
[0001]本专利技术涉及机械臂抓手位姿预测
,具体涉及一种基于Transformer模型的机械臂抓手位姿预测方法。
技术介绍
[0002]机械臂抓取一般分为两个步骤,即感知和规划。首先通过计算机来感知物体,获取抓取的物体信息,以及预测抓取物体的抓手位姿;接着根据预测出的位姿和机械臂的起始点,通过逆动力学的计算方式,规划出机械臂的运动路径,进而操控机械臂来进行物体的抓取。
[0003]关于机械臂抓手信息的预测,一直是计算机视觉领域的一个难点。2020年上海交通大学卢策吾团队在《GraspNet
‑
1Billion:A Large
‑
Scale Benchmark for General Object Grasping》文章中创建了一个超过10亿抓手的大型数据集GraspNet
‑
1Billion,并且还提出了一种端到端的抓手位姿预测模型,该模型将点云通过Pointnet++模块,获取下采样后的点云坐标以及点云特征,然后将其送到ApproachNet模块中预测抓手是否可抓取,接着再输入到OperationNet模块和ToleranceNet模块分别预测抓手的位姿以及抓手的鲁棒性,但预测性能和效率较低。
[0004]Transformer模型是2017年由Google学者提出的基于自注意力的神经网络,该模型一开始是用于自然语言处理领域。但近年来的研究表明,该模型在计算机视觉等领域都取得了 ...
【技术保护点】
【技术特征摘要】
1.基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,包括以下步骤:构建抓手位姿预测模型,所述模型包括Pointnet++模块、Transformer模块及预测模块;将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征;将下采样后的点云及几何特征输入Transformer模块,通过计算点云的全局特征和局部特征来获取点云特征;将点云特征输入预测模块对机械臂抓手的位姿信息进行预测。2.根据权利要求1所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述抓手位姿预测模型是基于GraspNet 1
‑
Billion数据集,使用Adam优化器在GPU上进行训练得到。3.根据权利要求1所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征,具体为:将场景点云输入Pointnet++模型中,使用最远点距离采样算法对输入的场景点云进行下采样N个点,得到点云坐标p={p1,p2,...,p
N
};将下采样后的点云进行球采样,将p中的每一个点作为球心,在半径为r的球内获得(N,k
′
,3)维度的坐标信息,其中k
′
为在半径为r的球内获得的坐标数目;对于球采样获取的坐标信息,通过两层全连接层和最大池化层,输出(N,C)维度的几何特征f,其中C为每个点的特征维度。4.根据权利要求3所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述通过计算点云的全局特征和局部特征来获取点云特征,具体为:将下采样后的点云及几何特征输入Transformer模块,对于输入的(N,3)维度的点云坐标p先经过Transformer模型中的一个卷积层,得到(N,C)维度的点云坐标编码,再与(N,C)维度的几何特征f进行拼接,通过一个全连接层,得到全局特征f
g
,公式为:f
g
=MLP(Concat(f,PE(p)))其中,PE()表示卷积层,MLP()表示全连接层,Concat()表示拼接函数;将全局特征f
g
输入Transformer模型中多头自注意力模块,得到自注意力特征f
attn
,公式为:其中,W
q
为可学习的查询矩阵,W
k
为关键点矩阵,W
v
为值矩阵,d为全局特征的维度大小,Softmax()表示归一化指数函数;对于点云坐标p中的每个点,使用K最近邻算法获取距离最近的k个邻居节点,然后输入Transformer模型中的全连接层,再通过最大池化层,得到该点一个(N,C)维度的近邻特征;取不同的邻居节点个数k,重复s次,将获取的s个(N,C)维度的近邻特征拼接起来,获得一个(N,C
×
s)维度的局部特征f
l
,公式为:,公式为:
其中,Max()表示最大池化层;将自注意力特征f
attn
和局部特征f
l
拼接起来,通过全连接层后与几何特征f进行相加,得到维度为(N,2C)的点云特征f
o
,公式为:f
o
=MLP(Concat(f
attn
,f
l
))+f。5.根据权利要求4所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述机械臂抓手的位姿信息进行预测时,以点云坐标p的每一个点为中心,预测一个抓手位姿信息,共生成N个抓手位姿信息;所述抓手位姿信息包括抓手状态、抓手中心点、抓手旋转方向、抓手宽度、抓手深度以及抓手分数;所述抓手状态为布尔值,用于判断该抓手是否可抓取;所述抓手中心点即为抓手两指尖的中心点位置;所述抓手旋转方向定...
【专利技术属性】
技术研发人员:郑伟诗,李荣毅,刘志轩,陈自博,谢尚锦,
申请(专利权)人:中山大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。