当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于Transformer模型的机械臂抓手位姿预测方法技术

技术编号:32785393 阅读:13 留言:0更新日期:2022-03-23 19:44
本发明专利技术公开了一种基于Transformer模型的机械臂抓手位姿预测方法,包括如下步骤:构建抓手位姿预测模型,所述模型包括Pointnet++模块、Transformer模块及预测模块;将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征;将下采样后的点云及几何特征输入Transformer模块,通过计算点云的全局特征和局部特征来获取点云特征;将点云特征输入预测模块对机械臂抓手的位姿信息进行预测。本发明专利技术将Transformer模型应用于机械臂抓手位姿预测技术领域,通过计算点云的全局特征和局部特征,并通过多头自注意力模块获取点云特征,提升了机械臂抓手位姿信息的预测性能和效率,增强了鲁棒性。增强了鲁棒性。增强了鲁棒性。

【技术实现步骤摘要】
一种基于Transformer模型的机械臂抓手位姿预测方法


[0001]本专利技术涉及机械臂抓手位姿预测
,具体涉及一种基于Transformer模型的机械臂抓手位姿预测方法。

技术介绍

[0002]机械臂抓取一般分为两个步骤,即感知和规划。首先通过计算机来感知物体,获取抓取的物体信息,以及预测抓取物体的抓手位姿;接着根据预测出的位姿和机械臂的起始点,通过逆动力学的计算方式,规划出机械臂的运动路径,进而操控机械臂来进行物体的抓取。
[0003]关于机械臂抓手信息的预测,一直是计算机视觉领域的一个难点。2020年上海交通大学卢策吾团队在《GraspNet

1Billion:A Large

Scale Benchmark for General Object Grasping》文章中创建了一个超过10亿抓手的大型数据集GraspNet

1Billion,并且还提出了一种端到端的抓手位姿预测模型,该模型将点云通过Pointnet++模块,获取下采样后的点云坐标以及点云特征,然后将其送到ApproachNet模块中预测抓手是否可抓取,接着再输入到OperationNet模块和ToleranceNet模块分别预测抓手的位姿以及抓手的鲁棒性,但预测性能和效率较低。
[0004]Transformer模型是2017年由Google学者提出的基于自注意力的神经网络,该模型一开始是用于自然语言处理领域。但近年来的研究表明,该模型在计算机视觉等领域都取得了不错的效果,与传统的CNN相比,Transformer可以同时从相互关系中提取出更重要的信息,其中Transformer在3D点云的也有了相应的应用。2020年底清华大学胡事民团队在《PCT:PointCloud Transformer》文章中提出了PCT(PointCloud Transformer)模型,将Transformer网络应用在了点云上,将点云通过四层的自注意力层获得特征编码,再将其应用在分类以及分割任务上;同时,牛津大学的ZhaoHengshuang等学者在《PointTransformer》文章中提出了PT(PointTransformer)模型,他们的模型采用的是U型网络的Transformer,将点云进行下采样得到特征编码,再进行上采样来进行分类和分割任务;但还没有将其应用在机械臂抓取的视觉领域。

技术实现思路

[0005]本专利技术的目的是针对现有技术的不足,提供了一种基于Transformer模型的机械臂抓手位姿预测方法,通过Pointnet++模块对点云进行下采样并提取场景中每个点的几何特征,再输入Transformer模块中,提取点云的局部特征和全局特征,经过多头自注意力模块获取点云特征,最后根据点云特征在预测模块中实现了对机械臂抓手位姿信息的预测,提升了机械臂抓手位姿信息预测的性能和效率。
[0006]本专利技术的目的可以通过如下技术方案实现:
[0007]本专利技术提供了一种基于Transformer模型的机械臂抓手位姿预测方法,包括以下步骤:
[0008]构建抓手位姿预测模型,所述模型包括Pointnet++模块、Transformer模块及预测模块;
[0009]将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征;
[0010]将下采样后的点云及几何特征输入Transformer模块,通过计算点云的全局特征和局部特征来获取点云特征;
[0011]将点云特征输入预测模块对机械臂抓手的位姿信息进行预测。
[0012]作为优选的技术方案,所述抓手位姿预测模型是基于GraspNet 1

Billion数据集,使用Adam优化器在GPU上进行训练得到。
[0013]作为优选的技术方案,所述将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征,具体为:
[0014]将场景点云输入Pointnet++模型中,使用最远点距离采样算法对输入的场景点云进行下采样N个点,得到点云坐标p={p1,p2,

,p
N
};
[0015]将下采样后的点云进行球采样,将p中的每一个点作为球心,在半径为r的球内获得(N,k

,3)维度的坐标信息,其中k

为在半径为r的球内获得的坐标数目;对于球采样获取的坐标信息,通过两层全连接层和最大池化层,输出(N,C)维度的几何特征f,其中C为每个点的特征维度。
[0016]作为优选的技术方案,所述通过计算点云的全局特征和局部特征来获取点云特征,具体为:
[0017]将下采样后的点云及几何特征输入Transformer模块,对于输入的(N,3)维度的点云坐标p先经过Transformer模型中的一个卷积层,得到(N,C)维度的点云坐标编码,再与(N,C)维度的几何特征f进行拼接,通过一个全连接层,得到全局特征f
g
,公式为:
[0018]f
g
=MLP(Concat(f,PE(p)))
[0019]其中,PE()表示卷积层,MLP()表示全连接层,Concat()表示拼接函数;
[0020]将全局特征f
g
输入Transformer模型中多头自注意力模块,得到自注意力特征f
attn
,公式为:
[0021][0022]其中,W
q
为可学习的查询矩阵,W
k
为关键点矩阵,W
v
为值矩阵,d为全局特征的维度大小,Softmax()表示归一化指数函数;
[0023]对于点云坐标p中的每个点,使用K最近邻算法获取距离最近的k个邻居节点,然后输入Transformer模型中的全连接层,再通过最大池化层,得到该点一个(N,C)维度的近邻特征;取不同的邻居节点个数k,重复s次,将获取的s个(N,C)维度的近邻特征拼接起来,获得一个(N,C
×
s)维度的局部特征f
l
,公式为:
[0024][0025][0026]其中,Max()表示最大池化层;
[0027]将自注意力特征f
attn
和局部特征f
l
拼接起来,通过全连接层后与几何特征f进行相加,得到维度为(N,2C)的点云特征f
o
,公式为:
[0028]f
o
=MLP(Concat(f
attn
,f
l
))+f。
[0029]作为优选的技术方案,所述机械臂抓手的位姿信息进行预测时,以点云坐标p的每一个点为中心,预测一个抓手位姿信息,共生成N个抓手位姿信息;
[0030]所述抓手位姿信息包括抓手状态、抓手中心点、抓手旋转方向、抓手宽度、抓手深度以及抓手本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,包括以下步骤:构建抓手位姿预测模型,所述模型包括Pointnet++模块、Transformer模块及预测模块;将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征;将下采样后的点云及几何特征输入Transformer模块,通过计算点云的全局特征和局部特征来获取点云特征;将点云特征输入预测模块对机械臂抓手的位姿信息进行预测。2.根据权利要求1所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述抓手位姿预测模型是基于GraspNet 1

Billion数据集,使用Adam优化器在GPU上进行训练得到。3.根据权利要求1所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述将场景点云输入Pointnet++模块中,对点云进行下采样,并提取场景中每一个点的几何特征,具体为:将场景点云输入Pointnet++模型中,使用最远点距离采样算法对输入的场景点云进行下采样N个点,得到点云坐标p={p1,p2,...,p
N
};将下采样后的点云进行球采样,将p中的每一个点作为球心,在半径为r的球内获得(N,k

,3)维度的坐标信息,其中k

为在半径为r的球内获得的坐标数目;对于球采样获取的坐标信息,通过两层全连接层和最大池化层,输出(N,C)维度的几何特征f,其中C为每个点的特征维度。4.根据权利要求3所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述通过计算点云的全局特征和局部特征来获取点云特征,具体为:将下采样后的点云及几何特征输入Transformer模块,对于输入的(N,3)维度的点云坐标p先经过Transformer模型中的一个卷积层,得到(N,C)维度的点云坐标编码,再与(N,C)维度的几何特征f进行拼接,通过一个全连接层,得到全局特征f
g
,公式为:f
g
=MLP(Concat(f,PE(p)))其中,PE()表示卷积层,MLP()表示全连接层,Concat()表示拼接函数;将全局特征f
g
输入Transformer模型中多头自注意力模块,得到自注意力特征f
attn
,公式为:其中,W
q
为可学习的查询矩阵,W
k
为关键点矩阵,W
v
为值矩阵,d为全局特征的维度大小,Softmax()表示归一化指数函数;对于点云坐标p中的每个点,使用K最近邻算法获取距离最近的k个邻居节点,然后输入Transformer模型中的全连接层,再通过最大池化层,得到该点一个(N,C)维度的近邻特征;取不同的邻居节点个数k,重复s次,将获取的s个(N,C)维度的近邻特征拼接起来,获得一个(N,C
×
s)维度的局部特征f
l
,公式为:,公式为:
其中,Max()表示最大池化层;将自注意力特征f
attn
和局部特征f
l
拼接起来,通过全连接层后与几何特征f进行相加,得到维度为(N,2C)的点云特征f
o
,公式为:f
o
=MLP(Concat(f
attn
,f
l
))+f。5.根据权利要求4所述基于Transformer模型的机械臂抓手位姿预测方法,其特征在于,所述机械臂抓手的位姿信息进行预测时,以点云坐标p的每一个点为中心,预测一个抓手位姿信息,共生成N个抓手位姿信息;所述抓手位姿信息包括抓手状态、抓手中心点、抓手旋转方向、抓手宽度、抓手深度以及抓手分数;所述抓手状态为布尔值,用于判断该抓手是否可抓取;所述抓手中心点即为抓手两指尖的中心点位置;所述抓手旋转方向定...

【专利技术属性】
技术研发人员:郑伟诗李荣毅刘志轩陈自博谢尚锦
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1