一种基于RGBD图像和语义分割的残差拟合抓取检测网络制造技术

技术编号:38671096 阅读:11 留言:0更新日期:2023-09-02 22:49
本发明专利技术公开了一种基于RGBD图像和语义分割的残差拟合抓取检测网络,包括物体语义检测模块、物体姿态拟合模块和空间抓取生成模块,将深度相机采集的RGB图像经数据处理后输入经过数据集训练的物体语义检测模块得到物体语义分割热图;将预测得到的物体语义分割热图输入物体姿态拟合模块,通过最小外接有向矩形拟合出物体形态,计算得到物体的姿态;将计算得到的物体姿态以及深度相机采集的深度图像输入空间抓取生成模块,生成可行的六自由度抓取姿态;根据生成的抓取姿态,抓取系统的执行机构完成对场景中物体的抓取。本发明专利技术采用上述的一种基于RGBD图像和语义分割的残差拟合抓取检测网络,在提高检测效果和效率的同时增强了对数据集的包容性。对数据集的包容性。对数据集的包容性。

【技术实现步骤摘要】
一种基于RGBD图像和语义分割的残差拟合抓取检测网络


[0001]本专利技术涉及深度学习、图像处理及机器人自动化抓取
,尤其是涉及一种基于RGBD图像和语义分割的残差拟合抓取检测网络。

技术介绍

[0002]抓取是机器人与环境发生交互的重要方式,广泛应用于物流分拣、医疗服务、汽车生产、水果采摘等领域,具有广泛的研究价值和应用潜力。抓取检测是机器人实现自动抓取的前提,是决定抓取成功与否的关键。
[0003]传统的抓取分析方法,分析计算量大,且需要提前已知抓取物体的参数、抓取工具的属性,不利于推广至新的物体。随着机器视觉、传感技术及人工智能的快速发展,数据驱动的抓取检测方法得到广泛的研究和应用。典型的抓取检测方法有二维平面抓取检测方法和六自由度抓取检测方法。二维平面抓取检测方法通过向网络输入图像得到由抓取矩形表示的二维平面抓取,这种方法目前已经取得了良好的评估结果,然而,二维平面抓取只能实现平面内的抓取,抓取姿态受限不灵活,此外,大部分二维平面抓取检测研究以仅包含一个物体的数据图像训练网络,其训练后的网络将不适用于多物体的杂乱场景的抓取检测。六自由度抓取检测方法能够实现三维空间的抓取,抓取方式灵活,适用于杂乱复杂的抓取场景。然而,六自由度抓取检测方法通常以三维点云作为输入,点云的稳定性低,且极易受到光照的影响,此外点云忽略了物体的颜色信息,因而六自由度抓取检测方法的鲁棒性较低,且运行效率通常低于二维平面抓取。因此,开发一种以图像作为输入,并且能够预测出灵活的抓取姿态的抓取检测方法至关重要。
[0004]此外,现有的数据驱动的抓取检测方法通常依赖于数据集中标注的抓取标签。而现有的抓取检测数据集,通常存在场景中抓取物品数量少、背景纯净、不针对于特定的应用情境,因此用这些数据集训练得到的检测网络通常并不能够应用于实际的抓取环境。而重新构建抓取数据集时,抓取参数的标注将是非常耗时且高成本的工作,因此,开发一种不依赖于标注了抓取标签的数据集的数据驱动抓取检测方法将成为一种迫切需求。

技术实现思路

[0005]本专利技术的目的是提供一种基于RGBD图像和语义分割的残差拟合抓取检测网络,在提高检测效果和效率的同时增强了对数据集的包容性。
[0006]为实现上述目的,本专利技术提供了一种基于RGBD图像和语义分割的残差拟合抓取检测网络,包括物体语义检测模块、物体姿态拟合模块和空间抓取生成模块。
[0007]所述网络的应用方法包括以下步骤:
[0008]步骤1、对GraspNet

1Billion数据集中的RGB图像进行预处理;
[0009]步骤2、搭建残差拟合抓取检测网络;
[0010]步骤3、使用处理后的图像数据训练残差拟合抓取检测网络的物体语义检测模块;
[0011]步骤4、搭建包括深度相机、抓取场景及抓取执行器的抓取系统;
[0012]步骤5、将抓取系统中深度相机采集的RGB图像输入完成训练的物体语义检测模块,得到物体语义分割热图;
[0013]步骤6、将预测得到的物体语义分割热图输入残差拟合抓取检测网络的物体姿态拟合模块,得到物体的位姿;
[0014]步骤7、将拟合计算得到物体的位姿及深度相机采集的深度图像输入空间抓取生成模块,得到六自由度抓取位姿;
[0015]步骤8、根据生成的六自由度抓取位姿,指导抓取系统中的执行机构抓取场景中的物体。
[0016]优选的,所述物体语义检测模块是基于U

Net网络进行改进的具有编码解码结构的语义分割网络,包括:
[0017]下采样模块,由2层卷积核为3
×
3的卷积层、一层ReLU激活层、一层批标准化层和一层池化核为2
×
2的池化层组成;
[0018]上采样模块,由2层卷积核为3
×
3的卷积层、一层ReLU激活层、一层批标准化层和一层卷积核为2
×
2的反卷积层组成;
[0019]递归残差卷积模块,为具有残差结构的分支结构,主路包含两个并联的包含卷积层和激活层的递归模块,支路是一条跳连线,能够避免梯度消失,增强特征提取能力,其表达式为:
[0020][0021]其中,t表示时间步,k表示第k个递归残差卷积模块,是第t个时间步的网络输出,表示卷积层输出结果和递归卷积层的输出结果,表示卷积层和递归卷积层的权重系数,x
k
,x
k+1
表示当前递归残差卷积模块的输入和下一个递归残差卷积模块的输入,b
i
是偏置项;
[0022]递归残差上采样卷积模块,在递归残差卷积模块的基础上将卷积层替换为了反卷积层。
[0023]优选的,所述物体姿态拟合模块是利用OpenCV中的minAreaRect函数实现用最小外接有向矩形框包络物体,进而计算得出最小外接有向矩形框的二维中心坐标值、边长及其长边与水平方向的夹角,并将最小外接有向矩形框作为包络物体的近似位姿,由[u,v,w,h,θ]五维参数表示,其中(u,v)表示物体的二维中心点坐标,w,h表示物体的宽度和长度,θ表示物体的旋转角度。
[0024]优选的,所述空间抓取生成模块是指在已知物体的位姿和给定场景深度图的情形下,自动生成可行的六自由度抓取姿态,抓取姿态用[P,R,w
G
]表示,其中是三维空间的位置坐标,是三维空间的旋转矩阵,w
G
是指夹持器的开口宽度;
[0025]将过物体中心点且平行于物体长边的中轴线称为物体的长边,将过物体中心点且平行于物体短边的中轴线称为物体的短边,抓取姿态的生成策略由下式表示:
[0026]首先,生成一系列二维抓取点:
[0027][0028]其中k1,k2是指沿着物体的长边和短边方向分别生成的抓取的数量,是指第i个沿着物体长边生成的抓取,是指第j个沿着物体短边生成的抓取,Threshold是物体的长边和短边的差值的阈值;
[0029]然后,通过深度图像的深度信息及相机的内参,将二维抓取点转化为三维抓取点:
[0030][0031]其中,z
depth
是二维抓取点(x,y)对应于深度图中的深度值,(c
x
,c
y
,f
x
,f
y
)是相机的内参参数;
[0032]接着,通过物体的旋转角度及随机旋转角度噪声,生成与抓取点对应的三维空间下的旋转矩阵:
[0033][0034]φ=arctan(

cot(θ))
[0035]其中,是第i个沿着物体长边的旋转矩阵和第j个沿着物体短边的旋转矩阵,α,β,γ是绕着空间坐标轴的X、Y、Z轴的随机旋转角度,分别在10度,20度和20度范围内随机取值,为沿着物体短边的旋转角度,可根据物体的旋转角度θ计算得到;
[0036]最后,根据物体的宽度和长度,生成对应的夹持器的开口宽度,其中λ是物体尺寸与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于RGBD图像和语义分割的残差拟合抓取检测网络,其特征在于,包括物体语义检测模块、物体姿态拟合模块和空间抓取生成模块。所述网络的应用方法包括以下步骤:步骤1、对GraspNet

1Billion数据集中的RGB图像进行预处理;步骤2、搭建残差拟合抓取检测网络;步骤3、使用处理后的图像数据训练残差拟合抓取检测网络的物体语义检测模块;步骤4、搭建包括深度相机、抓取场景及抓取执行器的抓取系统;步骤5、将抓取系统中深度相机采集的RGB图像输入完成训练的物体语义检测模块,得到物体语义分割热图;步骤6、将预测得到的物体语义分割热图输入残差拟合抓取检测网络的物体姿态拟合模块,得到物体的位姿;步骤7、将拟合计算得到物体的位姿及深度相机采集的深度图像输入空间抓取生成模块,得到六自由度抓取位姿;步骤8、根据生成的六自由度抓取位姿,指导抓取系统中的执行机构抓取场景中的物体。2.根据权利要求1所述的一种基于RGBD图像和语义分割的残差拟合抓取检测网络,其特征在于,所述物体语义检测模块是基于U

Net网络进行改进的具有编码解码结构的语义分割网络,包括:下采样模块,由2层卷积核为3
×
3的卷积层、一层ReLU激活层、一层批标准化层和一层池化核为2
×
2的池化层组成;上采样模块,由2层卷积核为3
×
3的卷积层、一层ReLU激活层、一层批标准化层和一层卷积核为2
×
2的反卷积层组成;递归残差卷积模块,为具有残差结构的分支结构,主路包含两个并联的包含卷积层和激活层的递归模块,支路是一条跳连线,能够避免梯度消失,增强特征提取能力,其表达式为:其中,t表示时间步,k表示第k个递归残差卷积模块,是第t个时间步的网络输出,表示卷积层的输出结果和递归卷积层的输出结果,表示卷积层和递归卷积层的权重系数,x
k
,x
k+1
表示当前递归残差卷积模块的输入和下一个递归残差卷积模块的输入,b
i
是偏置项;递归残差上采样卷积模块,在递归残差卷积模块的基础上将卷积层替换为了反卷积层。3.根据权利要求1所述的一种基于RGBD图像和语义分割的残差拟合抓取检测网络,其特征在于,所述物体姿态拟合模块是利用OpenCV中的minAreaRect函数实现用最小外接有向矩形框包络物体,进而计算得出最小外接有向矩形框的二维中心坐标值、边长及其长边与水平方向的夹角,并将最小外接有向矩形框作为包络物体的近似位姿,由[u,v,w,h,θ]五
维参数表示,其中(u,v)表示物体的二维中心点坐标,w,h表示物体的宽度和长度,θ表示物体的旋转角度。4.根据权利要求1所述的一种基于RGBD图像和语义分割的残差拟合抓取检测网络,其特征在于,所述空间抓取生成模块是指在已知物体的位姿和给定场景深度图的情形下,自动生成可行的六自由度抓取姿态,抓取姿态用[P,R,w
G
...

【专利技术属性】
技术研发人员:张向燕张勤俭李海源沈勇王柯涵王勇
申请(专利权)人:北京邮电大学北京大学口腔医学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1