当前位置: 首页 > 专利查询>湖南大学专利>正文

基于多模态特征提取与稠密预测的机器人抓取方法与系统技术方案

技术编号:36268544 阅读:63 留言:0更新日期:2023-01-07 10:09
本发明专利技术公开了基于多模态特征提取与稠密预测的机器人抓取方法与系统,获取场景彩色图像和深度图像,从深度图像中计算出场景三维点云以及不同尺度的自适应卷积感受野,根据场景三维点云得到表面法向量图像;构建多模态特征提取与稠密预测网络,并对场景彩色图像和表面法向量图像进行处理,得到每类物体预测的稠密三维姿态信息和三维位置信息,通过计算得到对应物体的三维姿态和三维位置,两者共同组成三维位姿,将三维位姿发送至机器人抓取系统,完成场景下对应物体的抓取任务。本发明专利技术方法融合多模态彩色与深度数据,特征提取中保留二维平面特性以及深度信息,结构简单、预测精度高,适合复杂场景的机器人抓取任务。合复杂场景的机器人抓取任务。合复杂场景的机器人抓取任务。

【技术实现步骤摘要】
基于多模态特征提取与稠密预测的机器人抓取方法与系统


[0001]本专利技术涉及机器人三维视觉、物体三维位姿估计与抓取应用领域,具体涉及基于多模态特征提取与稠密预测的机器人抓取方法与系统。

技术介绍

[0002]机器人抓取是工业自动化领域一个重要任务,用于替代人工完成产品生产中繁琐、重复的操作,如零部件上料、装配、分拣、搬运等。为了精确完成抓取任务,机器人必须利用其视觉系统从作业场景中识别出目标物体并准确估计其三维位姿,然后借助自身的运动控制系统执行抓取操作。通常,工业场景中的零部件种类多样、形状各异,表面纹理较差,场景光照不均,并且零部件摆放随意,给机器人的视觉识别与物体三维位姿估计带来巨大的挑战。
[0003]近年来,随着传感器技术发展,小型低成本的三维相机得到广泛应用。相比二维相机,可以提供额外的场景深度、物体表面几何纹理信息,增强场景图像信息,提高视觉算法目标识别与位姿估计精度。目前主要有两种处理三维图像方式,一是将场景深度图像作为一个额外通道与彩色图像三通道合并成4通道图像,然后进行特征提取,信息处理等;二是将彩色图像与深度图像转换成场景三维点云,利用点云数据处理方法来完成特征提取、目标识别等。相关处理算法上,传统方式通常采用模板匹配算法,从场景数据中搜索与目标物体预定义模板最佳匹配位置来识别物体并估计其位姿,模板的计算依赖人工设计,受噪声、光照、纹理特性影响较大,算法鲁棒性差。
[0004]近年来,得益于深度学习技术发展,基于卷积神经网络的图像处理方法得到广泛应用,效果提升显著。DenseFusion作为物体三维位姿估计方法中的引领者,通过二三维数据处理结合的方式,分别采用二维卷积网络处理彩色图像信息和点云卷积网络处理从深度图像转换的点云数据,然后对不同维度特征融合,性能提升显著。然而,图像数据从二维图像转换成序列化的点云过程中丢失了场景二维结构信息,影响特征提取,并且彩色、深度图像之间存在物理信息量化差异,简单的维度融合无法获得鲁棒特征。
[0005]因此,如何解决三维视觉下不同维度、特性图像之间的特征提取、信息融合,以及目标物体位姿参数回归模型的设计,满足机器人高精度抓取需求成为本领域技术人员亟需解决的问题。

技术实现思路

[0006]本专利技术的目的是提供基于多模态特征提取与稠密预测的机器人抓取方法与系统,其采用机器人三维视觉技术有效解决工业场景下弱纹理、复杂多样零部件的位姿估计需求。
[0007]针对以上技术问题,本专利技术提供基于多模态特征提取与稠密预测的机器人抓取方法,该方法包括:S1、获取机器人多类别物体抓取场景下的彩色图像和深度图像;
S2、从深度图像中计算得出场景三维点云以及不同尺度的自适应卷积感受野,根据场景三维点云得到表面法向量图像;S3、结合不同尺度的自适应卷积感受野构建多模态特征提取与稠密预测网络,将预设的训练集输入至网络进行训练,得到训练后的多模态特征提取与稠密预测网络,根据预设的损失函数计算网络的总损失值,并反向传播更新网络的网络参数,得到更新后的多模态特征提取与稠密预测网络;S4、通过更新后的多模态特征提取与稠密预测网络对场景彩色图像和表面法向量图像进行处理,得到每类物体预测的稠密三维姿态信息和稠密三维位置信息;S5、根据每类物体预测的稠密三维姿态信息,计算得到对应物体的三维姿态,根据每类物体预测的稠密三维位置信息,计算得到对应物体的三维位置,三维姿态和三维位置共同组成对应物体的三维位姿,将三维位姿发送至机器人抓取系统,完成场景下对应物体的抓取任务。
[0008]优选地,S3中的多态模特征提取与稠密预测网络包括多模态特征提取网络和三个回归分支网络,多模态特征提取网络用于从场景彩色图像和表面法向量图像中进行特征提取和特征融合,得到多模态特征,三个回归分支网络用于从多模态特征中分别预测逐像素目标物体的多类别语义信息、三维姿态信息和三维位置信息。
[0009]优选地,多模态特征提取网络包括第一卷积网络、第二卷积网络和一个多尺度特征融合模块,其中的第一卷积网络在不同尺度的自适应卷积感受野引导下从场景彩色图像中提取出多尺度彩色卷积特征,其中的第二卷积网络在不同尺度的自适应卷积感受野引导下从表面法向量图像中提取出多尺度法向量卷积特征,多尺度特征融合模块对多尺度彩色卷积特征和多尺度法向量卷积特征进行融合,得到多模态特征。
[0010]优选地,第一卷积网络和第二卷积网络分别以ResNet

18为主干网络,舍弃主干网络的第三层及后续卷积层,并用不同尺度的自适应深度卷积感受野替代网络原有的常规卷积感受野,多尺度特征融合模块包括第一子模块和第二子模块 ,第一子模块用于对不同尺度中的相同尺度的彩色卷积特征和法向量卷积特征进行多模态卷积特征融合,得到不同尺度的多模态特征,第二子模块采用特征金字塔结构对得到的不同尺度的多模态特征进行上采样和尺度信息融合,得到场景逐像素多模态特征。
[0011]优选地,三个回归分支网络分别为逐像素语义预测网络、逐像素三维姿态预测网络和逐像素三维位置预测网络,逐像素语义预测网络对输入的多模态特征进行密集逐像素语义信息预测,得到逐像素多类别语义信息,逐像素三维姿态预测网络对输入的多模态特征进行密集逐像素三维姿态预测,得到逐像素三维姿态信息,逐像素三维位置预测网络对输入的多模态特征进行密集逐像素三维位置预测,得到逐像素三维位置信息。
[0012]优选地,S2中从深度图像中计算得出场景三维点云,具体公式为:
式中,为三维点云坐标,、、、为相机内参,和为深度图像的坐标,为深度图像的深度;S2中从深度图像中计算得出不同尺度的自适应卷积感受野,具体公式为:式中,为像素对应的不同尺度的自适应深度卷积感受野,为像素对应的常规卷积感受野,为像素位置的偏置;S2中根据场景三维点云得到表面法向量图像,具体公式为:其中,式中,为表面法向量图像,为场景中所有三维点云,为点云数量,为维全向量。
[0013]优选地,S4中每类物体预测的稠密三维姿态信息,具体为:式中,为像素处的物体三维姿态,表示姿态,为像素处的物体三维姿态的四元数形式的值;S4中每类物体预测的稠密三维位置信息,具体为:其中,为像素处的物体三维位置,表示位置,为像素处的物体三维位置偏移,表示像素处对应物体的3D点距物体三维位置的单位化三维偏移。
[0014]优选地,S5中根据每类物体预测的稠密三维姿态信息,计算得到对应物体的三维姿态,具体公式为:其中,为类别obj物体的三维姿态,为类别obj物体对应的稠密预测数量;S5中根据每类物体预测的稠密三维位置信息,计算得到对应物体的三维位置,具体公式为:
式中,为类别obj物体的三维位置,为预测的稠密三维位置,为类别obj物体对应的稠密预测数量。
[0015]优选地,S3中预设的损失函数具体为:具体为:具体为:式中,为网络的总损失,、和分别为语义预测分支、三维姿态预测分支和三维位置预测分支的权重因子,为语义预测网络的损失函数,采用交叉熵损失函数,为三维姿态预测网络损失函数,为三维位置预测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多模态特征提取与稠密预测的机器人抓取方法,其特征在于,所述方法包括:S1、获取机器人多类别物体抓取场景下的彩色图像和深度图像;S2、从所述深度图像中计算得出场景三维点云以及不同尺度的自适应卷积感受野,根据所述场景三维点云得到表面法向量图像;S3、结合不同尺度的自适应卷积感受野构建多模态特征提取与稠密预测网络,将预设的训练集输入至所述网络进行训练,得到训练后的多模态特征提取与稠密预测网络,根据预设的损失函数计算所述网络的总损失值,并反向传播更新所述网络的网络参数,得到更新后的多模态特征提取与稠密预测网络;S4、通过所述更新后的多模态特征提取与稠密预测网络对所述场景彩色图像和所述表面法向量图像进行处理,得到每类物体预测的稠密三维姿态信息和稠密三维位置信息;S5、根据所述每类物体预测的稠密三维姿态信息,计算得到对应物体的三维姿态,根据所述每类物体预测的稠密三维位置信息,计算得到对应物体的三维位置,所述三维姿态和三维位置共同组成对应物体的三维位姿,将所述三维位姿发送至机器人抓取系统,完成场景下对应物体的抓取任务。2.如权利要求1所述的基于多模态特征提取与稠密预测的机器人抓取方法,其特征在于,所述S3中的多态模特征提取与稠密预测网络包括多模态特征提取网络和三个回归分支网络,所述多模态特征提取网络用于从所述场景彩色图像和所述表面法向量图像中进行特征提取和特征融合,得到多模态特征,所述三个回归分支网络用于从所述多模态特征中分别预测逐像素目标物体的多类别语义信息、三维姿态信息和三维位置信息。3.如权利要求2所述的基于多模态特征提取与稠密预测的机器人抓取方法,其特征在于,所述多模态特征提取网络包括第一卷积网络、第二卷积网络和一个多尺度特征融合模块,其中的第一卷积网络在不同尺度的自适应卷积感受野引导下从所述场景彩色图像中提取出多尺度彩色卷积特征,其中的第二卷积网络在不同尺度的自适应卷积感受野引导下从所述表面法向量图像中提取出多尺度法向量卷积特征,所述多尺度特征融合模块对所述多尺度彩色卷积特征和所述多尺度法向量卷积特征进行融合,得到多模态特征。4.如权利要求3所述的基于多模态特征提取与稠密预测的机器人抓取方法,其特征在于,所述第一卷积网络和第二卷积网络分别以ResNet

18为主干网络,舍弃所述主干网络的第三层及后续卷积层,并用不同尺度的自适应深度卷积感受野替代网络原有的常规卷积感受野,所述多尺度特征融合模块包括第一子模块和第二子模块 ,第一子模块用于对不同尺度中的相同尺度的彩色卷积特征和法向量卷积特征进行多模态卷积特征融合,得到不同尺度的多模态特征,第二子模块采用特征金字塔结构对得到的不同尺度的多模态特征进行上采样和尺度信息融合,得到场景逐像素多模态特征。5.如权利要求3所述的基于多模态特征提取与稠密预测的机器人抓取方法,其特征在于,所述三个回归分支网络分别为逐像素语义预测网络、逐像素三维姿态预测网络和逐像素三维位置预测网络,所述逐像素语义预测网络对输入的多模态特征进行密集逐像素语义信息预测,得到逐像素多...

【专利技术属性】
技术研发人员:袁小芳刘学兵朱青王耀南毛建旭冯明涛吴成中周显恩黄嘉男周嘉铭
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1