一种堆叠场景的物体6D姿态估计方法及系统技术方案

技术编号：39430900 阅读：28 留言：0更新日期：2023-11-19 16:15

本发明专利技术公开了一种堆叠场景的物体6D姿态估计方法及系统，方法包括：获取包含检测目标的目标场景的深度图像和检测目标的模型数据；利用二维神经检测网络，对深度图像进行分析，获得检测目标的二维边界框；根据模型数据，采样模型点云并确定第一逐点特征；获取目标场景的场景点集，进而通过多层感知器编码，并结合二维边界框得到第二逐点特征；进而通过预设数量的神经元和平均池化的多层感知器生成全局特征；基于全局特征生成第一点云；根据全局特征和第一逐点特征生成第二点云；基于第一点云和第二点云抽取点对，通过匹配定向点对生成的局部特征确定对象姿态。本发明专利技术能够准确进行堆叠场景的物体6D姿态估计，可广泛应用于视觉数据处理技术领域。据处理技术领域。据处理技术领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种堆叠场景的物体6D姿态估计方法及系统

[0001]本专利技术涉及视觉数据处理
，尤其是一种堆叠场景的物体6D姿态估计方法及系统。

技术介绍

[0002]在物体识别和机器人视觉领域中，6D姿态估计是一个对于工业应用中很重的一个领域。6D姿态估计是指从通过相机获取图像估计物体的6D姿态(平移和旋转)。6D姿态估计在机器人操作、自动驾驶、AR/VR等应用中都有广泛的应用。然而，传统的6D姿态估计方法往往受到环境光照、遮挡和物体几何形状变化等因素的影响，导致精度不高。此外，传统的方法需要进行复杂的手动标注和数据处理，使得其应用场景受到限制。
[0003]目前的姿态估计方法虽然取得了一些较好的结果，但研究主要关注稀疏物体或只有轻微遮挡的物体的场景，对于工业场景中存在遮挡严重以及堆叠的情况的研究较少，所以对于工业场景下的堆叠物体6D位姿估计是目前所必要的一个研究方向。

技术实现思路

[0004]有鉴于此，本专利技术实施例提供一种堆叠场景的物体6D姿态估计方法及系统，能够准确进行堆叠场景的物体6D姿态估计。
[0005]一方面，本专利技术的实施例提供了一种堆叠场景的物体6D姿态估计方法，包括：
[0006]获取包含检测目标的目标场景的深度图像和检测目标的模型数据；
[0007]利用二维神经检测网络，对深度图像进行分析，获得检测目标的二维边界框；其中，二维神经检测网络基于预训练的特征金字塔网络构建得到；
[0008]根据模型数据，采样模型点云并确定第一逐点特征；/>[0009]获取目标场景的场景点集，进而通过多层感知器编码，并结合二维边界框得到第二逐点特征；进而通过预设数量的神经元和平均池化的多层感知器生成全局特征；
[0010]基于全局特征生成第一点云；根据全局特征和第一逐点特征生成第二点云；
[0011]基于第一点云和第二点云抽取点对，通过匹配定向点对生成的局部特征确定对象姿态。
[0012]可选地，利用二维神经检测网络，对深度图像进行分析，获得检测目标的二维边界框，包括：
[0013]利用特征金字塔网络对深度图像进行处理，得到特征图；其中，特征图包括若干特征向量；
[0014]基于特征向量进行分类处理和回归处理，获得检测目标的二维边界框。
[0015]可选地，基于特征向量进行分类处理和回归处理，获得检测目标的二维边界框，包括：
[0016]基于特征向量进行分类处理和回归处理，获得深度图像的对象实例，进而确定正样本和负样本；
[0017]对多个关联的正样本进行非最大值抑制处理，获得检测目标的二维边界框。
[0018]可选地，获得深度图像的对象实例，进而确定正样本和负样本，包括：
[0019]基于对象实例确定正样本；
[0020]基于不包括对象实例的背景确定负样本。
[0021]可选地，基于对象实例确定正样本，包括：
[0022]基于对象实例，从深度图像裁剪获得图像块；
[0023]根据图像块，通过固定步长进行均匀采样，得到二维位置的种子集；
[0024]基于种子集，对图像块中每个像素进行距离变换编码，获得每个像素与种子集中目标种子的距离图值；其中，某个像素的目标种子表征种子集中与该像素距离最近的种子；
[0025]基于距离图值确定图像块中各单元格的可见性得分；
[0026]其中，可见性得分的表达式为：
[0027][0028]式中，V(c)表示单元格c的可见性得分，表示单元格c所包含的所有像素的距离图值的平均值，F表示图像块中所有单元格的集合，表示特征图中单元格的距离图值的最大平均值；
[0029]将可见性得分大于预设阈值的单元格作为正样本。
[0030]可选地，基于特征向量进行分类处理和回归处理，获得检测目标的二维边界框，包括：
[0031]基于特征向量进行分类处理和回归处理，获得检测目标的若干预测框；
[0032]对各个预测框进行置信度预测，得到各个预测框的置信度值；
[0033]根据置信度值，从预测框中获得检测目标的二维边界框。
[0034]可选地，根据模型数据，采样模型点云并确定第一逐点特征，包括：
[0035]对模型数据采样获得模型点云，确定模型点云的逐点法向量；进而通过多层感知器编码生成第一逐点特征。
[0036]可选地，基于第一点云和第二点云抽取点对，通过匹配定向点对生成的局部特征确定对象姿态，包括：
[0037]基于第一点云进行第一点对抽样，得到第一定向点对；
[0038]根据场景点集与第一定向点对的局部匹配，得到第一姿态；
[0039]基于第二点云进行第二点对抽样，得到第二定向点对；
[0040]根据模型点云与第二定向点对的局部匹配，得到第二姿态；
[0041]基于第一姿态和第二姿态，确定对象姿态。
[0042]可选地，基于第一姿态和第二姿态，确定对象姿态，包括：
[0043]基于第一姿态和第二姿态，结合第三姿态进行位姿平均处理，得到对象姿态；
[0044]其中，第三姿态基于全局特征，结合模型全局特征生成的；模型全局特征通过对模型点云进行模型编码，进而通过预设数量的神经元和平均池化的多层感知器生成得到。
[0045]另一方面，本专利技术的实施例提供了一种堆叠场景的物体6D姿态估计系统，包括：
[0046]第一模块，用于获取包含检测目标的目标场景的深度图像和检测目标的模型数
据；
[0047]第二模块，用于利用二维神经检测网络，对深度图像进行分析，获得检测目标的二维边界框；其中，二维神经检测网络基于预训练的特征金字塔网络构建得到；
[0048]第三模块，用于根据模型数据，采样模型点云并确定第一逐点特征；
[0049]第四模块，用于获取目标场景的场景点集，进而通过多层感知器编码，并结合二维边界框得到第二逐点特征；进而通过预设数量的神经元和平均池化的多层感知器生成全局特征；
[0050]第五模块，用于基于全局特征生成第一点云；根据全局特征和第一逐点特征生成第二点云；
[0051]第六模块，用于基于第一点云和第二点云抽取点对，通过匹配定向点对生成的局部特征确定对象姿态。
[0052]另一方面，本专利技术的实施例提供了一种堆叠场景的物体6D姿态估计系统，包括处理器以及存储器；
[0053]存储器用于存储程序；
[0054]处理器执行程序实现如前面的方法。
[0055]另一方面，本专利技术的实施例提供了一种计算机可读存储介质，存储介质存储有程序，程序被处理器执行实现如前面的方法。
[0056]本专利技术实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种堆叠场景的物体6D姿态估计方法，其特征在于，包括：获取包含检测目标的目标场景的深度图像和所述检测目标的模型数据；利用二维神经检测网络，对所述深度图像进行分析，获得所述检测目标的二维边界框；其中，所述二维神经检测网络基于预训练的特征金字塔网络构建得到；根据所述模型数据，采样模型点云并确定第一逐点特征；获取所述目标场景的场景点集，进而通过多层感知器编码，并结合所述二维边界框得到第二逐点特征；进而通过预设数量的神经元和平均池化的多层感知器生成全局特征；基于所述全局特征生成第一点云；根据所述全局特征和所述第一逐点特征生成第二点云；基于所述第一点云和所述第二点云抽取点对，通过匹配定向点对生成的局部特征确定对象姿态。2.根据权利要求1所述的一种堆叠场景的物体6D姿态估计方法，其特征在于，所述利用二维神经检测网络，对所述深度图像进行分析，获得所述检测目标的二维边界框，包括：利用所述特征金字塔网络对所述深度图像进行处理，得到特征图；其中，所述特征图包括若干特征向量；基于所述特征向量进行分类处理和回归处理，获得所述检测目标的二维边界框。3.根据权利要求2所述的一种堆叠场景的物体6D姿态估计方法，其特征在于，所述基于所述特征向量进行分类处理和回归处理，获得所述检测目标的二维边界框，包括：基于所述特征向量进行分类处理和回归处理，获得所述深度图像的对象实例，进而确定正样本和负样本；对多个关联的所述正样本进行非最大值抑制处理，获得所述检测目标的二维边界框。4.根据权利要求3所述的一种堆叠场景的物体6D姿态估计方法，其特征在于，所述获得所述深度图像的对象实例，进而确定正样本和负样本，包括：基于所述对象实例确定所述正样本；基于不包括所述对象实例的背景确定所述负样本。5.根据权利要求4所述的一种堆叠场景的物体6D姿态估计方法，其特征在于，所述基于所述对象实例确定所述正样本，包括：基于所述对象实例，从所述深度图像裁剪获得图像块；根据所述图像块，通过固定步长进行均匀采样，得到二维位置的种子集；基于所述种子集，对所述图像块中每个像素进行距离变换编码，获得每个像素与所述种子集中目标种子的距离图值；其中，某个像素的所述目标种子表征种子集中与该像素距离最近的种子；基于所述距离图值确定所述图像块中各单元格的可见性得分；其中，可见性得分的表达式为：式中，V(c)表示单元格c的可见性得分，表示单元格c所包含的所有像素的距离图值的平均值，F表示图像块中所有单元格的集合，表示特征图中单元格的距离
图值的最大平均值；将所述可见性得分大于...

【专利技术属性】
技术研发人员：王涛，蓝成坚，程良伦，
申请(专利权)人：广东能哥知识科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人