本申请涉及一种基于拉普拉斯混合模型的类别级别物体位姿估计方法,包括:根据待估计物体的图像预测待估计物体的NOCS坐标图;基于预设的通用3D信息流预测NOCS坐标图的第一拉普拉斯分布,并基于预设的特征流预测NOCS坐标图的第二拉普拉斯分布,且根据第一拉普拉斯分布和第二拉普拉斯分布得到目标拉普拉斯分布;基于预设的卷积网络,根据目标拉普拉斯分布对待估计物体进行位姿估计,得到位姿估计结果,并根据位姿估计结果得到待估计物体与尺寸无关的位姿。由此,克服了类别内形状差异导致的形状不确定性和尺度不确定性对位姿估计的影响,能够实现对类别级别的物体位姿的高精度、高准确率的预测,并且不受尺度不确定性影响。
【技术实现步骤摘要】
本申请涉及计算机视觉,特别涉及一种基于拉普拉斯混合模型的类别级别物体位姿估计方法。
技术介绍
1、类别级物体位姿估计是指对于给定类别集合中的未见过的物体,预测其9自由度(9dof)位姿,包括3个自由度的3d旋转、3个自由度的3d平移和3个自由度的3d尺寸,类别级物体位姿估计在机器人技术、增强现实(ar)、虚拟现实(vr)和三维理解等领域有着广泛的应用。
2、尽管基于rgb-d(rgb加深度)的方法在类别级物体位姿估计中取得了不错的成果,但大多数方法通常都严重依赖于深度传感器,这限制了它们在通用场景下的适用性。因此,提出了基于rgb(red、green、blue,红绿蓝)的类别级物体位姿估计方法,作为适合部署在嵌入式设备(如ar眼镜和手机)上的替代方案。
3、但是,缺乏深度信息为基于rgb的类别级物体位姿估计带来了两个显著挑战:首先,由于没有深度信息,物体形状的预测变得更加复杂,并加剧了处理类内形状变化的难度;其次,仅依赖rgb输入引入了固有的尺度模糊性,使得平移和尺寸的估计成为不适定问题。
4、相关技术中,为了克服上述挑战,提出了两种解决方案,一种是通过估计度量深度和标准化物体坐标空间(nocs,normalized object coordinate space)坐标来建立3d-3d对应关系,并通过umeyama算法求解位姿。另一种是通过分别估计nocs坐标图和物体的度量尺寸,从而建立2d-3d对应关系,然后使用pnp(perspective-n-point,透视n点)算法求解位姿。
5、然而,相关技术虽然在一定程度上解决了基于rgb的位姿估计问题,但仍存在以下局限性:首先,缺乏深度信息使得准确测量物体形状变得困难,形状的不确定性在图像的某些区域尤为明显,这使得建立精确对应关系变得更加复杂,相关技术的方法通常将每个像素的预测对应关系视为等同,并依赖ransac来过滤异常值,这降低了预测速度并影响鲁棒性。其次,相关技术的一些方法没有考虑尺度模糊性,另一些方法使用相同的特征来预测nocs图和度量尺寸,但从单张rgb图像中推断度量尺寸本质上是一个不适定问题,从而导致其他组件的训练不稳定且结果较差,亟需解决。
技术实现思路
1、本申请提供一种基于拉普拉斯混合模型的类别级别物体位姿估计方法,以克服类别内形状差异导致的形状不确定性和尺度不确定性对位姿估计的影响,能够实现对类别级别的物体位姿的高精度、高准确率的预测,并且不受尺度不确定性影响。
2、本申请第一方面实施例提供一种基于拉普拉斯混合模型的类别级别物体位姿估计方法,包括以下步骤:
3、获取待估计物体的图像,并根据所述待估计物体的图像预测所述待估计物体的nocs坐标图;
4、基于预设的通用3d信息流预测所述nocs坐标图的第一拉普拉斯分布,并基于预设的特征流预测所述nocs坐标图的第二拉普拉斯分布,且根据所述第一拉普拉斯分布和所述第二拉普拉斯分布得到目标拉普拉斯分布;
5、基于预设的卷积网络,根据所述目标拉普拉斯分布对所述待估计物体进行位姿估计,得到位姿估计结果,并根据所述位姿估计结果得到所述待估计物体与尺寸无关的位姿。
6、根据本申请的一个实施例,所述基于预设的通用3d信息流预测所述nocs坐标图的第一拉普拉斯分布,并基于预设的特征流预测所述nocs坐标图的第二拉普拉斯分布,包括:
7、基于所述预设的通用3d信息流,利用第一预设损失函数预测所述nocs坐标图的第一拉普拉斯分布;
8、基于所述预设的特征流,利用第二预设损失函数预测所述nocs坐标图的第二拉普拉斯分布;
9、其中,所述第一预设损失函数为:
10、
11、所述第二预设损失函数为:
12、
13、其中,l3d-dino为第一预设损失函数,为第一拉普拉斯分布的方差,mvis为待估计物体可见部分的掩码,为真实的nocs坐标图,μdino为第一拉普拉斯分布的均值,l3d-conv为第二预设损失函数,为第二拉普拉斯分布的方差,μconv为第二拉普拉斯分布的均值,λ1和λ2为超参数。
14、根据本申请的一个实施例,所述基于预设的卷积网络,根据所述目标拉普拉斯分布对所述待估计物体进行位姿估计,得到位姿估计结果,包括:
15、获取所述待估计物体的图像的2d像素坐标图;
16、将所述目标拉普拉斯分布和所述2d像素坐标图输入至所述预设的卷积网络,得到所述位姿估计结果;
17、其中,所述位姿估计结果为:
18、
19、其中,rout为预测的与尺度无关的旋转参数,tout为预测的与尺度无关的平移参数,φ()为预设的卷积网络,μdino为第一拉普拉斯分布的均值,为第一拉普拉斯分布的方差,μconv为第二拉普拉斯分布的均值,为第二拉普拉斯分布的方差,c2d为待估计物体的图像的2d像素坐标图。
20、根据本申请的一个实施例,所述根据所述位姿估计结果得到所述待估计物体的物体与尺寸无关的位姿,包括:
21、获取所述待估计物体的3d尺寸和所述待估计物体的3d平移,并基于所述待估计物体的3d尺寸计算所述待估计物体的物体紧密边界框的原始对角线长度;
22、根据所述待估计物体的3d尺寸和所述物体紧密边界框的原始对角线长度对所述待估计物体的尺寸进行归一化处理,得到归一化后待估计物体的3d尺寸;
23、根据所述待估计物体的3d平移向量和所述物体紧密边界框的原始对角线长度对所述物体的平移进行归一化处理,得到归一化后待估计物体的平移,并根据所述归一化后待估计物体的3d平移得到预测的平移量,其中,所述预测的平移量为:
24、tout=[δx,δy,δz];
25、δx=(ox-cx)/wbox;
26、δy=(oy-cy)/hbox;
27、
28、其中,tout为预测的平移参数,δx、δy分别为图片平面x、y轴方向上的相对2d检测框中心的相对偏移量,δz为物体在z轴上的平移量相对检测框大小的相对值。(ox,oy)为投影物体中心的2d位置,(cx,cy)为2d边界框的中心坐标,wbox为2d边界框的宽度,hbox为2d边界框的高度,为待估计物体到相机的归一化距离,sbox为2d边界框的大小,sin为缩放后的待估计物体的图像的大小。
29、根据本申请的一个实施例,所述根据所述位姿估计结果得到所述物体与尺寸无关的位姿,还包括:
30、沿第一方向轴预测所述待估计物体的第一旋转向量,并沿第二方向轴预测所述物体的第二旋转向量,其中,所述第一方向轴和所述第二方向轴垂直;
31、判断所述待估计物体是否具有旋转对称性;
32、若所述待估计物体具有旋转对称性,在训练所述待估计物体的模型时,对所述第二旋转向量进行监督。
33、根据本申请实施例的基于拉本文档来自技高网
...
【技术保护点】
1.一种基于拉普拉斯混合模型的类别级别物体位姿估计方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述基于预设的通用3D信息流预测所述NOCS坐标图的第一拉普拉斯分布,并基于预设的特征流预测所述NOCS坐标图的第二拉普拉斯分布,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于预设的卷积网络,根据所述目标拉普拉斯分布对所述待估计物体进行位姿估计,得到位姿估计结果,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述位姿估计结果得到所述待估计物体的物体与尺寸无关的位姿,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述位姿估计结果得到所述物体与尺寸无关的位姿,还包括:
6.一种基于拉普拉斯混合模型的类别级别物体位姿估计装置,其特征在于,包括:
7.根据权利要求6所述的装置,其特征在于,所述预测模块,用于:
8.根据权利要求6所述的装置,其特征在于,所述位姿估计模块,用于:
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-5任一项所述的基于拉普拉斯混合模型的类别级别物体位姿估计方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-5任一项所述的基于拉普拉斯混合模型的类别级别物体位姿估计方法。
...
【技术特征摘要】
1.一种基于拉普拉斯混合模型的类别级别物体位姿估计方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述基于预设的通用3d信息流预测所述nocs坐标图的第一拉普拉斯分布,并基于预设的特征流预测所述nocs坐标图的第二拉普拉斯分布,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于预设的卷积网络,根据所述目标拉普拉斯分布对所述待估计物体进行位姿估计,得到位姿估计结果,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述位姿估计结果得到所述待估计物体的物体与尺寸无关的位姿,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述位姿估计结果得到所述物体与尺寸无关的位...
【专利技术属性】
技术研发人员:季向阳,张睿达,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。