基于对象成像的6D姿态估计方法、系统、设备及介质技术方案

技术编号：41133926 阅读：13 留言：0更新日期：2024-04-30 18:04

本发明专利技术公开了一种基于对象成像的6D姿态估计方法、系统、设备及介质，方法为：获取参考图像并计算其对应的相机位姿和感兴趣物体的尺度大小；拍摄感兴趣物体位姿未知的RGB图像得到查询图像；构建并训练特定对象姿态模型；将各参考图像和查询图像输入检测网络中，获得感兴趣物体的成像结果并计算其边界框大小及平移矩阵；将各参考图像和查询图像输入视角选择网络获取特征矩阵得到查询图像的旋转矩阵；结合平移矩阵和旋转矩阵估计感兴趣物体粗略的姿态信息；使用优化网络更新粗略的姿态信息作为查询图像中感兴趣物体的6D位姿。本发明专利技术将特定对象成像方法应用在3D目标跟踪上，实现在遮挡、截断甚至重度遮挡情况下对感兴趣物体的稳定姿态估计。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉及姿态估计的，具体涉及一种基于对象成像的6d姿态估计方法、系统、设备及介质。

技术介绍

1、元宇宙被认为是下一代移动互联网。作为支撑元宇宙关键技术之一的增强现实(augmented reality，ar)技术是一种将虚拟信息与真实世界巧妙融合的技术。ar是对现实的增强，是虚拟影像和现实影像的融合，使用户在需要的时间和地点将虚拟数据带入现实世界，在工业制造、远程协作、仓库物流等领域有着极大的应用前景。但ar技术大多都建立在准确的姿态估计基础之上。物体6d姿态估计的目的是估计从物体坐标系到相机坐标系的刚性变换矩阵，即姿态信息，包括物体的检测以及对其平移和旋转的估计。因为相机的位置是已知的，所以该矩阵包含了物体在空间中的6d信息。如图1所示，6d姿态估计算法获得物体姿态信息后，可以将其视为虚拟锚点，然后对该物体进行渲染，例如对该物体增加特效，用户就可以获得不同的视觉效果。6d姿态估计是ar中的核心研究问题。

2、基于关键点、边缘、直接优化的方法曾经为6d姿态估计的主流算法，但基于关键点和直接优化的方法都并不适用于无纹理对象的跟踪，同时复杂的背景和对象纹理对基于边缘的方法来说则是一个巨大的挑战。后来，由于深度学习在解决复杂的计算机视觉问题时的突出表现，因此研究人员试图把深度学习引入3d目标跟踪中。近年来基于深度学习的6d对象位姿估计方法可分为三种类型：

3、第一类方法是基于perspective-n-point(pnp)的方法：该类方法通过提取感兴趣对象的特征来获得中间表示，接着使用pnp

4、第二类方法是迭代法：该类方法将基于梯度更新的拟合模型与合成模块相结合，多次比较缩小输入图像特征或外观与渲染图像特征之间的差距，以回归出更加准确的位姿。例如：repose通过缩小输入图像的高维特征与渲染图象的高维特征之间的差距来优化位姿。latentfusion从提供的参考图像中建立目标对象的3d表示，并由该3d表示渲染目标对象的任意视角图像，然后通过将输入图像与渲染图像进行比较来找出与输入图像相匹配的位姿。

5、第三类方法直接从深度网络输出最终的位姿：例如：posenet直接通过神经网络回归出物体姿态；so-pose和gdr-net等网络将基于pnp的间接法和基于回归的直接法相结合来进行物体姿态估计；onepose引入了一种图注意力网络，从扫描感兴趣物体的rgb视频构建稀疏structure from motion(sfm)模型，再将查询图像中的2d兴趣点与sfm模型中的3d点进行匹配。

6、上述方法大多数都是假设物体的cad模型或可渲染模型是先验已知的，这些方法先应用三维重建算法对使用深度相机或激光雷达环绕物体进行拍摄或扫描得到的数据进行处理，来获取现实物体的cad模型或可渲染模型，然后通过求解感兴趣物体与物体cad模型或可渲染模型间的对应关系或使用深度神经网络回归的方法计算物体位姿，但这些方法存在着步骤繁琐、精度不高等的缺点。因为三维重建算法对拍摄数据的图片数量、拍摄角度甚至拍摄环境有一定的要求，因此重建后的三维模型存在含有背景、不够精确的问题，即使后期手动修改，三维模型仍不可避免地与实际物体存在偏差；一旦cad模型不够精确，6d姿态估计的结果准确度也会受到影响。此外，现有方法大多通过回归图像坐标或向量图来定位一组稀疏关键点，但稀疏关键点对遮挡和截断非常敏感，为了在遮挡情况下进行准确的6d姿态估计，要求深度网络能明确地推理局部外观和几何信息，增加了深度网络的复杂度及计算难度，导致位姿估计不准确。

技术实现思路

1、本专利技术的主要目的在于克服现有技术的缺点与不足，提供一种基于对象成像的6d姿态估计方法、系统、设备及介质，将特定对象成像方法应用在3d目标跟踪上，实现特定3d目标对象的筛选，由此实现在遮挡、截断甚至重度遮挡情况下对感兴趣物体的稳定姿态估计。

2、为了达到上述目的，本专利技术第一目的在于提供一种基于对象成像的6d姿态估计方法，包括下述步骤：

3、围绕感兴趣物体拍摄rgb视频并拆分成一系列图像，得到参考图像；计算参考图像对应的相机位姿和感兴趣物体的尺度大小；拍摄感兴趣物体位姿未知的rgb图像，得到查询图像；

4、构建并训练特定对象姿态模型；所述特定对象姿态模型包括检测网络、视角选择网络及优化网络；

5、将各参考图像和查询图像输入检测网络中，获得感兴趣物体的成像结果并计算感兴趣物体的边界框大小及平移矩阵；

6、将各参考图像和查询图像输入视角选择网络获取特征矩阵，计算查询图像与各参考图像的相似度评分生成相似度评分图，通过查询选择出与查询图像视角最接近的参考图像，得到查询图像的旋转矩阵；

7、结合平移矩阵和旋转矩阵估计感兴趣物体粗略的姿态信息；

8、将查询图像、与查询图像视角最接近的参考图像及感兴趣物体粗略的位姿信息输入优化网络，将与查询图像视角最接近的参考图像的特征和查询图像的特征映射投影至三维空间，通过比较投影预测位姿残差，更新粗略的姿态信息作为查询图像中感兴趣物体的6d位姿。

9、作为优选的技术方案，采用colmap软件来获取各参考图像对应的相机位姿和感兴趣物体的尺度大小。

10、作为优选的技术方案，所述特定对象姿态模型基于深度学习的卷积神经网络进行构建。

11、作为优选的技术方案，所述获得感兴趣物体的成像结果并计算感兴趣物体的边界框大小及平移矩阵，具体为：

12、将参考图像和查询图像输入检测网络中进行特征提取，每张图像得到6个不同维度的特征映射图；

13、使用6个特征映射图恢复出每张图像中的感兴趣物体，再使用维度最高的3个特征映射图回归得到一张热图和比例图；

14、将热图中最大值的点作为查询图像中感兴趣物体的中心点位置，并将对应比例图上相同位置的取值作为查询图像中感兴趣物体的边界框大小的比例系数；

15、设置n个不同比例将查询图像调整为n个不同的尺度大小，依据热图及比例图恢复出查询图像中感兴趣物体的边界框大小，公式为：

16、sq＝sr×s

17、其中，sq为查询图像中感兴趣物体的边界框大小，sr为参考图像的尺度大小，s为查询图像中感兴趣物体的边界框大小的比例系数；

18、计算查询图像中感兴趣物体的中心点深度d，公式为：

19、

20、其中，f是相机的焦距；

21、根据查询图像中感兴趣物体的中心深度计算查询图像中感兴趣物体的平移矩阵，公式为：

22、

23、本文档来自技高网...

【技术保护点】

1.基于对象成像的6D姿态估计方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于对象成像的6D姿态估计方法，其特征在于，采用COLMAP软件来获取各参考图像对应的相机位姿和感兴趣物体的尺度大小。

3.根据权利要求1所述的基于对象成像的6D姿态估计方法，其特征在于，所述特定对象姿态模型基于深度学习的卷积神经网络进行构建。

4.根据权利要求1所述的基于对象成像的6D姿态估计方法，其特征在于，所述获得感兴趣物体的成像结果并计算感兴趣物体的边界框大小及平移矩阵，具体为：

5.根据权利要求4所述的基于对象成像的6D姿态估计方法，其特征在于，所述得到查询图像的旋转矩阵，具体为：

6.根据权利要求5所述的基于对象成像的6D姿态估计方法，其特征在于，设查询图像中感兴趣物体在像素坐标系下的像素点坐标为(u,v)，根据平移矩阵和旋转矩阵，将其转换至相机坐标系下的对应坐标点(x,y,z)，转换公式为：

7.根据权利要求6所述的基于对象成像的6D姿态估计方法，其特征在于，所述更新粗略的姿态信息作为查询图像中感兴趣物体的6D位姿，具体为：

8.基于对象成像的6D姿态估计系统，其特征在于，应用于权利要求1-7中任一项所述的基于对象成像的6D姿态估计方法，包括图像获取模块、模型构建模块、平移矩阵计算模块、旋转矩阵计算模块、粗略姿态估计模块及位姿更新模块；

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-7任一项所述的基于对象成像的6D姿态估计方法。

...

【技术特征摘要】

1.基于对象成像的6d姿态估计方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于对象成像的6d姿态估计方法，其特征在于，采用colmap软件来获取各参考图像对应的相机位姿和感兴趣物体的尺度大小。

3.根据权利要求1所述的基于对象成像的6d姿态估计方法，其特征在于，所述特定对象姿态模型基于深度学习的卷积神经网络进行构建。

4.根据权利要求1所述的基于对象成像的6d姿态估计方法，其特征在于，所述获得感兴趣物体的成像结果并计算感兴趣物体的边界框大小及平移矩阵，具体为：

5.根据权利要求4所述的基于对象成像的6d姿态估计方法，其特征在于，所述得到查询图像的旋转矩阵，具体为：

6.根据权利要求5所述的基于对象成像的6d姿态估计方法，其特征在于，设查询图像中感...

【专利技术属性】
技术研发人员：李乐怡，李军，廖小连，上官曹翕，黄少燕，
申请(专利权)人：华南师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人