一种基于RGB的多模态域自适应6D姿态估计方法技术

技术编号：41710267 阅读：24 留言：0更新日期：2024-06-19 12:40

本发明专利技术涉及6D姿态估计技术领域，公开了一种基于RGB的多模态域自适应6D姿态估计方法，包括如下步骤：建立单目RGB深度预测网络模型；将所述单目RGB深度预测网络模型与GDR‑net姿态估计器融合，得到姿态预测模型GeoPoseNet3D；对所述姿态预测模型GeoPoseNet3D进行训练、优化；基于优化后的所述姿态预测模型GeoPoseNet3D进行6D姿态估计。解决了真实数据和合成数据的域间隙导致姿态估计网络性能下降的问题，提升了姿态估计技术的精准性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及6d姿态估计，特别是涉及一种基于rgb的多模态域自适应6d姿态估计方法。

技术介绍

1、6d姿态估计任务目标是估计给定物体相对于摄像机的6个自由度，包括3d旋转和3d平移，是计算机视觉中的一项基本任务，广泛应用于机器人操作或自动驾驶。

2、目前，基于rgb图像的6d组态估计任务在现实场景下依赖于大量的真实场景的图像，而真实图像的获取和标注代价高，你多研究者和开发者转向使用成本低廉的合成数据进行训练，但是，合成图像与真实世界在外观上存在显著差异，比如，不自然的边界和颜色、光照不匹配、缺失的阴影等，导致数据特征分布上存在域间差距，这种差距容易使合成数据上的训练模型在真实场景下的表现大幅下降。

技术实现思路

1、有鉴于此，本专利技术的主要目的在于提供一种基于rgb的多模态域自适应6d姿态估计方法，以提高姿态估计的精准性。

2、本专利技术采用的技术方案如下：

3、一种基于rgb的多模态域自适应6d姿态估计方法，包括如下步骤：

4、建立单目rgb深度预测网络模型；

5、将所述单目rgb深度预测网络模型与gdr-net姿态估计器融合，得到姿态预测模型geoposenet3d；

6、对所述姿态预测模型geoposenet3d进行训练、优化；

7、基于优化后的所述姿态预测模型geoposenet3d进行6d姿态估计可选的所述单目rgb深度预测网络模型包括编码器和解码器；

8、所述编码器基于

9、所述解码器基于卷积层对特征图进行通道降维，生成降维特征图；并对所述降维特征图通过双线性上采样、结合选择性特征融合机制，然后对处理后的所述降维特征图通过sigmoid激活函数预测每个像素点的深度值；将所述深度值根据场景的实际深度范围进行缩放，生成深度图像。

10、可选的，所述编码器基于深度残差网络restnet34提取图像的特征并输出特征图，所述编码器通过所述通道注意力机制对空间信息进行压缩，并对通道权重进行激励，应用所述权重矫正原始特征；

11、所述通道注意力机制包括卷积层以及全局平均池。

12、可选的，在所述解码器中引入了跳跃连接，通过跳跃连接引入了编码器中的底层特征，所述底层特征直接传递到解码器的上采样层。以保留局部的细节和上下文信息。

13、可选的，将所述单目rgb深度预测网络模型与gdr-net姿态估计器融合，生成geoposenet3d网络，基于真实图像对所述geoposenet3d网络进行微调，基于深度图像对geoposenet3d网络强约束，所述geoposenet3d网络在预测姿态的同时预测对应rgb图像的深度图像。

14、可选的，对所述姿态预测模型geoposenet3d进行训练，包括：

15、对合成图像数据集中的合成图像进行剪裁，采用剪裁后的合成图像对所述姿态预测模型geoposenet3d进行初步训练；

16、利用真实图像对初步训练后的所述姿态预测模型geoposenet3d进行进一步训练；

17、其中，所述合成图像数据集中的合成图像是以所述真实图像为素材利用合成技术获得的图像。

18、可选的，对所述姿态预测模型geoposenet3d进行优化，包括：

19、基于自监督思想，采用真实图像对训练后的所述姿态预测模型geoposenet3d进行初步优化训练；

20、输入真实图像数据，采用单目rgb深度预测网络模型对所述图像数据进行处理，得到深度图像；采用所述深度图像对初步优化训练后的所述姿态预测模型geoposenet3d进行约束训练；

21、优选地，在采用单目rgb深度预测网络模型对所述图像数据进行处理前，还包括：对所述图像数据进行预处理，具体为：获取图像中每个物体的边界框信息，结合预定常数计算得到新的裁剪区域,从原图中裁剪出指定区域，得到预处理图像。

22、可选的，所述初步优化训练包括将合成数据集裁剪成尺寸为256×256的图像，并生成对应的json文件；将裁剪后的合成图像输入到geoposenet3d网络中进行预训练，使模型先在合成数据上学习基本特征，在通过少量真实数据进行微调，以适应真实世界的应用场景；

23、所述约束训练包括：初始化训练后的geoposenet3d网络，得到相同权重的教师模型和学生模型，为减少模型对真实标签的依赖性，使用真实图像对网络进行微调，结合自监督的思想，加入深度图像作为geoposenet3d网络的强约束，提升模型在跨域检测时的精度

24、可选的，所述方法还包括，基于优化后的所述姿态预测模型geoposenet3d进行6d姿态估计后，对获取的初始预测姿态进行优化；

25、所述初始预测姿态的优化采用姿态细化器。

26、可选的，所述初始预测姿态的优化方法为：

27、所述姿态细化器包括两个编码器输入分支，其中一个所述编码器输入分支接收裁剪过的图像，另一个所述编码器输入分支接收根据初始预测的姿态估计结果生成模型的渲染图像，经过两个编码器提取输入图像与渲染图像的特征向量；将两个编码器分支输出的特征向量作差并输入到由resnet构成的编码器中，生成特征向量；基于三个全连接网络构成的独立的输出头分别回归优化后的姿态。

28、本申请搭建深度预测网络模型为姿态估计网络提供可靠的深度信息；在gdr-net姿态估计器上融合深度预测网络生成geoposenet3d网络，能够在预测姿态时提供深度信息，针对预训练的模型，进行数据集的处理，使数据更适用于geoposenet3d网络；使用真实图像对网络进行微调，结合自监督的思想，减少模型对真实标签的依赖，加入深度图像作为网络的强约束，提升模型在跨域检测时的精度；在模型中使用姿态细化器来优化geoposenet3d网络的初始预测姿态，以便提供更可靠的监督信号；本专利技术有效解决了真实数据和合成数据的域间隙导致姿态估计网络性能下降的问题，适用于仅能获取rgb图像的场景，确保了在这种限制条件下实现高准确度的6d姿态估计，提升了姿态估计技术的准确性。

本文档来自技高网...

【技术保护点】

1.一种基于RGB的多模态域自适应6D姿态估计方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于RGB的多模态域自适应6D姿态估计方法，其特征在于，所述单目RGB深度预测网络模型包括编码器和解码器；

3.根据权利要求2所述的一种基于RGB的多模态域自适应6D姿态估计方法，其特征在于，所述编码器基于深度残差网络RestNet34提取图像的特征并输出特征图，所述编码器通过所述通道注意力机制对空间信息进行压缩，并对通道权重进行激励，应用所述权重矫正原始特征；

4.根据权利要求2所述的一种基于RGB的多模态域自适应6D姿态估计方法，其特征在于，在所述解码器中引入了跳跃连接，通过跳跃连接引入了编码器中的底层特征，所述底层特征直接传递到解码器的上采样层。以保留局部的细节和上下文信息。

5.根据权利要求1所述的一种基于RGB的多模态域自适应6D姿态估计方法，其特征在于，将所述单目RGB深度预测网络模型与GDR-net姿态估计器融合，生成GeoPoseNet3D网络，基于真实图像对所述GeoPoseNet3D网络进行微调，基于深度图

6.根据权利要求1所述的一种基于RGB的多模态域自适应6D姿态估计方法，其特征在于，对所述姿态预测模型GeoPoseNet3D进行训练，包括：

7.根据权利要求1所述的一种基于RGB的多模态域自适应6D姿态估计方法，其特征在于，对所述姿态预测模型GeoPoseNet3D进行优化，包括：

8.根据权利要求7所述的一种基于RGB的多模态域自适应6D姿态估计方法，其特征在于，所述初步优化训练包括将合成数据集裁剪成尺寸为256×256的图像，并生成对应的json文件；将裁剪后的合成图像输入到GeoPoseNet3D网络中进行预训练，使模型先在合成数据上学习基本特征，再通过少量真实数据进行微调，以适应真实世界的应用场景；

9.根据权利要求1所述的一种基于RGB的多模态域自适应6D姿态估计方法，其特征在于，所述方法还包括，基于优化后的所述姿态预测模型GeoPoseNet3D进行6D姿态估计后，对获取的初始预测姿态进行优化；

10.根据权利要求9所述的一种基于RGB的多模态域自适应6D姿态估计方法，其特征在于，所述初始预测姿态的优化方法为：

...

【技术特征摘要】

1.一种基于rgb的多模态域自适应6d姿态估计方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于rgb的多模态域自适应6d姿态估计方法，其特征在于，所述单目rgb深度预测网络模型包括编码器和解码器；

3.根据权利要求2所述的一种基于rgb的多模态域自适应6d姿态估计方法，其特征在于，所述编码器基于深度残差网络restnet34提取图像的特征并输出特征图，所述编码器通过所述通道注意力机制对空间信息进行压缩，并对通道权重进行激励，应用所述权重矫正原始特征；

4.根据权利要求2所述的一种基于rgb的多模态域自适应6d姿态估计方法，其特征在于，在所述解码器中引入了跳跃连接，通过跳跃连接引入了编码器中的底层特征，所述底层特征直接传递到解码器的上采样层。以保留局部的细节和上下文信息。

5.根据权利要求1所述的一种基于rgb的多模态域自适应6d姿态估计方法，其特征在于，将所述单目rgb深度预测网络模型与gdr-net姿态估计器融合，生成geoposenet3d网络，基于真实图像对所述geoposenet3d网络进行微调，基于深度图像对geoposenet3d网络强约束，所述geoposenet...

【专利技术属性】
技术研发人员：赵国英，段超杰，张少博，彭先霖，彭进业，赵万青，王珺，汪霖，
申请(专利权)人：西北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人