一种基于单目图像的开放世界三维场景重建及感知方法技术

技术编号：40218635 阅读：6 留言：0更新日期：2024-02-02 22:25

一种基于单目图像的开放世界三维场景重建及感知方法，涉及计算机视觉。包括场景感知、场景解耦、实例处理、实例重建、场景重组、场景感知信息融合。首先利用预训练感知模型对单目图像进行感知与实例分割；再通过填充等处理进行实例去遮挡，并再次进行实例感知得到其语义信息；再利用实例语义信息进行单目三维重建；最后通过场景和实例的感知信息计算得各实例在场景中的三维位置，并将实例重组为原始图像对应的三维场景，并通过重建出的实例三维模型计算场景中各实例的三维感知信息。有效处理开放世界场景中的实例数量不一、实例遮挡等问题，提高开放世界三维场景重建及感知的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉，特别是涉及一种基于单目图像的开放世界三维场景重建及感知方法。

技术介绍

1、三维场景重建及感知属于计算机视觉与计算机图形学的交叉领域，其目的在于根据图像等传感器信息，重建出原本的三维场景，以及相应的三维语义。在三维重建领域中，从传统的基于rgbd的kinectfusion、bundlefusion、基于mvs(mutli view stereo，多角度重建)的colmap、mve、pmvs、smvs、openmvs，到基于体素、点云、曲面的pix2mesh、pix2vox、ganverse3d、meshmvs，再到最近的基于隐式表达函数的nerf(neural radiance field，神经辐射场)，大部分工作都基于较为稠密的多视角信息进行重建，无法完成基于单目图像的重建。在三维感知领域，从传统三维目标检测方法pointsift、pointnet、pointnet++、frustum pointnet、voxelnet、second、pointrcnn，到最近的占用格预测方法，大部分工作也都需要精确的多视角三维标注信息，成本高的同时，样本的数量和多样性也难以应对复杂的开放世界场景。开放世界场景相对于封闭世界场景，包含更多的未知和不确定因素，因此开放世界感知模型需要在不确定性和复杂性更强的情况下进行处理。

2、公开号为cn115375844a的中国专利申请提出一种融合注意力机制的单目三维重建方法，方法基于稠密点云进行三维重建，但是该方法对于场景泛化能力较差，没有对于开放世界多实例物体的解耦

技术实现思路

1、本专利技术的目的在于针对现有技术存在的单目条件的限制、开放世界的复杂性，以及场景中实例数量多、实例间存在遮挡、单目缺少多视角信息等问题，提供基于单目图像，针对开放世界多实例场景，并且不依赖于复杂三维标注信息的一种基于单目图像的开放世界三维场景重建及感知方法。首先对场景进行实例解耦，对于每个实例单独进行感知、处理、重建后再进行重组；针对实例间存在遮挡的问题，使用填充网络对实例进行遮挡部分内容填充；针对单目缺少多视角信息的问题，利用额外的预训练感知和生成模型辅助重建过程。

2、本专利技术提出的一种基于单目图像的开放世界三维场景重建及感知方法，包括以下步骤：

3、1)场景感知步骤：给定一张单目图像，使用预训练的场景感知模型对图像场景进行感知，得到包括深度图像在内的二维场景感知信息；

4、2)场景解耦步骤：利用实例分割模型对图像场景进行实例分割，并根据每一个实例在当前图像场景下的可见信息以及其他实例感知模型获取每个实例的感知信息；

5、3)实例处理步骤：通过一些额外的居中化、内容填充等预处理避免实例间的相互遮挡以及位置不一致的情况导致的重建困难，对处理后的各个实例图片再次进行感知，得到实例的包括深度图像在内的语义信息；

6、4)实例重建步骤：利用实例的图像以及其他语义信息，通过单目重建模型，对每个实例进行三维重建，重建完成后提取每个实例的三维模型；

7、5)场景重组步骤：通过场景深度图像和实例深度图像计算得到每个实例的三维模型在场景中的三维位置，从而将实例重新组合到原始图像对应的三维场景；

8、6)场景感知信息融合步骤：通过步骤4)重建出的每个实例三维模型，计算重组场景中各个实例的三维感知信息。

9、在步骤2)中，所述场景解耦步骤的具体步骤包括：

10、2.1)使用实例分割模型对图像场景进行实例感知，得到场景中每个实例的分割图；

11、2.2)使用其他实例感知模型对每个实例进行实例级感知信息的获取，例如通过预训练的图像描述模型得到每个实例的自然语言描述；

12、在步骤3)中，所述实例处理步骤的具体方法包括：

13、3.1)为避免实例间的遮挡导致的重建困难，对每个实例进行预处理以帮助后续的三维重建；预处理包括但不限于对被遮挡部分的图像进行内容填充、将实例置于图像中央、添加额外边缘等；所述对被遮挡部分的图像进行内容填充的方法包括但不限于生成式对抗网络，扩散去噪模型等；

14、3.2)对预处理后的实例图片，再次进行实例感知，重新得到每个实例的实例语义信息；实例语义信息包括图片、掩码、深度。

15、在步骤4)中，所述三维重建使用的是基于单目图像的三维重建方法，重建出的三维表征包括但不限于三角网格mesh、点云pointcloud、神经辐射场nerf、符号距离函数sdf等。

16、在步骤6)中，所述三维感知信息包括三维包围盒、带有实例标注的三维语义或占用格等。

17、在步骤1)、2)和3)中，本专利技术可以使用包括语义分割网络、目标检测网络、图像描述网络和深度估计网络在内的预训练场景和实例感知网络；

18、本专利技术提出一种基于单目图像的开放世界三维场景重建及感知方法，可以在给定一张开放世界单目图像的情况下实现其三维场景的重建与感知。能够有效地处理开放世界场景中的实例数量不一、实例遮挡等问题，提高开放世界三维重建及感知的鲁棒性。

19、本专利技术提出的基于单目图像的开放世界三维场景重建及感知方法，通过将开放世界场景中的实例进行解耦、感知和重建，能够在图片场景较为复杂的情况下较好还原场景中各个实例的三维形状以及未知视角的状态，并最终将他们重组到原始三维场景中，并获取相应的三维感知信息。本专利技术方法通过将多个预训练的开放世界或单物体重建与感知模型进行组合完成整个重建与感知流程，充分发挥各个感知模型、实例分割模型、内容填充模型、三维重建模型各自的优势以帮助复杂场景的重建获得较好的效果。同时，本方法中的每一个子模块都是独立的，可以根据用户需求进行个性化的定制和持久性的改进。

本文档来自技高网...

【技术保护点】

1.一种基于单目图像的开放世界三维场景重建及感知方法，其特征在于包括以下步骤：

2.如权利要求1所述一种基于单目图像的开放世界三维场景重建及感知方法，其特征在于在步骤2)中，所述场景解耦步骤具体包括：

3.如权利要求1所述一种基于单目图像的开放世界三维场景重建及感知方法，其特征在于在步骤3)中，所述实例处理步骤的具体包括：

4.如权利要求1所述一种基于单目图像的开放世界三维场景重建及感知方法，其特征在于在步骤4)中，所述三维重建使用的是基于单目图像的三维重建方法，重建出的三维表征包括三角网格Mesh、点云PointCloud、神经辐射场NeRF、符号距离函数SDF。

5.如权利要求1所述一种基于单目图像的开放世界三维场景重建及感知方法，其特征在于在步骤6)中，所述三维感知信息包括三维包围盒、带有实例标注的三维语义或占用格。

6.如权利要求1所述一种基于单目图像的开放世界三维场景重建及感知方法，其特征在于其使用包括语义分割网络、目标检测网络、图像描述网络和深度估计网络在内的预训练场景和实例感知网络。

【技术特征摘要】

1.一种基于单目图像的开放世界三维场景重建及感知方法，其特征在于包括以下步骤：

2.如权利要求1所述一种基于单目图像的开放世界三维场景重建及感知方法，其特征在于在步骤2)中，所述场景解耦步骤具体包括：

3.如权利要求1所述一种基于单目图像的开放世界三维场景重建及感知方法，其特征在于在步骤3)中，所述实例处理步骤的具体包括：

4.如权利要求1所述一种基于单目图像的开放世界三维场景重建及感知方法，其特征在于在步骤4)中，所述三维重建使用的是基于单目图...

【专利技术属性】
技术研发人员：曹刘娟，李新阳，黄驰，赖章宇，张声传，纪荣嵘，
申请(专利权)人：厦门大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人