基于神经辐射场的场景三维重建方法、装置、介质及产品制造方法及图纸

技术编号：45038310 阅读：2 留言：0更新日期：2025-04-18 17:21

本申请公开一种基于神经辐射场的场景三维重建方法、装置、介质及产品，涉及场景三维重建技术领域，所述方法包括：采集待重建场景的多张彩色图像；将各彩色图像输入至预训练深度模型中得到对应的场景深度图；将待重建场景划分为多个网格单元；初始化各网格单元的多层感知机；对各彩色图像上各像素点对应的射线进行采样得到各射线的多个采样点，确定各采样点的空间参数；利用所有场景深度图上的多组随机像素点组的深度值以及对应的射线上所有采样点的空间参数，对所有初始多层感知机进行多轮次训练，得到多个目标多层感知机；基于各目标感知机输出的所有采样点的场景表征，对所述待重建场景进行三维重建。本申请提高了场景三维重建的速度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及场景三维重建，特别是涉及一种基于神经辐射场的场景三维重建方法、装置、介质及产品。

技术介绍

1、三维重建可以将真实世界的场景转化为数字模型，使机器能够与人类一样以三维的方式来理解周围环境。三维重建是虚拟现实、增强现实、机器人导航等领域的关键技术，也是计算机图形学算法和技术的数据基础，并且在工程建模与仿真等方面发挥关键作用。传统三维重建方法主要基于结构光、双目视觉、深度传感器、激光雷达等，尽管取得了巨大的成就，但仍面临着许多挑战和限制。传统算法对输入数据的质量和多样性要求较高，算法通常需要从多个角度获取高质量的图像或点云数据。如果数据质量不高，重建结果往往会受到影响，导致精度不足或者重建失败。其次，在处理细小物体或复杂的纹理表面时，传统重建算法难以捕捉到复杂物体的几何结构或表面纹理。相比而言，基于图像的三维重建成本更低，且实现简单。

2、神经辐射场(neural radiance field，nerf)的提出为三维场景重建的研究带来了强大的驱动力。通过多层感知机((multilayer perceptron，mlp)使用具有隐式神经场景表示方式和经典的体渲染方法将输出的颜色和密度投影到图像中，获得具有复杂几何形状及外观的渲染结果。然而，原始神经辐射场模型使用一个mlp网络处理整个场景。这样的处理方式不仅会随着场景规模的增大导致模型对局部细节的提取能力下降，同时也会降低模型的渲染速度。原始神经辐射场模型在场景重建中存在几何辐射二义性(shape-radianceambiguity)的问题，导致无法重建出准确的几

技术实现思路

1、本申请的目的是提供一种基于神经辐射场的场景三维重建方法、装置、介质及产品，以解决利用现有的基于神经辐射场的场景三维重建方法对场景进行三维重建的速度较慢的问题。

2、为实现上述目的，本申请提供了如下方案：

3、第一方面，本申请提供了一种基于神经辐射场的场景三维重建方法，包括：

4、利用相机采集待重建场景的多张彩色图像；

5、将各彩色图像分别输入至预训练深度模型中，得到对应的场景深度图；所述预训练深度模型是利用训练集对深度网络进行训练得到的，所述深度网络是基于transformer构建的；

6、将待重建场景划分为多个网格单元；

7、初始化各所述网格单元的多层感知机，得到多个初始多层感知机；网格单元和多层感知机一一对应；

8、分别对各彩色图像上各像素点对应的相机的射线进行采样，得到各射线的多个采样点，并确定各采样点的空间参数；一个网格单元对应多个像素点，一个像素点对应一条射线；所述空间参数包括：三维空间坐标和观察方向；

9、利用所有场景深度图上的多组随机像素点组的深度值以及各随机像素点组对应的射线上所有采样点的空间参数，对所有初始多层感知机进行多轮次训练，得到各网格单元的目标多层感知机；随机像素点组为在所述场景深度图上随机选择的两个像素点；

10、基于各目标感知机输出的所有采样点的场景表征，对所述待重建场景进行三维重建；所述场景表征包括：rgb颜色和体积密度。

11、可选地，所述预训练深度模型的训练过程，包括：

12、获取训练集；所述训练集包括：多个训练用场景的彩色图像和对应的实际场景深度图；

13、构建所述深度网络；所述深度网络包括：嵌入层、多个transformer、多个重组层、多个融合模块和检测头；

14、以各训练用场景的彩色图像为输入，以对应的实际场景深度图为输出，对所述深度网络进行训练，得到所述预训练深度模型。

15、可选地，利用所有场景深度图上的多组随机像素点组的深度值以及各随机像素点组对应的射线上所有采样点的空间参数，对所有初始多层感知机进行多轮次训练，得到各网格单元的目标多层感知机，包括：

16、任一当前轮次下的各网格单元的多层感知机的训练过程包括：

17、将任一彩色图像上任一像素点确定为当前像素点，将当前像素点对应的射线确定为当前射线；

18、将各网格单元的上一轮次下的更新后的多层感知机确定为各网格单元的当前轮次下的多层感知机；

19、基于当前射线上的各采样点的空间参数以及当前射线对应的网格单元的当前轮次下的多层感知机，确定各采样点的当前轮次下的场景表征；

20、基于当前射线上的所有采样点的当前轮次下的场景表征，确定当前射线在当前轮次下的像素颜色和深度值；

21、基于所有彩色图像上的所有像素点的像素颜色和对应射线在当前轮次下的像素颜色以及所有场景深度图上的多组随机像素点组的深度值和对应射线在当前轮次下的深度值，确定当前轮次下的损失值；

22、判断是否满足训练停止条件；所述训练停止条件为当前轮次达到预设训练次数或当前轮次下的损失值小于预设损失；

23、若是，则将各网格单元的当前轮次下的多层感知机确定为各网格单元的目标多层感知机；

24、若否，则对各网格单元的当前轮次下的多层感知机进行更新，得到各网格单元的当前轮次下的更新后的多层感知机，并将各网格单元的上一轮次下的更新后的多层感知机更新为各网格单元的当前轮次下的更新后的多层感知机，返回“将各网格单元的上一轮次下的更新后的多层感知机确定为各网格单元的当前轮次下的多层感知机”，直到得到各网格单元的目标多层感知机。

25、可选地，基于当前射线上的各采样点的空间参数以及当前射线对应的网格单元的当前轮次下的多层感知机，确定各采样点的当前轮次下的场景表征，包括：

26、分别对当前射线上的各采样点的空间参数进行升维编码，得到当前射线上的各采样点的升维后的空间参数；

27、将当前射线上的各采样点的升维后的空间参数，分别输入至当前射线对应的网格单元的当前轮次下的多层感知机中，得到各采样点的当前轮次下的场景表征。

28、可选地，基于当前射线上的所有本文档来自技高网...

【技术保护点】

1.一种基于神经辐射场的场景三维重建方法，其特征在于，所述基于神经辐射场的场景三维重建方法包括：

2.根据权利要求1所述的基于神经辐射场的场景三维重建方法，其特征在于，所述预训练深度模型的训练过程，包括：

3.根据权利要求1所述的基于神经辐射场的场景三维重建方法，其特征在于，利用所有场景深度图上的多组随机像素点组的深度值以及各随机像素点组对应的射线上所有采样点的空间参数，对所有初始多层感知机进行多轮次训练，得到各网格单元的目标多层感知机，包括：

4.根据权利要求3所述的基于神经辐射场的场景三维重建方法，其特征在于，基于当前射线上的各采样点的空间参数以及当前射线对应的网格单元的当前轮次下的多层感知机，确定各采样点的当前轮次下的场景表征，包括：

5.根据权利要求3所述的基于神经辐射场的场景三维重建方法，其特征在于，基于当前射线上的所有采样点的当前轮次下的场景表征，确定当前射线在当前轮次下的像素颜色和深度值，包括：

6.根据权利要求3所述的基于神经辐射场的场景三维重建方法，其特征在于，基于所有彩色图像上的所有像素点的像素颜色和

7.根据权利要求6所述的基于神经辐射场的场景三维重建方法，其特征在于，基于所有场景深度图上的多组随机像素点组的深度值和对应射线在当前轮次下的深度值，计算当前轮次下的深度约束值，包括：

8.一种计算机装置，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-7中任一项所述基于神经辐射场的场景三维重建方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-7中任一项所述基于神经辐射场的场景三维重建方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-7中任一项所述基于神经辐射场的场景三维重建方法。

...

【技术特征摘要】

1.一种基于神经辐射场的场景三维重建方法，其特征在于，所述基于神经辐射场的场景三维重建方法包括：

2.根据权利要求1所述的基于神经辐射场的场景三维重建方法，其特征在于，所述预训练深度模型的训练过程，包括：

6.根据权利要求3所述的基于神经辐射场的场景三维重...

【专利技术属性】
技术研发人员：赵景波，张家恺，孟欢，赵子豪，李彤彤，
申请(专利权)人：青岛理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人