一种基于可变形位姿模糊核的NeRF三维重建方法技术

技术编号：43767559 阅读：3 留言：0更新日期：2024-12-24 16:08

本发明专利技术公开了一种基于可变形位姿模糊核的NeRF三维重建方法。首先针对同一场景下不同视角拍摄的模糊图像进行信息提取，得到像素矩阵和估计位姿信息。为每张模糊图像创建一个模糊核与视角编码表示，使用多层感知机对模糊核进行变形。参数化估计曝光开始和结束时的相机位姿，根据核点的数量对相机位姿进行线性插值。然后将模糊核与估计的相机位姿序列输入射线编码层，通过估计相机运动过程中的位姿建模出多条相邻帧中其他的射线，再根据目标模糊核调整射线对应的权重，让目标像素生成有效提取相邻帧的像素信息，从而使得重建的模糊像素更接近真实图像。在场景重建阶段，通过移除模糊核直接对新视角的射线进行渲染，得到清晰场景的输出。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像数据处理，涉及三维重建方法，具体涉及一种基于可变形位姿模糊核的nerf三维重建方法。

技术介绍

1、三维重建是通过从二维图像或其他数据源（激光雷达数据、深度传感器等）中获取的信息，创建或还原出三维物体和场景的过程。随着算力的不断提高，三维重建成为许多现实应用的关键技术，例如虚拟现实和增强现实、医学影像处理等。

2、三维重建传统的方法通常用三维点云、三角形网格或体积网络来显式地表示一个三维物体或场景。而与传统的三维重建方法不同，神经辐射场(neural radiance field,nerf)是一种新颖有效的隐式场景表示，nerf通过一个多层感知机(mlp)，以连续的体积函数形式来表示场景中每个点的颜色和密度。基于nerf的三维重建就是通过二维图像和对应的相机位姿训练一个带有三维场景信息的多层感知机(mlp)，再通过体渲染将训练完成的隐式场景渲染成显式静态三维场景的技术。

3、在现实应用(如医学影像、无人机拍摄)的图像获取的过程中，不可避免的会产生不同程度的信息丢失，比较常见的情况就是运动模糊，即由于相机或物体在曝光的过程中发生了移动，导致图像产生了模糊伪影。使用带有运动模糊的图像训练nerf会很大程度影响最终三维场景重建的效果。现有技术一般在训练过程中使用模糊核来模拟运动模糊，在推理阶段则移除模糊核，一定程度上解决了带有运动模糊的图像对nerf重建带来的影响。该方法需要预设图像的真实相机位姿，但在现实场景下，一般通过colmap软件估计来得到相机位姿。而带有运动模糊的图像会使该软件获取的

技术实现思路

1、针对现有技术的不足，本专利技术提出一种基于可变形位姿模糊核的nerf三维重建方法，针对模糊图像和相机位姿未知的情况，通过对估计相机位姿进行插值产生相机位姿序列，并结合可变形模糊核来模拟运动模糊的产生，最小化生成的运动模糊和真实模糊的损失来优化可变形模糊核与相机位姿，在场景重建阶段移除模糊核以解决模糊图像输入和相机位姿未知的问题。

2、一种基于可变形位姿模糊核的nerf三维重建方法，具体包括以下步骤：

3、步骤1、模糊图像数据提取和处理

4、模糊图像数据提取和处理是从多张输入的模糊图像中提取出图像信息和估计位姿信息，方便后续模拟运动模糊进行处理，具体包括以下步骤：

5、步骤1.1、输入数据集提取。

6、针对同一场景下不同视角拍摄的张模糊图像进行像素信息的提取，用向量表示，表示输入的第a张图像的像素矩阵。读取图像对应的估计位姿信息，表示第a张图像对应的相机位姿矩阵，包括一个大小为3×3的旋转矩阵，和一个3维列向量，其中旋转矩阵描述了相机在世界坐标系中的旋转信息，向量表示了相机在世界坐标系中的平移信息。

7、步骤1.2、位姿信息处理。

8、对每张图像的相机位姿矩阵添加随机扰动，参数化估计曝光开始时的相机位姿和曝光结束时的位姿，其中为李代数，是一个6维向量。将得到的相机位姿估计信息进行拼接，得到集合和，其中，和分别表示在一次相机曝光中，相机位姿的起始位置和终止位置的估计信息集合。

9、步骤1.3、模糊核信息初始化。

10、针对m张模糊图片创建m个初始模糊核和对应的视角编码表示。其中，是一个模糊核的核点数量，表示核点在模糊核中的归一化坐标，使用正态分布对其进行随机初始化。将视角编码表示的向量值初始化为0。

11、步骤2、模糊核变形

12、获取模糊图像信息和相机位姿信息后，针对第张图片坐标处模糊像素的生成，根据视角编码和像素坐标对初始模糊核进行变形，具体步骤如下：

13、步骤2.1、根据模糊图像选择对应的初始模糊核，首先将中的核点通过反归一化得到，然后将新核点进行正态分布的随机性扰动，得到，构成新的模糊核。对模糊核中的个核点像素坐标进行采样编码，生成二维向量。

14、步骤2.2、根据模糊图像选择对应的视角编码，将视角编码根据模糊核的核点数量n进行复制扩展操作，得到二维向量，然后将和拼接得到二维向量表示。计算所要生成的模糊像素的坐标的一维向量表示，再进行复制扩展操作得到二维向量，与拼接处理得到二维向量。

15、步骤2.3、将步骤2.2得到的向量输入第一个mlp层中，再将得到的输出与向量拼接得到向量。再将输入到第二个mlp层中:

16、

17、

18、其中是核点的偏移，是核点合成模糊像素时的权重。

19、步骤2.4、用步骤2.3得到的核点偏移来对模糊核进行变形得到。

20、步骤3、模糊像素渲染

21、根据步骤2得到的模糊核，模拟运动模糊像素的生成，同时完成模型训练，具体步骤如下：

22、步骤3.1在射线编码获取前，需要对曝光相机位姿进行估计，根据步骤2得到变形模糊核中核点数量n，对步骤1得到的相机位姿、进行线性插值：

23、

24、表示曝光时刻。表示在曝光过程中t时刻的插值得到的估计相机位姿，将进行拼接，得到模糊核对应的估计相机位姿序列。

25、步骤3.2、根据相机内参矩阵和步骤3.1得到的估计相机位姿序列，将步骤2输出的模糊核中对应的核点信息通过射线编码转换成射线表示：

26、

27、其中分别是表示射线起点和方向的向量。将n个核点和估计相机位姿分别处理后得到射线组。

28、步骤3.3、将步骤3.2得到的射线组rays输入nerf中，渲染得到像素rgb集合表示:

29、

30、其中，代表每个射线渲染得到的rgb值，是nerf模型的参数。

31、步骤3.4、根据步骤2.3得到的权重对nerf模型输出的结果进行加权求和，得到模拟的模糊像素rgb表示：

32、

33、步骤3.5在损失函数上添加了结构性损失，构建损失函数：

34、

35、

36、其中，表示真实模糊像素的rgb值，b是模糊像素集合，是结构性损失的权重参数，是一个超参数。表示在预测像素集合中随机取一个像素集合和训练集中对应像素集合计算ssim质量标准，其目的是在逐一计算像素时考虑到结构上的信息，提高重建的效果。

37、使损失函数最小化，优化模型参数、、、、。其中代表的参数，。

38、步骤4、场景重建

39、完成步骤2、3的训练后，选择个连续的生成视角，将对应的相机位姿矩阵依次输入nerf，进而得到像素组集合，像素组，h和w分别是帧图像的高和宽，c表示像素颜色。使用图像处理工具操作s中像素组，得到连续的生成视图表示，表示重建的一帧二维视图。

40、将连续的新视图im作为清晰场景输出的帧数据，输出重建后的清晰场景。

41、本专利技术具有以下有益效果：

42、1、针对运本文档来自技高网...

【技术保护点】

1.一种基于可变形位姿模糊核的NeRF三维重建方法，其特征在于：具体包括以下步骤：

2.如权利要求1所述一种基于可变形位姿模糊核的NeRF三维重建方法，其特征在于：所述相机位姿矩阵，包括一个大小为3×3的旋转矩阵，和一个3维列向量，其中旋转矩阵描述了相机在世界坐标系中的旋转信息，向量表示了相机在世界坐标系中的平移信息。

3.如权利要求1所述一种基于可变形位姿模糊核的NeRF三维重建方法，其特征在于：针对m张模糊图片创建m个初始模糊核和对应的视角编码表示；其中，表示核点在模糊核中的归一化坐标，使用正态分布对其进行随机初始化。将视角编码表示的向量值直接初始化为0。

4.如权利要求1所述一种基于可变形位姿模糊核的NeRF三维重建方法，其特征在于：对初始模糊核进行变形，具体步骤为：

5.如权利要求1所述一种基于可变形位姿模糊核的NeRF三维重建方法，其特征在于：所述损失函数为：

6.如权利要求1所述一种基于可变形位姿模糊核的NeRF三维重建方法，其特征在于：选择个连续的生成视角，将对应的相机位姿矩阵依次输入训练后的NeRF，得到

7.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1~6中任一项所述的方法。

...

【技术特征摘要】

1.一种基于可变形位姿模糊核的nerf三维重建方法，其特征在于：具体包括以下步骤：

2.如权利要求1所述一种基于可变形位姿模糊核的nerf三维重建方法，其特征在于：所述相机位姿矩阵，包括一个大小为3×3的旋转矩阵，和一个3维列向量，其中旋转矩阵描述了相机在世界坐标系中的旋转信息，向量表示了相机在世界坐标系中的平移信息。

3.如权利要求1所述一种基于可变形位姿模糊核的nerf三维重建方法，其特征在于：针对m张模糊图片创建m个初始模糊核和对应的视角编码表示；其中，表示核点在模糊核中的归一化坐标，使用正态分布对其进行随机初始化。将视角编码表示的向量值直接初始化为0。

4.如权利要求1所述一种基于可变形位姿模糊核的nerf三维重建方法，...

【专利技术属性】
技术研发人员：冯建文，陈杰，丁强，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人