多场景多视角图像生成模型、方法、设备和存储介质技术

技术编号：42956040 阅读：44 留言：0更新日期：2024-10-11 16:13

本发明专利技术提供了一种多场景多视角图像生成模型、方法、设备和存储介质。模型建立方法包括：基于多场景多视角的图像数据，对神经网络进行训练；其中，在神经网络的位置编码的处理中，多个场景的位置编码向量正交；神经网络生成的图片不仅与目标场景差异尽可能小还与非目标场景差异尽可能大；待所述训练合格后，得到所述多场景多视角图像生成模型。多场景多视角图像生成方法基于建立的模型来实现。计算机设备包括：处理器，存储有用于执行上述方法的指令，程序指令由处理器执行。存储介质上存储被处理器执行时实现上述方法的计算机程序指令。本发明专利技术扩展了原有NeRF算法/神经网络的能力，通过同一个NeRF神经网络可以生成多个场景的图片。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，具体来讲，涉及多场景多视角图像生成模型、方法、设备和存储介质。

技术介绍

1、在建筑设计施工、室内装修等领域中，常常需要获得某一空间或者场景的三维数字化信息或者特定视角的图像。传统方案往往通过手工测量绘制，或者利用激光雷达等设备，扫描场景的三维精确位置和尺寸信息，进而对空间和场景进行三维数字化，获得多个视角的图像，但这类方案往往工作量巨大，投入和成本较高，易用性较差。

2、近年来随着神经网络技术的快速发展，利用神经网络的强大表征能力，能够利用较少的多视角图片信息，对三维空间进行重建。谷歌在2020年提出了一种方法，利用多张相同摄像机拍摄的场景信息，结合相机拍摄时的位置和朝向(位姿)信息，可以将场景的三维信息用神经网络进行隐式表示。具体而言，该网络的输入为相机的位姿，输出为所在相机所看到的三维空间的二维投影。即对训练好的网络，任意输入某一相机位姿信息，可以输出对应的三维视角图像。将该方法利用在室内设计中，可大大降低场景数字化的成本，实现快速的场景三维重建。

3、神经网络辐射场nerf技术主要通过输入相机的任意的位姿，输出得到该相机镜头下的二维图形。神经网络包括训练阶段，根据位姿和该位姿下的二维图像，训练神经网络。现有nerf神经网络训练过程如图1所示。输入为有限数量的相机位姿，以及对应的该位姿下的真实图像，经过nerf神经网络计算，得到预测的rgbs值，再将预测的rgbs值与真实图像的rgbs进行对比，得到该轮次的损失，并将该损失反馈到神经网络模块，进行权值更新。当nerf神经网络训

4、需要说明的是，输入的一组有限数量的位姿和对应的图像，需要是在同一场景下获得的，例如用相机在不同位置拍摄同一个物体所得到的不同图像。因此，通过现有nerf神经网络训练方法得到的nerf神经网络模型，只能用于建模某一个场景的信息，无法实现同一个nerf神经网络对多个场景进行建模。

技术实现思路

1、本专利技术的目的在于解决现有技术存在的上述不足中的至少一项。例如，本专利技术的目的之一在于实现对nerf神经网络进行扩展，以支撑多场景多视角的图像。

2、为了实现上述目的，本专利技术一方面提供了一种多场景多视角图像生成模型的建立方法。

3、所述建立方法可包括步骤：基于多场景多视角的图像数据，对神经网络进行训练；其中，在神经网络的位置编码的处理中，多个场景的位置编码向量正交；神经网络生成的图片不仅与目标场景差异尽可能小还与非目标场景差异尽可能大；待所述训练合格后，得到所述多场景多视角图像生成模型。

4、在本实施例中，每个场景的每个视角的所述图像数据可包括：呈对应关系的位姿数据和真实图像。

5、在本实施例中，每个场景的位姿数据的集合可表示为(xk，yk，zk，mk，nk)；其中，对于位置参数(xk，yk，zk)，利用式1进行位置编码的处理：

6、式1为：γk(p)＝(sin((kt0+k)πp)，cos((kt1+k)πp)，...，(sin((ktl-1+k)πp)，cos((ktl-1+k)πp)；

7、其中，p∈(xk，yk，zk)，k为相位偏移，γk(p)为编码后的位置向量；l为正整数，表示需要扩展到的维度；底数kt取任何大于场景数目k的值，kt0、kt1、…、ktl-1为第t组基频。

8、在本实施例中，将方向参数(mk，nk)进行位置编码的过程可包括：利用以下公式将方位参数的极坐标(mk，nk)转化为空间坐标：

9、x′k＝sin(mk)*cos(nk)，

10、y′k＝sin(mk)*sin(nk)，

11、z′k＝cos(mk)；

12、再利用所述式1将转化后的空间坐标进行编码。

13、进一步地，该步骤所利用式1中l的取值，与所述位置参数进行编码所利用的式1中l的取值可以相同，也可以不同。

14、在本实施例中，可通过损失函数l2来实现所述神经网络生成的图片与非目标场景差异尽可能大，其中，损失函数l2为：

15、

16、其中，r和rt分别为任意两个不同场景下的视角数据；r1和r2分别为任意两个不同场景下的视角数据集；和分别表示经过神经网络的粗预测值和精细预测值；c(rt)为真实的像素点值，包括rgb和透明度。

17、在本实施例中，所述神经网络可以是本领域常用的的神经网络，例如可以是采用resnet/全连接的nerf神经网络，也可以是基于别的神经网络结构实现，如transformer，swin-transformer等结构。

18、本专利技术另一方面提供了一种多场景多视角图像生成模型。

19、所述模型由如上所述的建立方法得到。

20、本专利技术再一方面提供一种多场景多视角图像生成方法。

21、所述方法可以基于如上所述的多场景多视角图像生成模型来实现。

22、本专利技术又一方面提供一种计算机设备。

23、所述设备包括：至少一个处理器；存储有程序指令的存储器，其中，所述程序指令被配置为由所述至少一个处理器执行，所述程序指令包括用于执行根据上述多场景多视角图像生成模型的建立方法的指令，或者执行上述多场景多视角图像生成方法的指令。

24、本专利技术又一方面提供一种计算机可读存储介质。

25、介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述多场景多视角图像生成模型的建立方法，或者实现上述多场景多视角图像生成方法。

26、与现有技术相比，本专利技术的有益效果包括：本专利技术通过修改原有nerf的位置编码，损失函数的形式，扩展了原有nerf算法/神经网络的能力，使得使用同一个nerf神经网络可以生成多个场景的图片。

本文档来自技高网...

【技术保护点】

1.一种多场景多视角图像生成模型的建立方法，其特征在于，所述方法包括步骤：

2.根据权利要求1所述的多场景多视角图像生成模型的建立方法，其特征在于，每个场景的每个视角的所述图像数据包括：呈对应关系的位姿数据和真实图像。

3.根据权利要求2所述的多场景多视角图像生成模型的建立方法，其特征在于，每个场景的所述位姿数据的集合表示为(xk,yk,zk,mk,nk)；其中，

4.根据权利要求3所述的多场景多视角图像生成模型的建立方法，其特征在于，将方向参数(mk,nk)进行位置编码的过程包括：

5.根据权利要求1所述的多场景多视角图像生成模型的建立方法，其特征在于，通过损失函数L2来实现所述神经网络生成的图片与非目标场景差异尽可能大，其中，损失函数L2为：

6.一种多场景多视角图像生成模型，其特征在于，所述模型由权利要求1至5中任一项所述的建立方法得到。

7.一种多场景多视角图像生成方法，其特征在于，所述方法基于权利要求6的多场景多视角图像生成模型来实现。

8.一种多场景多视角图像生成方法，其特征在于，所述

9.一种计算机设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现1至5任一所述方法，或者实现权利要求7或8所述方法。

...

【技术特征摘要】

1.一种多场景多视角图像生成模型的建立方法，其特征在于，所述方法包括步骤：

3.根据权利要求2所述的多场景多视角图像生成模型的建立方法，其特征在于，每个场景的所述位姿数据的集合表示为(xk,yk,zk,mk,nk)；其中，

4.根据权利要求3所述的多场景多视角图像生成模型的建立方法，其特征在于，将方向参数(mk,nk)进行位置编码的过程包括：

5.根据权利要求1所述的多场景多视角图像生成模型的建立方法，其特征在于，通过损失函数l2来实现所述神经网络生...

【专利技术属性】
技术研发人员：杜羽菲，张云鹤，魏大平，骆杰，
申请(专利权)人：四川建筑职业技术学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人