基于全局语义信息和局部几何感知的神经渲染方法及系统技术方案

技术编号：42620201 阅读：27 留言：0更新日期：2024-09-06 01:24

本发明专利技术提供一种基于全局语义信息和局部几何感知的神经渲染方法及系统，其中的方法包括：从多张输入图像中提取多尺度图像特征；利用所述多尺度图像特征和采样点的三维空间坐标，分别得到所述采样点对应的局部特征和全局特征；将所述局部特征、全局特征和所述采样点的位置编码送入预设的视图合成模块进行视图渲染，生成新视角下的图像。本发明专利技术通过具有多层级结构的视图合成模型架构，使用多尺度特征图训练模型在不同尺度上捕获场景信息，并通过全局特征辅助局部特征，有助于提高合成图像的质量，尤其是在复杂场景或存在多尺度结构的情况下，能够更好的确保场景的视图一致性以及在不同场景间的泛化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能下的计算机视觉，更为具体地，涉及一种基于全局语义信息和局部几何感知的神经渲染方法及系统。

技术介绍

1、神经渲染技术是一种利用深度神经网络解决新视图合成问题的技术。在三维重建、虚拟现实和增强现实等领域都有着广泛的应用，例如：全景舞台、元宇宙的场景搭建。其中，新视图合成任务是指根据给定源图像、源姿态以及目标姿态，渲染生成目标姿态对应图片的过程。传统的视图合成技术通常需要大量手工工程和参数调整，且在处理复杂场景和深度感知等方面存在一定局限性。随着多媒体技术不断发展，人们对视频质量和内容的要求越来越高，并且越来越关注视频的交互和视觉感官体验，二维的平面视频缺乏自然界中物体的深度信息，会使人的视觉缺乏立体深度从而产生失真感。因此，在实际应用中迫切需要可泛化的神经渲染方法，以低成本高质量地实现新视图生成。

2、现有的用于视图合成的神经渲染方法的研究，主要从以下三个方向进行提升：图像渲染的速度、渲染的图像质量和模型的泛化能力。其中，对于实时或交互性应用，一些神经渲染技术的运行时延迟可能会较高，导致用户体验下降，因此，图像的渲染速度对于虚拟现实、增强现实等应用尤为重要。神经渲染技术有时候会生成伪像或伪结构，特别是在处理复杂场景或视角变化较大的情况下，这些伪像可能会降低合成图像的真实性和质量，因此，渲染的图像质量的提升也是现有的用于视图合成的神经渲染的研究重点之一。一些神经渲染技术可能在训练数据之外的情况下泛化能力较差。这意味着在不同的环境或条件下，合成结果可能会出现问题，如颜色失真或形状变形，因此，模型的泛化

3、新视图合成任务属于计算机视觉和计算机图形学相结合领域的任务，目的在于生成未见视角下的场景图像。mildenhall等人提出神经辐射场首次使用隐式表示实现照片级的新视图合成效果，用多层感知机拟合一个连续函数来隐式地学习一个静态三维场景，但其存在泛化性差、计算量大、只针对静态场景、训练和推断速度慢等问题。yu等人提出pixelnerf，利用卷积神经网络提取参考视图的图像特征作为先验条件，从而实现对新场景的泛化，但该方法使用绝对位置和方向作为输入，很大程度降低了场景的泛化效果。类似地，ibrnet也使用深度特征和类似神经辐射场的体渲染，学习从相邻视图中为光线中的每个点混合颜色。ibrnet使用视图方向之间的差异作为mlp输入，虽然优于绝对坐标，但相对视图方向仍然依赖于场景特定的全局参考框架。chen等人提出了mvsnerf，从深度视觉特征中构建代价体积，是一种新的局部表征方式，同空间坐标点位置和方向一同作为输入，从而实现模型泛化性。sajjadi等人提出的srt方法同样使用基于图像自监督的新视图合成模型。suhail等人提出的nlf使用基于注意力的框架来显示具有视图一致性的光场，其中第一个transformer独立聚合极线上的信息，第二个transformer融合极线特征。在其后一年，该团队提出gpnr通过注意力机制实现跨视图通信，新增了一个用于预测目标颜色的transformer。此外，与gpnr同期进行研究的gnt方法也使用了基于注意力的神经渲染架构。与gpnr不同的是gnt优化了编码方式，从而享有更整洁的设计空间。同时gnt简化了gpnr的三阶段合成流程，使用两阶段的合成方式。

4、以上的方法通过使用不同的场景表征来使模型具有泛化能力，但除了srt之外都仅仅使用局部几何特征，在复杂场景上的泛化能力弱。而srt模型仅用到了全局语义信息，且该模型仅限于低分辨率图像(最大尺寸为178×128像素)，在高分辨率图像上有着极大的运算量和内存占用。因此，如何有效提高新视图合成任务的渲染质量和泛化能力，成为目前新视图合成领域的重点研究方向之一。

技术实现思路

1、鉴于上述目前新视图合成领域存在的渲染质量低和泛化性差问题，本专利技术的目的是提供一种基于全局语义信息和局部几何感知的可泛化神经渲染方案，以提升新视角下图像的渲染质量，并且能在不同场景之间达到泛化效果。

2、一方面，本专利技术提供一种基于全局语义信息和局部几何感知的神经渲染方法，包括如下步骤：

3、s110：从多张输入图像中提取多尺度图像特征；其中，所述多尺度包括大尺度、中尺度和小尺度，所述多张输入图像为从当前场景中多张已知视角的图像中选取的预设数量个图像；

4、s120：利用所述大尺度下的图像特征，依据预设的transformer编码器得到所述当前场景的全局特征；以及分别利用所述中尺度、小尺度下的图像特征和采样点的三维空间坐标，依据极线几何约束得到所述采样点对应中尺度和小尺度下的局部特征；

5、s130：将所述采样点对应的局部特征、全局特征和所述采样点的位置编码送入预设的视图合成模块进行视图渲染，生成新视角下的图像；其中，所述采样点的位置编码通过对采样点的三维空间坐标进行正余弦编码获得。

6、其中，可选的方案是，所述多尺度图像特征基于预设的多尺度特征提取网络提取；其中，所述多尺度特征提取网络基于下采样层、卷积层、归一化层和激活层的多层网络层级结构搭建；

7、所述多张输入图像依次经过不同分辨率的网络层，逐层增大感受野，整合每层输出的不同尺度的特征图，形成大尺度、中尺度、小尺度三个尺度下的特征图集，作为所述多尺度图像特征。

8、其中，可选的方案是，所述采样点的提取方法包括：根据目标视角的相机位置信息，生成目标视图图像中每个像素点对应的光线；在所述光线的不同深度上提取采样点。

9、其中，可选的方案是，所述采样点的提取方法包括：

10、利用目标视图图像的宽高生成二维坐标网格(u,v)，覆盖所述目标视图像的所有像素；

11、利用所述目标视角的相机外参矩阵中的旋转矩阵以及内参矩阵的逆矩阵计算所述二维坐标网格中每个像素点对应的光线的方向；以及，利用所述目标视角的相机外参矩阵中的平移矩阵以及内参矩阵的逆矩阵计算所述二维坐标网格中每个像素对应的光线的原点坐标；

12、在所述光线的不同深度上均匀采样提取中尺度上的采样点；以及，根据预设的中尺度网络输出的重要性分布，对所述光线进行自适应采样提取小尺度上的采样点。

13、其中，可选的方案是，所述分别利用所述中尺度、小尺度下的图像特征和采样点的三维空间坐标，依据极线几何约束得到所述采样点对应的中尺度和小尺度下的局部特征，包括：

14、利用所述多尺度图像特征和采样点的三维空间坐标，依据极线几何约束计算每个采样点在中尺度、小尺度下不同输入图像上的映射，以得到每个采样点对应的特征值；将所述每个采样点对应的特征值与每个像素点的rgb值进行级联，以得到所述每个采样点在中尺度和小尺度特征图上的特征值，作为所述每个采样点对应的局部特征。

15、其中，可选的方案是，所述利用所述大尺度图像特征，依据预设的transformer编码器得到所述当前场景的全局特征，包括：利用预设的全局特征提取trans本文档来自技高网...

【技术保护点】

1.一种基于全局语义信息和局部几何感知的神经渲染方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于全局语义信息和局部几何感知的神经渲染方法，其特征在于，所述多尺度图像特征基于预设的多尺度特征提取网络提取；其中，所述多尺度特征提取网络基于下采样层、卷积层、归一化层和激活层的多层网络层级结构搭建；

3.如权利要求1所述的基于全局语义信息和局部几何感知的神经渲染方法，其特征在于，所述采样点的提取方法包括：

4.如权利要求3所述的基于全局语义信息和局部几何感知的神经渲染方法，其特征在于，所述采样点的提取方法包括：

5.如权利要求4所述的基于全局语义信息和局部几何感知的神经渲染方法，其特征在于，所述分别利用所述中尺度、小尺度下的图像特征和采样点的三维空间坐标，依据极线几何约束得到所述采样点对应的中尺度和小尺度下的局部特征，包括：

6.如权利要求4所述的基于全局语义信息和局部几何感知的神经渲染方法，其特征在于，所述利用所述大尺度图像特征，依据预设的Transformer编码器得到所述当前场景的全局特征，包括：

8.如权利要求7所述的基于全局语义信息和局部几何感知的神经渲染方法，其特征在于，在利用预设的视图合成模块进行视图渲染之前，还包括：

9.如权利要求8所述的基于全局语义信息和局部几何感知的神经渲染方法，其特征在于，将所述全局特征、所述中间特征值和采样点的位置编码作为像素生成Transformer的输入，输出当前尺度下的目标光线特征；计算公式如下：

10.一种基于全局语义信息和局部几何感知的神经渲染系统，利用如权利要求1-9中任一项所述的基于全局语义信息和局部几何感知的神经渲染方法进行新视图合成，包括：

...

【技术特征摘要】

1.一种基于全局语义信息和局部几何感知的神经渲染方法，其特征在于，包括如下步骤：

3.如权利要求1所述的基于全局语义信息和局部几何感知的神经渲染方法，其特征在于，所述采样点的提取方法包括：

4.如权利要求3所述的基于全局语义信息和局部几何感知的神经渲染方法，其特征在于，所述采样点的提取方法包括：

6.如权利要求4所述的基于全局语义...

【专利技术属性】
技术研发人员：方力，王优，胡飞，叶龙，
申请(专利权)人：中国传媒大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人