矢量量化可变换瓶颈网络制造技术

技术编号：43382373 阅读：23 留言：0更新日期：2024-11-19 17:58

从2D图像中提取的对象的3D结构和外观在体积网格中表示，该体积网格包含表示对象的外观和形状的不同方面的值的量化特征矢量，诸如限定了对象的局部特征、结构或颜色。编码器‑解码器框架将空间变换直接应用于编码图像内容的潜在体积表示。对体积表示进行量化，以大大减少表示图像内容所需的空间。体积表示在空间上也是解开的，使得每个体素充当原始构建块，并支持各种操纵，包括新颖的视图合成和非刚性的创造性操纵。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本文阐述的示例总体上涉及数字对象的量化体积表示，并且特别是涉及用于执行灵活的图像内容操纵和新颖的视图合成(nvs)的方法和系统。

技术介绍

1、在计算机系统中，对象通常通过其形状和纹理进行描述。许多方法可被用于对对象形状进行建模，包括隐式曲面、符号距离函数、基于基元的表示和体素化表示。纹理也可以使用各种方法来表示。尽管形状和纹理变化很大，但对象可以通过一组紧凑的组分或基元构建块来有效地表示。例如，尽管存在空间变化，但诸如汽车或树木的对象可以合理地被描述为“绿色的树”或“红色的汽车”，表明主要组分。这种推理表明，有限或量化表示足以对三维(3d)对象进行建模，并且是使用编码器(诸如量化变分自动编码器(vq-vae))的几种最新二维(2d)图像建模技术的基础，其将图像表示为离散图像特征的组合。在这种系统中，图像可以由离散的模态(诸如文本)来描述，并且因此可以直接学习离散表示。然而，表示3d对象是一个更复杂的问题。

技术实现思路

【技术保护点】

1.一种将输入图像变换为目标图像的方法，所述方法包括：

2.根据权利要求1所述的方法，还包括在量化所述变换的体积之前，对所述变换的体积进行重采样，以对应于所述目标图像的视图中的图像内容的布局。

3.根据权利要求1所述的方法，还包括在所述输入图像中的同一对象的两个视图之间进行插值，或者对在所述输入图像的同一视图或相似视图中的两个不同对象进行插值。

4.根据权利要求1所述的方法，其中，所述输入图像是以给定方位捕获的红、绿、蓝(RGB)图像，并且其中，生成所述输入图象的空间上解开体积表示包括由所述编码器使用可学习参数生成所述输入图象的内容的体积表示，由此所述体积表示中的每个单元包含描述了所述输入图像中对应区域的局部形状和外观的特征矢量。

5.根据权利要求4所述的方法，其中，所述体积表示被定义在所述输入图像的视图空间内，使得深度维度对应于距相机的距离。

6.根据权利要求4所述的方法，其中，在所述输入图像的视图和所述目标图像的视图之间执行所述输入图像的空间上解开的体积表示的相对方位变换以形成变换的体积包括使用三线性重采样操作，三线

7.根据权利要求1所述的方法，还包括从所述输入图像中的对象的多个输入视图接收信息、将所述多个输入视图变换为所述目标图像的视图、以及在解码所述去量化图像之前计算所述特征矢量的每单元平均值。

8.根据权利要求1所述的方法，其中，表示所述输入图像的相对方位的所述空间上解开的体积表示的所述特征矢量包括2D特征图，还包括由所述编码器对所述2D特征图进行整形以生成空间变换的3D特征图，以及由所述解码器对所述空间变换的3D特征图进行整形以生成所述目标图像的2D特征图。

9.根据权利要求1所述的方法，还包括使用至少一个多视图数据集来训练所述码本，在所述多视图数据集中，随机选择源图像和目标图像，并将对应的方位变换应用于编码的源图像瓶颈以产生被量化和解码的结果，从而在所述码本中合成合成的图像。

10.根据权利要求9所述的方法，其中，训练所述码本包括使用具有可学习参数的鉴别器网络来采用对抗损失，并在训练期间使用所述对抗损失来优化所述码本。

11.根据权利要求10所述的方法，其中，训练所述码本还包括通过使用在真实和重建图像之间测量的重建损失以及输入相对于图像生成器的最后一层的梯度来选择应用于所述对抗损失的对抗损失权重。

12.一种将输入图像变换为目标图像的系统，所述系统包括：

13.根据权利要求12所述的系统，其中，所述特征矢量定义了限定所述输入图像中的对象的局部特征、结构或颜色中的至少一个。

14.根据权利要求12所述的系统，还包括处理器和存储计算机可读指令的存储器，所述计算机可读指令在由所述处理器执行时配置所述系统以执行操作，所述操作包括在量化所述变换的体积之前对所述变换的体积进行重采样，以对应于所述目标图像的视图中的图像内容的布局。

15.根据权利要求12所述的系统，还包括处理器和存储计算机可读指令的存储器，所述计算机可读指令在由所述处理器执行时配置所述系统以执行操作，所述操作包括在所述输入图像中的同一对象的两个视图之间进行插值，或对在所述输入图像的同一视图或类似视图中的两个不同对象进行插值。

16.根据权利要求12所述的系统，其中，所述输入图像是以给定方位捕获的红、绿、蓝(RGB)图像，并且所述体积表示被定义在所述输入图象的视图空间内，使得深度维度对应于距相机的距离，并且其中，所述编码器通过使用可学习参数生成所述输入图像的内容的体积表示来生成所述输入图像的空间上解开体积表示，由此所述体积表示中的每个单元包含描述所述输入图像中对应区域的局部形状和外观的特征矢量。

17.根据权利要求16所述的系统，还包括处理器和存储计算机可读指令的存储器，所述计算机可读指令在由所述处理器执行时配置所述系统以执行操作，所述操作包括使用三线性重采样操作在所述输入图像的视图和目标图像的视图之间执行所述输入图象的空间上解开体积表示的相对方位变换，以形成变换的体积，所述三线性重采样操作的参数是基于所述给定方位和所述目标图像的方位之间的变换定义的。

18.根据权利要求12所述的系统，还包括处理器和存储计算机可读指令的存储器，所述计算机可读指令在由所述处理器执行时配置所述系统以执行操作，所述操作包括从所述输入图像中的对象的多个输入视图接收信息，将所述多个输入视图变换为所述目标图像的视图，以及在所述解码器解码所述去量化图像之前计算所述特征矢量的每单元平均值。

19.根...

【技术特征摘要】
【国外来华专利技术】

1.一种将输入图像变换为目标图像的方法，所述方法包括：

2.根据权利要求1所述的方法，还包括在量化所述变换的体积之前，对所述变换的体积进行重采样，以对应于所述目标图像的视图中的图像内容的布局。

4.根据权利要求1所述的方法，其中，所述输入图像是以给定方位捕获的红、绿、蓝(rgb)图像，并且其中，生成所述输入图象的空间上解开体积表示包括由所述编码器使用可学习参数生成所述输入图象的内容的体积表示，由此所述体积表示中的每个单元包含描述了所述输入图像中对应区域的局部形状和外观的特征矢量。

5.根据权利要求4所述的方法，其中，所述体积表示被定义在所述输入图像的视图空间内，使得深度维度对应于距相机的距离。

6.根据权利要求4所述的方法，其中，在所述输入图像的视图和所述目标图像的视图之间执行所述输入图像的空间上解开的体积表示的相对方位变换以形成变换的体积包括使用三线性重采样操作，三线性重采样操作的参数是基于所述给定方位和所述目标图像的方位之间的变换而定义的。

8.根据权利要求1所述的方法，其中，表示所述输入图像的相对方位的所述空间上解开的体积表示的所述特征矢量包括2d特征图，还包括由所述编码器对所述2d特征图进行整形以生成空间变换的3d特征图，以及由所述解码器对所述空间变换的3d特征图进行整形以生成所述目标图像的2d特征图。

12.一种将输入图像变换为目标图像的系统，所述系统包括：

【专利技术属性】
技术研发人员：凯尔·奥尔谢夫斯基，谢尔盖·图利亚科夫，柴蒙磊，任健，黄增，
申请(专利权)人：斯纳普公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人