当前位置: 首页 > 专利查询>辉达公司专利>正文

从视频重建三维对象制造技术

技术编号:32446379 阅读:16 留言:0更新日期:2022-02-26 08:13
公开了从视频重建三维对象。三维(3D)对象重建神经网络系统学习从包括对象的视频预测对象的3D形状表示。3D重建技术可用于内容创建,诸如生成游戏、电影和3D打印的3D角色。当从视频生成3D角色时,内容还可包括角色的运动,如基于视频所预测的。3D对象构建技术利用时间一致性来从未标记的视频重建对象的动态3D表示。具体地,视频中的对象跨多个帧具有一致的形状和一致的纹理。纹理、基本形状和部位对应不变性约束可被应用于微调神经网络系统。重建技术的通用性很好——特别是对于非刚性对象。技术的通用性很好——特别是对于非刚性对象。技术的通用性很好——特别是对于非刚性对象。

【技术实现步骤摘要】
从视频重建三维对象


[0001]本专利技术涉及三维(3D)对象重建,并且具体地,涉及用于从视频构建3D对象的技术。

技术介绍

[0002]当我们人类试图理解对象(诸如鸭)的图像时,我们立即识别出“鸭”。我们还立即感知并想象从其他视点看鸭的外观,鸭在3D世界中的形状。此外,当我们在视频中看到鸭时,它的3D结构和变形对于我们而言变得甚至更明显。我们感知对象的3D结构的能力积极地有助于我们对对象的丰富理解。
[0003]虽然3D感知对于人类而言是容易的,但是可变形对象的3D重建在计算机视觉中仍然是非常有挑战性的问题,尤其是对于野外的对象。对于基于学习的算法,瓶颈是缺乏可用于训练的监督。收集3D注释(诸如3D形状和相机姿态)而不限制在受约束的环境中可针对其捕获3D注释的域(例如,刚性对象、人体和面部)是有挑战性的。然而,有限域中的常规方法不能很好地推广到在自然环境(例如,动物)中捕获的非刚性对象。由于受限的环境和有限的注释,非常难以将常规方法推广到来自在野外捕获的图像和视频的非刚性对象(例如,动物)的3D构建。需要解决这些问题和/或与现有技术相关联的其他问题。

技术实现思路

[0004]3D对象重建神经网络系统学习从包括对象的视频预测对象的3D表示。视频中的对象维持时间一致性,其在多个帧上具有一致的形状和一致的纹理。利用对象的时间一致性来从未标记的视频重建对象的动态3D表示。纹理、身份形状(identity shape)和部位对应不变性约束(part correspondence invariance constraint)可被应用于微调神经网络系统。重建技术很好地概括,特别是对于非刚性对象,并且神经网络系统可以实时推理。
[0005]公开了用于从视频构建对象的3D表示的方法、计算机可读介质和系统。在一个实施例中,神经网络模型接收包括从相机姿态捕获的对象的图像的视频,并且基于学习的形状基础(shape base)的集合来预测图像中的第一图像的对象的3D形状表示。神经网络模型还预测第一图像的纹理流,并且根据纹理流将来自第一图像的像素映射到纹理空间以产生纹理图像,其中纹理图像到3D形状表示上的转移构建对应于第一图像中的对象的3D对象。
附图说明
[0006]以下参照附图详细描述用于从视频重建三维(3D)对象的本系统和方法,其中:
[0007]图1A示出了适合用于实现本公开的一些实施例的示例3D对象重建系统的框图。
[0008]图1B示出了适合用于实现本公开的一些实施例的、用于使用图1A中所示的系统重建对象的3D表示的方法的流程图。
[0009]图1C示出了根据实施例的时间一致性约束的概念图。
[0010]图1D示出了适合用于实现本公开的一些实施例的、用于将自监督式自适应应用于图1A中示出的系统的方法的流程图。
[0011]图2A示出了适合用于实现本公开的一些实施例的、图1A中所示的3D对象构建系统的示例训练配置的框图。
[0012]图2B示出了根据实施例的使用时间不变性来促进部位对应关系的概念图。
[0013]图2C示出适合用于实现本公开的一些实施例的、使用注释重投影的训练的概念图。
[0014]图2D示出了适合用于实现本公开的一些实施例的、用于训练图1A中所示的3D对象构建系统的方法的流程图。
[0015]图3示出了根据实施例的图像和重建的对象。
[0016]图4示出了适合用于实现本公开的一些实施例的示例并行处理单元。
[0017]图5A是适合用于实现本公开的一些实施例的使用图4的PPU实现的处理系统的概念图。
[0018]图5B示出了示例性系统,在该系统中可以实现各个先前实施例的各种架构和/或功能。
[0019]图6A是适合用于实现本公开的一些实施例的、由图4的PPU实现的图形处理管线的概念图。
[0020]图6B示出了适合用于实现本公开的一些实施例的示例性游戏流系统。
具体实施方式
[0021]3D重建的任务需要从2D图像同时恢复对象的3D形状、纹理和相机姿态。由于一起正确估计形状和相机姿态的固有歧义,该任务是高度不适定的(ill

posed)。然而,3D对象构建神经网络系统可学习从视频预测对象的3D表示。
[0022]在实施例中,3D对象构建神经网络系统被训练为从视频重建可变形对象实例的时间一致的3D网格。在实施例中,视频包括自然环境中的真实动物。在推理之前,神经网络系统被训练成使用同一类别的单视图图像的集合来联合地预测图像的形状、纹理和相机姿态以用于类别特定的3D重建。第一示例类别可以包括但不限于鸟(包括鸭)。第二示例类别可以是马。通常,类别包括具有类似结构的动物,诸如单一物种内的动物。神经网络可以被训练而无需每个视频帧的注释的3D网格、2D关键点或相机姿态。
[0023]然后,在推理时间,使用利用对象实例的时间一致性的自监督正则化项来随时间适配神经网络系统,以强制实施对象的所有重建网格共享共同的纹理图、基础(身份)形状以及部位。作为自适应细化的结果,神经网络系统从非刚性对象(包括在野外捕获的那些动物)的视频中恢复时间一致且可靠的3D结构——很少能解决的挑战性任务。
[0024]图1A示出了根据实施例的3D对象构建系统100的框图。应当理解,本文所述的这种和其他布置仅作为示例被阐述。除了所示的那些布置和元素之外或代替所示的那些布置和元素,还可以使用其他布置和元素(例如,机器、接口、功能、顺序、功能分组等),并且一些元素可以一起省略。进一步,本文描述的许多元素是可被实现为分立或分布式组件或结合其他组件、和以任何合适的组合和位置实现的功能实体。本文中描述为由实体执行的各种功能可由硬件、固件和/或软件执行。例如,各种功能可由执行存储在存储器中的指令的处理器执行。此外,本领域普通技术人员将理解,执行3D对象构建系统100的操作的任何系统都在本专利技术的实施例的范围和精神内。
[0025]3D对象构建系统100包括神经网络模型,该神经网络模型至少包括编码器105、形状解码器115和运动解码器120。编码器105从视频中的每一帧(例如,图像)提取特征110。图1A中示出了由3D对象构建系统100输出的包括对象和预测的3D对象104的输入图像102。然后特征110由各种解码器处理以预测身份形状、运动(偏移)、纹理和相机(未示出)。在实施例中,形状解码器115输出身份形状116,身份形状116表示相同类别的基本形状(例如,鸭、飞鸟、肥胖鸟、站立鸟等)。在实施例中,身份形状116由定义网格表面的面的顶点的3D网格来定义。在实施例中,特定类别的网格从预定义球面变形并且具有相同数量的顶点/面。运动解码器120预测相对于身份形状116中的每个顶点的偏移对于每个视频帧,偏移定义应用于身份形状116的形状变形,并且随时间推移表现为移动。
[0026]与常规3D重建技术相比,所预测的形状不限于对称的形状。对称性的假设并不适用于大多数非刚性动物,例如,倾斜其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种构建对象的三维(3D)表示的计算机实现的方法,包括:由神经网络模型接收包括从相机姿态所捕获的对象的图像的视频;由所述神经网络模型基于学习的形状基础的集合来预测针对所述图像中的第一图像的所述对象的3D形状表示;由所述神经网络模型预测所述第一图像的纹理流;以及根据所述纹理流将来自所述第一图像的像素映射到纹理空间以产生纹理图像,其中将所述纹理图像转移到所述3D形状表示上构建对应于所述第一图像中的所述对象的3D对象。2.根据权利要求1所述的计算机实现的方法,还包括:预测所述第一图像的所述3D形状表示的非刚性运动变形;以及将所述非刚性运动变形应用于身份形状以产生所述3D形状表示。3.根据权利要求1所述的计算机实现的方法,还包括:预测所述图像的非刚性运动变形;将所述非刚性运动变形应用于针对所述图像预测的身份形状,以产生所述对象的3D形状表示;以及基于所述身份形状之间的旋转差异和所述3D形状表示之间的差异来评估损失函数。4.根据权利要求3所述的计算机实现的方法,还包括:基于所述损失函数来更新所述神经网络模型的参数,以减少所述3D形状表示中的不连续。5.根据权利要求1所述的计算机实现的方法,其中所述身份形状被计算为包括在所述学习的形状基础的集合中的组件形状的总和,并且每个组件形状由所述神经网络模型生成的系数对应缩放。6.根据权利要求1所述的计算机实现的方法,其中所述3D形状表示是定义面的顶点网格。7.根据权利要求1所述的计算机实现的方法,其中所述视频中的所述图像是未标记的。8.根据权利要求1所述的计算机实现的方法,其中所述神经网络模型被进一步配置成预测所述相机姿态。9.根据权利要求1所述的计算机实现的方法,还包括:将所述纹理图像转移到所述3D形状表示上以构建所述3D对象;根据所述相机姿态来投影所述3D对象以产生经渲染的图像;以及更新所述神经网络模型的参数以减小所述经渲染的图像与所述第一图像之间的差异。10.根据权利要求1所述的计算机实现的方法,还包括:将针对所述第一图像预测的所述纹理图像转移到针对所述图像中的第二图像所预测的第二3D形状表示,以产生第一3D对象;根据与所述第一图像相关联的第一相机姿态来投影所述第一3D对象,以产生第一投影的3D对象;将针对所述第二图像所预测的第二纹理图像转移到针对所述第一图像预测的所述3D形状表示,以产生第二3D对象;根据与所述第二图像相关联的第二相机姿态来投影所述第二3D对象,以产生第二投影的3D对象;以及更新所述神经网络模型的参数,以促进所述第一投影的3D对象与所述第二投影的3D对
象之间的一致性。11.根据权利要求1所述的计算机实现的方法,还包括:将针对所述第一图像所预测的第一非刚性运动变形应用于针对所述图像中的第二图像所预测的第一身份形状,以产生第一3D形状表示;根据与所述第一图像相关联的第一相机姿态来投影所述第一3D形状表示,以产生第一投影的3D对象;将针对所述第二图像预测的第二非刚性运动变形应用于针对所述第一图像所预测的第二身份形状,以产生第二3D形状表示;根据与所述第二图像相关联的第二相机姿态来投影所述第二3D形状表示,以产生第二投影的3D对象;以及更新所述神经网络模型的参数,以促进所述第一投影的3D对象与所述第二投影的3D对象之间的一致性。12.根据权利要求1所述的计算机实现的...

【专利技术属性】
技术研发人员:J
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1