基于深度图像引导的对抗网络的3D手部姿势估计制造技术

技术编号:31081489 阅读:11 留言:0更新日期:2021-12-01 12:02
提供了一种用于通过以下操作来估计图像中的三维(3D)手部姿势的计算机实现的方法、计算机可读存储介质和计算机系统:接收与手部图像相对应的数据,生成与所接收的手部图像数据相对应的深度图以及根据所接收的手部图像数据和所生成的深度图估计手部姿势。据和所生成的深度图估计手部姿势。据和所生成的深度图估计手部姿势。

【技术实现步骤摘要】
【国外来华专利技术】基于深度图像引导的对抗网络的3D手部姿势估计
[0001]相关申请的交叉引用
[0002]本申请要求于2019年12月12日在美国专利商标局提交的美国专利申请第16/712,228号的优先权,其全部公开内容通过引用整体并入本文中。

技术介绍

[0003]本公开内容总体上涉及计算领域,并且更具体地涉及估计3D手部姿势。
[0004]手部姿势估计是从图像或一组视频帧中找到手部的关节的任务。根据红

绿

蓝(RGB)彩色图像估计三维(3D)手部姿势对于广泛的潜在应用诸如计算机视觉、虚拟现实、增强现实和其他形式的人机交互是必不可少的。由于通过网络摄像头、物联网(IoT)摄像头和智能电话捕获RGB图像的可达性,根据RGB图像估计手部姿势变得显著地更加流行。

技术实现思路

[0005]实施方式涉及用于估计3D手部姿势的方法、系统和计算机可读介质。根据一个方面,提供了用于估计3D手部姿势的方法。该方法可以包括:由计算机接收与手部图像相对应的数据以及生成与所接收的手部图像数据相对应的深度图。计算机可以根据所接收的手部图像数据和所生成的深度图估计手部姿势。
[0006]根据另一方面,提供了用于估计3D手部姿势的计算机系统。计算机系统可以包括一个或更多个处理器、一个或更多个计算机可读存储器、一个或更多个计算机可读有形存储设备以及程序指令,所述程序指令存储在一个或更多个存储设备中的至少一个上,以由一个或更多个处理器中的至少一个经由一个或更多个存储器中的至少一个来执行,由此计算机系统能够执行方法。该方法可以包括:由计算机接收与手部图像相对应的数据以及生成与所接收的手部图像数据相对应的深度图。计算机可以根据所接收的手部数据图像和所生成的深度图估计手部姿势。
[0007]根据又一方面,提供了用于估计3D手部姿势的计算机可读介质。计算机可读介质可以包括一个或更多个计算机可读存储设备和存储在一个或更多个有形存储设备中的至少一个上的程序指令,程序指令能够由处理器执行。程序指令能够由处理器执行,以执行可以相应地包括由计算机接收与手部图像相对应的数据以及生成与所接收的手部图像数据相对应的深度图的方法。计算机可以根据所接收的手部图像数据和所生成的深度图估计手部姿势。
附图说明
[0008]这些和其他目的、特征和优点将从下面结合附图阅读的说明性实施方式的详细描述中变得明显。附图的各种特征不是按比例绘制的,因为图示是为了清楚地帮助本领域技术人员结合详细描述来理解本公开内容。在附图中:
[0009]图1示出了根据至少一个实施方式的联网计算机环境;
[0010]图2是根据至少一个实施方式的用于估计3D手部姿势的程序的功能性框图;
[0011]图3是根据至少一个实施方式的如图2中所描绘的深度图重建模块的功能性框图;
[0012]图4是根据至少一个实施方式的如图2中所描绘的手部姿势估计模块的功能性框图;
[0013]图5是示出根据至少一个实施方式的由用于估计3D手部姿势的程序执行的步骤的操作性流程图;
[0014]图6是根据至少一个实施方式的包括图1中所描绘的计算机系统的说明性云计算环境的框图;
[0015]图7是根据至少一个实施方式的图6的说明性云计算环境的功能性层的框图;以及
[0016]图8是根据至少一个实施方式的图1中描绘的计算机和服务器的内部组件和外部组件的框图。
具体实施方式
[0017]本文公开了所要求保护的结构和方法的具体实施方式;然而,可以理解,所公开的实施方式仅是对可以以各种形式实施的所要求保护的结构和方法的说明。然而,本公开内容的各方面可以以许多不同的形式实施,并且不应被解释为限于本文阐述的示例性实施方式。相反,提供这些示例性实施方式以使得本公开内容将是透彻和完整的,并且将向本领域技术人员完全地传达本公开内容的范围。在说明书中,可以省略公知特征和技术的细节,以避免不必要地模糊所呈现的实施方式。
[0018]实施方式通常涉及计算领域,并且更具体地涉及估计3D手部姿势。此外,以下描述的示例性实施方式提供了仅使用2D RGB图像来确定2DRGB图像中存在的3D手部姿势的系统、方法和程序产品。因此,本文公开的计算机实现的方法、计算机系统和计算机可读介质具有通过允许计算机在不使用相应深度图的情况下根据2D图像确定3D形状来改进计算领域的能力。此外,虽然本文中公开的方法、系统和计算机可读介质关于手部姿势进行描述,但是所描述的实施方式也可以被配置成用于其他3D形状的改进估计。
[0019]如前所述,手部姿势估计是从图像或一组视频帧中找到手部的关节的任务。根据彩色RGB图像估计三维(3D)手部姿势对于广泛的潜在应用诸如计算机视觉、虚拟现实、增强现实和其他形式的人机交互是必不可少的。由于通过网络摄像头、物联网(IoT)摄像头和智能电话捕获RGB图像的可达性,根据RGB图像估计手部姿势变得显著地更加流行。
[0020]然而,由于根据RGB图像推断深度信息时的模糊性,估计这些姿势具有挑战性。手部姿势估计器可以在训练期间对3D手部姿势估计模型进行调整,以加强预测的3D姿势与地面真实深度图之间的一致性,但是这些估计器依赖于训练期间RGB图像和成对深度图二者的可用性。因此,利用条件生成性对抗网络(GAN)模型来生成以输入RGB图像为条件的真实深度图并使用合成的深度图来调整3D手部姿势估计模型可能是有利的。这样的深度图像引导的GAN(DGGAN)可以消除深度图与要分析的RGB图像同时上传的需要。DGGAN也可以有效地调整姿势估计模型。
[0021]本文参考根据某些实施方式的方法、装置(系统)和计算机可读介质的流程图说明和/或框图来描述各方面。将理解的是,流程图图示和/或框图的每个块以及流程图图示和/或框图中的块的组合可以通过计算机可读程序指令来实现。
[0022]以下描述的示例性实施方式提供了估计3D手部姿势的系统、方法和程序产品。根
据本实施方式,该估计可以通过对单目RGB图像利用深度图像引导的GAN以根据RGB图像推断深度图来执行。
[0023]现在参照图1,示出了联网计算机环境的功能性框图,其示出了用于改进图像中的3D手部姿势的估计的手部姿势估计系统100(下文中为“系统”)。应当理解,图1仅提供了一种实现方式的说明,而不暗示对于可以实现不同实施方式的环境的任何限制。可以基于设计和实现需求对所描绘的环境进行许多修改。
[0024]系统100可以包括计算机102和服务器计算机114。计算机102可以经由通信网络110(下文中为“网络”)与服务器计算机114进行通信。计算机102可以包括处理器104和软件程序108,软件程序108被存储在数据存储设备106上并且能够与用户进行交互并与服务器计算机114进行通信。如下面将参照图8讨论的,计算机102可以分别包括内部组件800A和外部组件900A,并且服务器计算机114可以分别包括内部组件800B和外部组件900B。计算机102可以是例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种估计图像中的三维(3D)手部姿势的方法,包括:由计算机接收与手部图像相对应的数据;由所述计算机生成与所接收的手部图像数据相对应的深度图;以及由所述计算机根据所接收的手部图像数据和所生成的深度图来估计手部姿势。2.根据权利要求1所述的方法,其中,通过生成性对抗网络执行所述生成。3.根据权利要求2所述的方法,其中,所述生成性对抗网络包括生成器和鉴别器。4.根据权利要求3所述的方法,其中,所述生成性对抗网络利用生成性对抗网络(GAN)损失值和任务损失值作为训练值。5.根据权利要求4所述的方法,其中,所述生成性对抗网络由使所述GAN损失值和所述任务损失值最小化的所述生成器来训练。6.根据权利要求4所述的方法,其中,所述生成性对抗网络由使所述GAN损失值和所述任务损失值最大化的所述鉴别器来训练。7.根据权利要求4所述的方法,其中,所述生成器仅使用所接收的手部图像数据来生成所述深度图。8.根据权利要求7所述的方法,其中,所述鉴别器使用所生成的深度图和一个或更多个未配对的深度图来确定所述GAN损失值。9.根据权利要求1所述的方法,其中,估计所述手部姿势包括:由所述计算机基于所接收的手部图像数据生成一个或更多个手部关节热图;由所述计算机基于所生成的热图估计关节位置;以及由所述计算机基于所估计的关节位置和所生成的深度图重建第二深度图。10.根据权利要求1所述的方法,其中,通过仅使用所接收的手部图像数据和与所接收的手部图像数据相对应的所生成的深度图来估计所述手部姿势。11.一种用于估计图像中的三维(3D)手部姿势的计算机系统,所述计算机系统包括:一个或更多个计算机可读非暂态存储介质,其被配置成存储计算机程序代码;以及一个或更多个计算机处理器,其被配置成访问所述计算机程序代码并按照所述计算机程序代码所指示的进行操作,所述计算机程序代码包括:接收代码,其...

【专利技术属性】
技术研发人员:林斯姚谢于晟谭辉黄超韩连漪范伟
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1