一种基于单张RGB图像的双流多尺度手部姿态估计方法技术

技术编号:29082520 阅读:76 留言:0更新日期:2021-06-30 09:44
本发明专利技术涉及一种基于单张RGB图像的双流多尺度手部姿态估计方法,用于解决单张RGB图像中自遮挡、近邻关节预测歧义问题。本发明专利技术是以RGB图像作为输入,利用深度神经网络提取单张图像的特征并得到手部关节2D姿态初始坐标,利用双分支网络进行2D姿态估计,得到两路手部关节2D姿态坐标;对于两路2D姿态坐标,利用双分支的多尺度语义图U

【技术实现步骤摘要】
一种基于单张RGB图像的双流多尺度手部姿态估计方法


[0001]本专利技术属于计算机视觉领域,具体涉及一种针对RGB图像的基于双流多尺度网络的手部姿态估计方法。

技术介绍

[0002]人与人之间的日常交际过程中,自然语言、书面语言和肢体语言是三个最为主要的表达方式,但是前两者均会受到地域、国家、种族、文化的限制,而肢体语言不仅灵活多变,能够表达人们一些基本的意图,并且直观易懂,不容易产生歧义。因此,肢体语言逐步受到人机交互研究者的青睐。而人类的双手更是肢体语言表达时最为重要的部分之一,能够传达丰富的信息,所以,让计算机读懂人类的手所传达的信息是有价值而且有必要的。
[0003]手势是人类与外界传递信息的主要方式,由于它的灵活自由和复杂多变,手势动作包含了大量的有用信息,手承担了生活中的绝大多数如交流、操作等工作。众所周知,绝大多数机器的操作都是通过手来操作完成的。因此,无论是自然人机交互,还是为机器人传递人手操作经验,首先需要做的是估计人手的姿态,并将手的姿态信息传递给机器设备,进而进行人机交互。
[0004]目前手姿态估计的方法大致分为两个阶段,首先输入图像估计出手的2D姿态,然后再通过2D姿态回归手的3D姿态。根据输入图像的种类可以将手姿态估计大致分为三类:1)根据深度图像进行手部姿态估计:传统上基于深度图像的方法是手部姿态估计的主要方法。深度图像包含一定的深度信息,在进行3D姿态回归过程中能够更好的得到手部关节的三维信息,但是现阶段的深度摄像机的成像范围十分有限,而且质量不够高,会给依赖深度图像作为输入的手部姿态估计方法带来很大影响;同时深度图像在实际中的应用不多,通常人们很难获得深度图像。2)根据多张RGB图像进行手部姿态估计:与基于深度图像的方法相比,基于多张RGB的图像获取比较容易,同时从不同视图拍摄的多个RGB图像包含丰富的3D信息,因此,有些方法将多幅图像作为输入,以减轻咬合问题。此方法虽能够得到一个较高的精度且能够有效的解决手的自遮挡问题,但是所需要的训练、测试资源较大,且数据集的采集也比较复杂。3)根据单张RGB图像进行手部姿态估计:与上述两种方法相比,单张RGB图像更容易获取,更实用,目前基于RGB单张图像的手势姿态估计广受关注。但是仅从单张RGB图像估计三维手部姿态,因为输入深度信息的缺失,面临更大的挑战性。手势姿态估计方法通常包括两个阶段,分别是基于输入图像估计手的2D姿态,以及通过2D姿态回归手的3D姿态。
[0005]影响手势姿态估计的因素包括部分手势存在自遮挡现象、某些近邻关节在3D姿态回归时存在预测歧义等,本专利技术针对这些问题开展工作。

技术实现思路

[0006]本专利技术针对手势自遮挡、近邻关节预测歧义、传统图卷积在每个节点共享权重从而缺少语义信息这三个问题,从手势姿态估计的两个阶段着手,提出了改进的手部姿态估
计方法。包括:提出基于两种拓扑结构的双流手势姿态估计方法,解决手势自遮挡问题;提出多尺度U

net的3D手势姿态回归方法,解决邻近关节在回归时预测歧义的问题;首次引入语义图卷积网络到手姿态估计问题,使每个关节的节点权重不同,从而有力描述了各关节的语义信息,综上提升了2D姿态估计和3D姿态回归的精度。具体技术方案如下:
[0007]步骤1)提取单张图像的特征并得到手部关节2D姿态初始坐标;
[0008]步骤2)利用双分支网络进行2D姿态估计,得到手部关节2D姿态准确坐标,所述的双分支网络具有结构相同的两路分支;
[0009]通过第一步得到一个N
×
F的特征矩阵,N表示手部关节的数量,F表示特征维度,同时可以得到一个图。我们在第二步中利用第一步得到的图,根据手的不同连接关系设计了两种图结构,每种图结构使用不同的邻接矩阵表示,从而设计出了双分支的网络结构。各分支都将上述得到的特征矩阵以及相应的邻接矩阵输入到由语义图卷积层组成的2D姿态优化网络中,从而每个分支都得到一个手部的2D姿态。
[0010]步骤3)利用多尺度语义图U

Net网络估计手部关节的3D坐标,所述多尺度语义图U

Net网络具有结构相同的两路分支,每个分支的多尺度语义图U

Net网络输入均为步骤2)中一路分支得到的2D姿态坐标和相应的邻接矩阵,输出为手部关节的3D姿态;然后再将两个分支得到的3D姿态进行加和求平均,最终输出手部关节的3D坐标。
[0011]有益效果
[0012]本专利技术提出了一种新的基于手部关节的两种拓扑结构的双流、多尺度的网络模型,解决了上述基于单张RGB图像的自遮挡、近邻关节预测歧义问题,实现了从单张RGB图像中获得高精度的手部关节的三维坐标。现有的方法大多是在训练过程中使用深度图像对网络模型的训练作为引导从而得到较为准确的手部关节三维坐标。与现有的方法相比,本专利技术是基于手的两种不同的拓扑结构从而更好的利用了手的关节之间的信息,同时利用不同手部关节的信息可能存在于不同的特征上设计了双流多尺度的网络模型。最终实现高精度的手部姿态估计。
附图说明
[0013]图1手部姿态估计方法整体示意图;
[0014]图2手的两种拓扑结构示意图;
[0015]图3多尺度图U

net网络模型;
[0016]图4手骨骼损失示意图。
具体实施方式
[0017]本专利技术由三个部分组成:1)特征提取和2D姿态初始化,将图像输入到网络中提取图像的特征并获得初始的手部关节的2D姿态;2)2D姿态估计,利用1)中得到的特征和初始2D姿态,获得手部关节的两种拓扑结构分别输入到2D姿态优化网络中细化2D姿态;3)3D姿态回归,利用手部不同关节可能在不同尺度的特征上的特征,设计出多尺度特征融合的图Unet 3D回归模型。该手部姿态估计方法的整体示意图如图1所示,两种拓扑结构如图2所示,3D回归模型如图3所示。
[0018]1)特征提取和2D姿态初始化
[0019]首先使用Resnet50网络提取输入图像的2048维特征向量,并将这2048维向量经过一个额外的全连接层得到初始的2D关节坐标,再将Resnet50网络提取的2048维特征向量与得到的初始2D关节坐标进行拼接得到一个N
×
F的特征矩阵,其中N表示手部关节的数量,在本专利技术中N=21,包括1个手腕关节、5个掌指关节、各手指3个指关节;F表示特征维度,在本专利技术中F=2050,包括图像的2048维特征和每个关节点的2D关节坐标x和y。
[0020]2)2D姿态估计
[0021]通过第一步中得到的图,我们设计了手的两种不同的图结构,从而设计出双分支网络;两种图结构利用手的不同连接方式,可以在后续网络中进行特征互补,从而得到更准确的手部姿态。这两种图结构在本专利技术中分别使用不同的邻接矩阵进行表示,将第一步中得到的特征矩阵N
×
F以及每个分支的邻接矩阵A分别输入到由3层语义图卷积层组成的2D姿态优化网络中得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于单张RGB图像的双流多尺度手部姿态估计方法,其特征在于包括以下步骤:步骤1)提取单张图像的特征并得到手部关节2D姿态初始坐标;步骤2)利用双分支网络进行2D姿态估计,得到手部关节2D姿态准确坐标,所述的双分支网络具有结构相同的两路分支;步骤3)利用多尺度语义图U

Net网络估计手部关节的3D坐标,所述多尺度语义图U

Net网络具有结构相同的两路分支,每个分支的多尺度语义图U

Net网络输入均为步骤2)中一路分支得到的2D姿态坐标和相应的邻接矩阵,输出为手部关节的3D姿态;然后再将两个分支得到的3D姿态进行加和求平均,最终输出手部关节的3D坐标。2.根据权利要求1所述的一种基于单张RGB图像的双流多尺度手部姿态估计方法,其特征在于:步骤1)具体如下,利用Resnet50网络对输入的单张RGB图像进行编码,每个输入图像产生一个2048维的特征向量;然后再使用一个额外全连接层生成手关节点的初始预测的二维坐标,同时将得到的特征向量与每个关节点的初始二维预测坐标拼接起来,生成每个节点具有F个特征的图,即得到一个N
×
F的特征矩阵,其中N表示手部关节的数量,F表示特征维度。3.根据权利要求1所述的一种基于单张RGB图像的双流多尺度手部姿态估计方法,其特征在于:步骤2)具体包括,根据第一步中得到N
×
F的特征矩阵,N表示手部关节的数量,F表示特征维度,得到两种图结构,每种图结构由一个邻接矩阵表示,其中第一种图结构称为物理连接,用于表示手的物理关节之间的联系,第二种图结构称为对称连接,用于表示每个手指相同关节处之间的联系;将N
×
F的特征矩阵与物理连接的邻接矩阵输入到双分支网络中的一支,将N
×
F的特征矩阵与对称连接的邻接矩阵输入到双分支网络中的另一支,每支网络由相互串联的3层语义图卷积层组成。4.根据权利要求3所述的一种基于单张RGB图像的双流多尺度手部姿态估计方法,其特征在于:所述的语义图卷积公式如下:X
(l+1)
=σ(WX
(l)
ρ
i
(M

A))
ꢀꢀꢀꢀ
(2)其中ρ
i
是Softmax非线性变换,用于归一化矩阵元素,

表示矩阵像素级运算,如果矩阵A中元素a
ij
的值为1,那么返回矩阵M中m
ij
元素的值,否则的话,返回值经过ρ
i
操作得到近似0的值,矩阵A是节点的邻接矩阵,表示各节点间的连接关系,σ表示ReLu非线性激活函数,表示可学习的加权矩阵,X0为网络的输入,即X0=N
×
F为步骤1)得到的特征矩阵,输出是准确估计的N个关节点的2D坐标。5.根据权利要求3所述的一种基于单张RGB图像的双流多尺度手部姿态估计方法,其特征在于:对称连接的邻接矩阵的构建方法为:令G={V,E}表示一个图,其中V是N个手关节点的集合,E表示边;邻接矩阵A,当两个关节点之间相连时a
ij
=1否则a
ij
=0,i和j分别表示手的两个关节;每个手指有三个关节,指尖处为第三关节,指尖之下的两个关节分别为第二关节和第一关关节;相邻手指相同关节之间相互连接;手掌有6个关节,其中一个为腕关节,腕关节与其余的5个掌指关节相连,相邻掌指关节之间相连。6.根据权利要求1所述的一种基于单张RGB图像的双流多...

【专利技术属性】
技术研发人员:王立春马胜蕾李敬华孔德慧王少帆尹宝才
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1