System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人体三维姿态估计,涉及一种基于注意力图卷积的三维人体姿态估计方法。
技术介绍
1、人体姿态估计作为计算机视觉中最重要的研究之一,其随着计算机视觉技术的发展也正处于快速发展时期,在现实生活中得到了越来越多的应用。人体姿态估计旨在通过分析图片、视频等对象中的人体形态来描绘出人体的姿态,其中涉及到目标识别、图像分割、回归检测等多个任务。与传统的二维姿态估计相比,三维人体姿态估计能够更加精准地描述人体的姿态,具有更高的研究和应用价值。目前,三维人体姿态估计已成为计算机视觉领域的研究热点,也是许多研究工作的重要基础。从图像或视频中提取出的人体三维姿态不仅可以用于动作识别,还可以应用于三维网格重建等任务,为人体行为分析、虚拟现实、增强现实等领域的应用提供了强大的支持。随着深度学习和计算机视觉技术的不断进步,三维人体姿态估计将在更广泛的领域展现出其重要性和潜力。
2、目前的三维人体姿态估计方法可以大致分为两种类型:(1)直接回归法,即直接从二维图像中预测三维姿态坐标,无需先转换为二维姿态表示。这种方法能够进行端到端的网络训练,但对网络结构和数据预处理要求较高。(2)基于二维骨架的方法,通常分为两个阶段:首先使用预训练好的二维姿态估计网络提取出骨架序列,然后将其输入到三维姿态估计网络中进行维度提升。由于现有二维姿态估计算法的成熟,基于二维骨架的方法大大简化了任务复杂度,性能也优于直接回归法,因此成为主流。这种方法可以降低网络结构的复杂性,更容易在实际环境中应用部署。
3、zhao等人提出的语义图卷积指出通过
技术实现思路
1、有鉴于此,本专利技术的目的在于提供一种基于注意力图卷积的三维人体姿态估计方法
2、为达到上述目的,本专利技术提供如下技术方案:
3、一种基于注意力图卷积的三维人体姿态估计方法,包括以下步骤:
4、s1:使用级联金字塔网络cpn对人体图像进行二维姿态估计;
5、s2:利用基于transformer注意力机制对全局空间特征进行提取;
6、s3:利用图卷积网络对局部空间特征进行提取;
7、s4:将全局空间特征和局部空间特征进行融合,得到最终的三维姿态坐标。
8、进一步,步骤s1具体包括以下步骤:
9、s11:将人体图像输入到级联金字塔网络cpn进行二维姿态估计,得到二维关节点坐标ci∈rn×2,其中n为关节点数量;
10、s12:将得到的二维关键点坐标使用由多层全连接网络组成的骨架嵌入模块进行编码得到高维向量。
11、进一步,步骤s2中,将每个关节视为一个patch,并按照通用视觉变换管道在所有patch之间进行特征提取;首先用可训练的线性投影将每个关节的坐标映射到高维空间;将得到的特征rj×c的关节序列输入到空间变压器编码器中,该编码器应用自关注机制对所有关节的信息进行集成;
12、transformer注意力块遵循缩放后的点积注意,每个头中查询、键、值矩阵q、k、v的关注计算公式为:
13、
14、其中{q,k,v}∈rj×c,n表示令牌个数即关节点个数,c表示每个令牌的维数,h个多头注意力定义如下:
15、msa=concat(head1,head2,...,headh)wo
16、headi=attention(qi,ki,vi),i∈h
17、其中线性投影权值为wo∈rc×c,在注意力编码器中,每个关节令牌p∈pn是从二维坐标c∈rn×2的关节ci投影出来的,联合令牌p通过矩阵epos∈rn×c嵌入位置信息:
18、x=norm(le(ci)+epos),x∈rn×c
19、其中norm为层归一化,le为线性嵌入层,通过注意力模块计算关节点之间的空间依赖关系如下:
20、ui=xwm,m∈{q,k,v}
21、y=msa(uq,uk,uv)+x
22、r=mlp(norm(y))+y
23、其中y为关节令牌x的注意力输出,ui为x通过线性变换映射的矩阵,wm为关节中查询、键、值对应的线性变换权矩阵,norm为层归一化,r为全局注意力最后的输出。
24、进一步,将关节坐标表示为一个图g={v,e},其中v是n个关节点的集合,e表示的是边,gcn表示为:
25、
26、其中,为l层的输入特征,为gcn操作后的输出特征,dl和dl+1分别为每个关节的输入特征维数和输出特征维数,a为无向图的邻接矩阵,i为单位矩阵,(a+i)表示具有自连接的邻接矩阵,d是a的度数矩阵;
27、是自环邻接矩阵(a+i)的对称归一化,是对l层的关节特征进行变换和提取的可训练变换矩阵;从空间域的角度看,h(l)w(l)为输入关节特征h(l)的特征提取;
28、利用两种不同的变换矩阵和w1(l)来提取两种不同的特征信息,如下式所示:
29、
30、是针对两种不同的信息分别提取的两个特征;
31、在图卷积结构中加入一个可学习的ea矩阵m(l),ea包括对自身关节和邻近关节的学习,ea矩阵的邻接关系表示为:
32、
33、其中邻接矩阵(a+i)用作掩码,⊙代表两个矩阵的哈达玛积,ρi为softmax算子,其作用是实现行归一化,使得所有相邻j个关节对关节i的边缘关注权重之和等于1;通过可学习矩阵m(l)确定,将其替换后,同一骨骼相邻关节之间的依赖关系不再相同;对自身关节的贡献信息和相邻关节的贡献信息是分开提取的,被分解为两个部分,即自关系和与邻居关节的关系,分解公式如下:
34、
35、其中⊙代表实现两个矩阵的哈达玛积,将和作为关系矩阵,分别乘以和对自节点和相邻节点的特征进行聚合:
36、
37、其中表示自结点聚合的特征,表示相邻结点聚合的特征,这两种特征都属于局部特征。
38、进一步,步骤s4具体包括:
39、利用concatenate本文档来自技高网...
【技术保护点】
1.一种基于注意力图卷积的三维人体姿态估计方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于注意力图卷积的三维人体姿态估计方法,其特征在于:步骤S1具体包括以下步骤:
3.根据权利要求1所述的基于注意力图卷积的三维人体姿态估计方法,其特征在于:步骤S2中,将每个关节视为一个patch,并按照通用视觉变换管道在所有patch之间进行特征提取;首先用可训练的线性投影将每个关节的坐标映射到高维空间;将得到的特征RJ×C的关节序列输入到空间变压器编码器中,该编码器应用自关注机制对所有关节的信息进行集成;
4.根据权利要求1所述的基于注意力图卷积的三维人体姿态估计方法,其特征在于:将关节坐标表示为一个图G={V,E},其中V是N个关节点的集合,E表示的是边,GCN表示为:
5.根据权利要求1所述的基于注意力图卷积的三维人体姿态估计方法,其特征在于:步骤S4具体包括:
6.根据权利要求1所述的基于注意力图卷积的三维人体姿态估计方法,其特征在于:使用估计值与真值之间的均方误差MSE作为估计的关节位置和真实关节位置的损失函数
...【技术特征摘要】
1.一种基于注意力图卷积的三维人体姿态估计方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于注意力图卷积的三维人体姿态估计方法,其特征在于:步骤s1具体包括以下步骤:
3.根据权利要求1所述的基于注意力图卷积的三维人体姿态估计方法,其特征在于:步骤s2中,将每个关节视为一个patch,并按照通用视觉变换管道在所有patch之间进行特征提取;首先用可训练的线性投影将每个关节的坐标映射到高维空间;将得到的特征rj×c的关节序列输入到空间变压器编码器中,该编码器应用自...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。