一种姿态估计方法及系统技术方案

技术编号:39006488 阅读:10 留言:0更新日期:2023-10-07 10:37
本发明专利技术涉及计算机视觉技术领域,公开了一种姿态估计方法及系统,该方法,对网络模型进行多层次渐进式特征融合,通过关键点的权重信息对网络模型进行约束,将多个阶段的融合特征、分布权重以及损失作为网络模型的输出。本发明专利技术解决了现有技术存在的难以实现姿态估计的精细化预测、影响姿态估计的准确性等问题。影响姿态估计的准确性等问题。影响姿态估计的准确性等问题。

【技术实现步骤摘要】
一种姿态估计方法及系统


[0001]本专利技术涉及计算机视觉
,具体是一种姿态估计方法及系统。

技术介绍

[0002]姿态估计主要应用于真人领域,当前技术在卡通领域存在以下问题:
[0003](1)真人姿态估计方法大多依赖于训练样本(源和目标)的分布,并没有考虑可能出现干扰因素。由于模型的性能很容易受到数据集分布偏差的影响,因此大多数姿态估计在真人数据集上取得了很好的效果,但这些方法都是基于简单或写实的图片进行的训练。而卡通数据往往伴随着分布不均问题,如简笔画颜色单一,线条简单;漫画角色纹理服饰复杂;涂鸦角色五颜六色,背景难以区分等,这种差异性使得训练样本和验证样本出现很大的区别。由此导致的源和目标的不对应难以通过简单的数据增强或数据补充来进行弥补。例如训练中图片类型是卡通动物,但验证类型却是卡通人物,样本之间强大差异导致训练的模型难以适应不同风格的图片。同时这种差异性导致的特征分布和表现方式的不同也进一步使得特征提取的困难。
[0004]此外,卡通数据集由于其主观性,往往伴随着各种混淆的信息和干扰因素,如颜色的混杂、光线昏暗、肢体形状不合常理等。图片的混淆信息可能会导致图像中的边缘模糊,这会使得角点等特征难以被准确地检测到,从而影响姿态估计的准确性。卡通数据集往往在具备其他数据集所有的遮挡、姿态不一、尺度不同等问题外,还因为其夸张的形象、杂乱的纹理、背景凌乱等特征导致预测更加不易。当图片中存在多足、腿部几乎不存在,除四肢还有翅膀等情况时,很容易造成错误的估计。这些问题必须针对性的设计解决方案。具体的问题示例参考图1。
[0005](2)在计算机视觉领域,图像处理常常面临着一个问题:使用一个模型去识别多个不同尺度的物体。多尺度问题几乎存在于所有的计算机视觉任务中,而常见的真人姿态估计本身就存在多尺度的问题,但卡通角色的多尺度问题更严重。真人的多尺度问题往往是由于跨图片或者不同类型关键点对应的部分尺度不同所导致的,比如由于镜头位置的问题,人体可能以不同的尺度出现在图像中,有时可能只出现部分身体,有时又站在远处使得整个身体出现。此外,不同的身体部位可能具有不同的尺度,例如人的手和脸的尺度通常较小,而身体和腿的尺度较大,因此需要考虑不同尺度的身体部位来进行姿态估计。而卡通人物的多尺度问题也由相似的原因导致,例如有些图片中也只有很小很迷你一个角色,有些图片中却又一个较大的主体,这两种主体的尺度差异就很大。很多简笔画的角色头部可能占比达到80%,四肢仅为一条短短的直线,这种情况下关键点之间的尺度差异性非常大。
[0006]除此之外,不同卡通人物还存在严重的同一部位尺度比例不一问题,比如海绵宝宝和小头爸爸的头部尺度是明显不一样的,漫画角色的四肢修长但小动物往往四肢圆润短小等等。并且,相比真人具有大致相同身材尺度和比例的情况,不同卡通人物的不同部位尺度和彼此的比例差异很大,这进一步导致卡通人物的尺度变得极为复杂。卡通数据集由于数据类型的差异性导致尺度不一表现的更为明显,在失去了真人的纹理特征的问题外,卡
通角色往往不具备常见的人体结构,因此不具备真人数据集在人体结构上的尺度统一。不同于真人头部、四肢以及躯干的一个大致分布和比例,卡通数据集的夸张性元素导致各种各样的比例均可能出现,因此不同角色之间的尺度差异性更为明显。具体的尺度问题参考图2。
[0007](3)现有的姿态估计方法HRNet通过反复融合通过高到低的子网络生成的表示来生成可靠的高分辨率表示以提高性能,整个网络结构侧重于同一层级多尺度特征的融合,正是由于该方法只针对同一层不同分辨率的特征进行融合,因此忽略了浅层特征里面丰富的空间信息。此外,HRNet只做了尺度融合,缺乏对特征的精细化处理,没有针对性去关注一些尺度复杂的区域。HRNet的网络结构参考图3。

技术实现思路

[0008]为克服现有技术的不足,本专利技术提供了一种姿态估计方法及系统,解决现有技术存在的难以实现姿态估计的精细化预测、影响姿态估计的准确性等问题。
[0009]本专利技术解决上述问题所采用的技术方案是:
[0010]一种姿态估计方法,对网络模型进行多层次渐进式特征融合,通过关键点的权重信息对网络模型进行约束,将多个阶段的融合特征、分布权重以及损失作为网络模型的输出。
[0011]作为一种优选的技术方案,包括以下步骤:
[0012]S1,数据集构建:构建用于网络模型的训练和推理的数据集;
[0013]S2,特征融合:对HRNet网络模型进行多层次渐进式特征融合,然后将融合之后的HRNet网络模型在数据集上进行训练和推理。
[0014]作为一种优选的技术方案,步骤S2中,通过从后往前依次跨层、逐层削弱的特征融合方式对HRNet网络模型的低层次的信息进行补充,进行反向特征融合。
[0015]作为一种优选的技术方案,步骤S2中,将HRNet网络模型划分为N个阶段,沿卡通数据传输方向依次将N个阶段记为stage1~stageN,只在同一个阶段进行不同尺度的特征融合;以stageN的最终输出的特征不断向前一个阶段进行反向特征融合;其中,N≥2且N为整数。
[0016]作为一种优选的技术方案,步骤S2中,HRNet网络模型包括极化注意力模块;其中,极化注意力模块用于关注输入中的关键点信息。
[0017]作为一种优选的技术方案,步骤S2中,极化注意力模块的通道分支的权重计算公式如下:
[0018][0019]其中,X表示输入特征,A
ch
(X)表示通道分支的权重,W
v
(
·
)表示v分支的1x1卷积,σ1(
·
)表示第一Reshape运算符,W
q
(
·
)表示q分支1x1卷积,σ2(
·
)表示第二Reshape运算符,W
z
(
·
)表示z分支的1x1的卷积,F
LN
(
·
)表示LayerNorm操作,F
SM
(
·
)表示SoftMax操作,
×
表示矩阵点积运算,F
SG
(
·
)表示Sigmoid操作;
[0020]极化注意力模块的空间分支的权重计算公式如下:
[0021][0022]其中,A
sp
(X)表示空间分支的权重,F
GP
(
·
)表示全局池化操作,σ3(
·
)表示第三Reshape运算符。
[0023]作为一种优选的技术方案,还包括以下步骤:
[0024]S3,记忆结构构建:构建记忆结构,在记忆结构中对不同阶段融合后的特征进行记忆匹配;其中,记忆结构用于对先验知识进行补充,记忆结构是可读取的存储空间,能针对性存储部分特征或信息,能在HRNet网络模型训练过程中进行经验重放并通过存储的记忆获得HRNet网络模型的MSE损失的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种姿态估计方法,其特征在于,对网络模型进行多层次渐进式特征融合,通过关键点的权重信息对网络模型进行约束,将多个阶段的融合特征、分布权重以及损失作为网络模型的输出。2.根据权利要求1所述的一种姿态估计方法,其特征在于,包括以下步骤:S1,数据集构建:构建用于网络模型的训练和推理的数据集;S2,特征融合:对HRNet网络模型进行多层次渐进式特征融合,然后将融合之后的HRNet网络模型在数据集上进行训练和推理。3.根据权利要求2所述的一种姿态估计方法,其特征在于,步骤S2中,通过从后往前依次跨层、逐层削弱的特征融合方式对HRNet网络模型的低层次的信息进行补充,进行反向特征融合。4.根据权利要求3所述的一种姿态估计方法,其特征在于,步骤S2中,将HRNet网络模型划分为N个阶段,沿卡通数据传输方向依次将N个阶段记为stage1~stageN,只在同一个阶段进行不同尺度的特征融合;以stageN的最终输出的特征不断向前一个阶段进行反向特征融合;其中,N≥2且N为整数。5.根据权利要求4所述的一种姿态估计方法,其特征在于,步骤S2中,HRNet网络模型包括极化注意力模块;其中,极化注意力模块用于关注输入中的关键点信息。6.根据权利要求5所述的一种姿态估计方法,其特征在于,步骤S2中,极化注意力模块的通道分支的权重计算公式如下:A
ch
(X)=F
SG
(F
LN
(W
z
((σ1(W
v
(X)))
×
F
SM
(σ2(W
q
(X))))));其中,X表示输入特征,A
ch
(X)表示通道分支的权重,W
v
(
·
)表示v分支的1x1卷积,σ1(
·
)表示第一Reshape运算符,W
q
(
·
)表示q分支1x1卷积,σ2(
·
)表示第二Reshape运算符,θ1表示LayerNorm操作,W
z
(
·
)表示z分支的1x1的卷积,F
LN
(
·
)表示LayerNorm操作,F
SM
(
·
)表示SoftMax操作,
×
表示矩阵点积运算,F
SG
(
·
)表示Sigmoid操作;极化注意力模块的空间分支的权重计算公式如下:A
sp
(X)=F
SG
[σ3(F
SM
(σ1(F

【专利技术属性】
技术研发人员:吴晓胡文莉李威乔建军何廷全胡东风
申请(专利权)人:西南交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1