当前位置: 首页 > 专利查询>宁波大学专利>正文

一种轻量型网络的2D人体姿态估计方法技术

技术编号:36335919 阅读:14 留言:0更新日期:2023-01-14 17:47
本发明专利技术公开了一种轻量型的2D人体姿态估计方法,通过对HRNe模型进行改进,将HRNe模型的第1个阶段的卷积块替换为ShufflenetV2中的轻量特征提取头,将HRNe模型的第3个阶段和第4个阶段的卷积均替换为轻量动态卷积模块,在HRNe模型的第4个阶段的末尾增加动态空间关节点优化模块,得到LDNet模型,在LDNet模型中,轻量动态卷积模块可以根据输入的特征来调整卷积的参数,一定程度上可以解决人体姿态多变问题,轻量动态卷积模块相比于普通的卷积,一定程度上减少了参数量和计算量,动态空间关节点优化模块后输出的预测关节点热图融合了精细化的图像空间信息和具有判别力的高级语义特征,增强卷积神经元的特征表达能力;优点是人体姿态估计速度快,且准确度高。且准确度高。且准确度高。

【技术实现步骤摘要】
一种轻量型网络的2D人体姿态估计方法


[0001]本专利技术涉及一种2D人体姿态估计方法,尤其是涉及一种轻量型网络的2D人体姿态估计方法。

技术介绍

[0002]2D人体姿态估计(Human Pose Estimation,HPE)是计算机视觉领域中十分基础的一项任务,目的为检测二维图像中人的头、肩、手腕和膝盖等各个关节点位置信息,是很多其他视觉任务的辅助和铺垫性工作,当前已经在智能视频监控、人机交互、自动驾驶以及智能医疗等领域有着重要且广泛的应用。然而,由于人体关节点小,姿态多变,并且通常受到复杂背景和表观特征差异的影响,如人的衣着、身形、人体动作导致的自遮挡和遮挡等因素,使得准确估计人体关节点的位置成为一项具有挑战的任务。
[0003]近几年,深度学习方法在图像识别领域获得了极大成功,基于深度网络的方法已广泛应用于2D人体姿态估计中。深度卷积神经网络模型是当前2D人体姿态估计方法中最常用的一种深度网络。目前,基于深度卷积神经网络模型的2D人体姿态估计方法主要有两种:第一种方法是文献1(B.Xiao,H.Wu,Y.Wei.Simple baselines for human pose estimation and tracking[C]//ECCV.2018:472

487.)中公开的基于ResNet主干网络的SimpleBaseline方法,该方法利用多分辨率图像进行监督,使得深度卷积神经网络模型能够看到不同分辨率图像下的信息。第二种方法是文献2(K.Sun,B.Xiao,D.Liu,J.Wang.Deep high

resolution representation learning for human pose estimation[C]//CVPR.2019:5693

5703.)中公开的利用高分率保持多分辨率并行的深度卷积网络HRNet的方法,该方法通过多分辨率并行子网架构一直保持高分辨率图像信息的学习,加上重复多尺度特征融合,进一步精确了关节点的定位。
[0004]但是,上述两种基于深度卷积神经网络模型的2D人体姿态估计方法均存在以下问题:一、两种深度卷积神经网络模型存在参数量大、计算速度慢和推理速度慢的问题,由此导致人体姿态估计速度慢;二、人体关节点在图像中占比小,属于小目标,对图像局部信息学习有需求,但是两种深度卷积神经网络模型均不具备高级局部信息学习的能力,由此导致人体姿态估计准确度不高。

技术实现思路

[0005]本专利技术所要解决的技术问题是提供一种人体姿态估计速度快,且准确度高的轻量型的2D人体姿态估计方法。
[0006]本专利技术解决上述技术问题所采用的技术方案为:1.一种轻量型的2D人体姿态估计方法,其特征在于包括以下步骤:
[0007]步骤1:从官方网站https://cocodataset.org/#keypoints

2019获取一个2D人体姿态估计任务的公共数据集MS COCO,该公共数据集MS COCO包含自然场景下的N张人的图像以及每张人的图像中人体的17个关节点的坐标,每张人的图像均为三通道彩色图像,其
中,N=175000,17个关节点包括左眼、右眼、鼻子、左耳、右耳、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左胯、右胯、左膝盖、右膝盖、左脚踝和右脚踝,各个关节点的坐标基于其所处的人的图像的坐标系确定,坐标系由横坐标和纵坐标构成,每张人的图像的坐标系以该人的图像的左上角顶点为坐标原点,从坐标原点水平向右方向(即该人的图像的左上角顶点和右上角顶点的连线方向)为横坐标正轴方向,从坐标原点垂直向下方向(即人的图像左上角顶点和左下角顶点的连线方向)为纵坐标正轴方向;将公共数据集MS COCO中的175000张人的图像随机划分为训练集、验证集和测试集三类,其中训练集有150000张人的图像,验证集有5000张人的图像,测试集有20000张人的图像;
[0008]步骤2:从训练集和验证集中获取所有人的图像,然后分别制作每张人的图像对应的17张关节点热图,其中每张人的图像对应的第K张关节点热图的制作方法为:设计一张尺寸大小等于该张人的图像的空白图像,该张人的图像中每个像素点与该空白图像中相同位置处的像素点相对应,然后将该张人的图像中第K个关节点的坐标定义为中心坐标,将该中心坐标的横坐标记为纵坐标记为在与中心坐标处像素点对应的空白图像中的像素点处标注数值1,1表示是该张人的图像中第K个关节点的正确位置,接着以中心坐标为圆心,σ=3cm为半径在该张人的图像上确定一个圆形区域,分别利用二维高斯函数计算圆形区域中除中心坐标处像素点以外的其余每个像素点处的数值,将得到的每个像素点处的数值标注在空白图像中对应的像素点处,其中,e表示自然对数的底,m
K
表示圆形区域内除中心坐标处像素点以外的其余某个像素点的横坐标,n
K
表示圆形区域内除中心坐标处像素点以外的其余某个像素点的纵坐标,圆形区域内除中心坐标的像素点数值外,其余像素点的数值分别大于0且小于1,其数值表示与第K个关节点的正确位置相近,但不是第K个关节点的正确位置,最后,将空白图像中其余未标注的所有像素点处标记数值0,0表示不是第K个关节点的正确位置,空白图像中所有像素点对应标记完成后,即为该张人的图像对应的第K张关节点热图;
[0009]对训练集和验证集中所有人的图像即这些人的图像对应的17张关节点热图分别进行拉伸,使其长均为256厘米,宽均为192厘米,即训练集和验证集中所有人的图像以及所有关节点热图的尺寸均为256
×
192,每张人的图像对应的17张关节点热图即为其对应的17个标签;
[0010]步骤3:对现有的HRNet模型进行如下改进,得到LDNet模型:
[0011]一、将HRNe模型的第1个阶段的卷积块替换为ShufflenetV2中的轻量特征提取头;
[0012]二、将HRNe模型的第3个阶段和第4个阶段的卷积均替换为轻量动态卷积模块,所述的轻量动态卷积模块包含池化层和全连接层,所述的轻量动态卷积模块将输入其内的大小为64
×
48
×
32的特征图,先通过一个池化层进行通道维度的平均池化,得到大小的1
×1×
32的向量,接着将该向量通过一个输入大小为32,输出大小为4的全连接层进行处理,得到大小的1
×1×
4的向量,将该大小为1
×1×
4的向量分别与随机初始化生成的4个大小为3
×3×
32的卷积核进行相乘,得到四个相乘结果,再将四个相乘结果进行相加,得到大小为3
×3×
32的卷积核参数,然后,将得到的大小为3
×3×
32的卷积核参数对输入所述的轻量动态卷积模块内的大小为64
×
48
×
32的特征图进行深度可分离卷积操作,生成大小为64
×
48
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种轻量型的2D人体姿态估计方法,其特征在于包括以下步骤:步骤1:从官方网站https://cocodataset.org/#keypoints

2019获取一个2D人体姿态估计任务的公共数据集MS COCO,该公共数据集MS COCO包含自然场景下的N张人的图像以及每张人的图像中人体的17个关节点的坐标,每张人的图像均为三通道彩色图像,其中,N=175000,17个关节点包括左眼、右眼、鼻子、左耳、右耳、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左胯、右胯、左膝盖、右膝盖、左脚踝和右脚踝,各个关节点的坐标基于其所处的人的图像的坐标系确定,坐标系由横坐标和纵坐标构成,每张人的图像的坐标系以该人的图像的左上角顶点为坐标原点,从坐标原点水平向右方向(即该人的图像的左上角顶点和右上角顶点的连线方向)为横坐标正轴方向,从坐标原点垂直向下方向(即人的图像左上角顶点和左下角顶点的连线方向)为纵坐标正轴方向;将公共数据集MS COCO中的175000张人的图像随机划分为训练集、验证集和测试集三类,其中训练集有150000张人的图像,验证集有5000张人的图像,测试集有20000张人的图像;步骤2:从训练集和验证集中获取所有人的图像,然后分别制作每张人的图像对应的17张关节点热图,其中每张人的图像对应的第K张关节点热图的制作方法为:设计一张尺寸大小等于该张人的图像的空白图像,该张人的图像中每个像素点与该空白图像中相同位置处的像素点相对应,然后将该张人的图像中第K个关节点的坐标定义为中心坐标,将该中心坐标的横坐标记为纵坐标记为K=1,2,

,17,在与中心坐标处像素点对应的空白图像中的像素点处标注数值1,1表示是该张人的图像中第K个关节点的正确位置,接着以中心坐标为圆心,σ=3cm为半径在该张人的图像上确定一个圆形区域,分别利用二维高斯函数计算圆形区域中除中心坐标处像素点以外的其余每个像素点处的数值,将得到的每个像素点处的数值标注在空白图像中对应的像素点处,其中,e表示自然对数的底,m
K
表示圆形区域内除中心坐标处像素点以外的其余某个像素点的横坐标,n
K
表示圆形区域内除中心坐标处像素点以外的其余某个像素点的纵坐标,圆形区域内除中心坐标的像素点数值外,其余像素点的数值分别大于0且小于1,其数值表示与第K个关节点的正确位置相近,但不是第K个关节点的正确位置,最后,将空白图像中其余未标注的所有像素点处标记数值0,0表示不是第K个关节点的正确位置,空白图像中所有像素点对应标记完成后,即为该张人的图像对应的第K张关节点热图;对训练集和验证集中所有人的图像即这些人的图像对应的17张关节点热图分别进行拉伸,使其长均为256厘米,宽均为192厘米,即训练集和验证集中所有人的图像以及所有关节点热图的尺寸均为256
×
192,每张人的图像对应的17张关节点热图即为其对应的17个标签;步骤3:对现有的HRNet模型进行如下改进,得到LDNet模型:一、将HRNe模型的第1个阶段的卷积块替换为ShufflenetV2中的轻量特征提取头;二、将HRNe模型的第3个阶段和第4个阶段的卷积均替换为轻量动态卷积模块,所述的轻量动态卷积模块包含池化层和全连接层,所述的轻量动态卷积模块将输入其内的大小为64
×
48
×
32的特征图,先通过一个池化层进行通道维度的平均池化,得到大小的1
×1×
32的向量,接着将该向量通过一个输入大小为32,输出大小为4的全连接层进行处理,得到大
小的1
×1×
4的向量,将该大小为1
×1×
4的向量分别与随机初始化生成的4个大小为3
×3×
32的卷积核进行相乘,得到四个相乘结果,再将四个相乘结果进行相加,得到大小为3
×3×
32的卷积核参数,然后,将得到的大小为3
×3×
32的卷积核参数对输入所述的轻量动态卷积模块内的大小为64
×
48
×
32的特征图进行深度可分离卷积操作,生成大小为64
×
48
×
32的特征图输出;三、在HRNe模型的第4个阶段的末尾增加一个动态空间关节点优化模块;所述的动态空间关节点优化模块包含3
×
3卷积层以及3个分支,分别称为第一分支、第二分支、第三分支;所述的动态空间关节点优化模块用于接收所述的LDNet模型的第4个阶段输出的大小为64
×
48
×
17的特征图,并将该特征图先通过一个3
×
3卷积层进行卷积处理,得到的大小为64
×
48
×
17的特征图,然后将得到的大小为64
×
48
×
17的特征图分别输出至三条分支处,将三条支路分别称为第一分支、第二分支和第三分支,其中所述的第一分支对输出至其处的大小为64
×
48
×
17的特征图不做任何操作,直接将该大小为64
×
48
×
17的特征图作为其输出特征图进行输出,输出,所述的第二分支先通过1
×
1卷积层对输出至其处的大小为64
×
48
×
17的特征图进行卷积处理,得到大小为64
×
48
×
17的特征图,然后采用Sigmoid激活层对1
×
1卷积层输出的大小为64
×
48
×
17的特征图进行处理,得到大小为64
×
48
×
17的特征图作为第二分支的输出特征图进行输出,所述的第三分支先通过1
×
1卷积层对输出至其处的大小为64
×
48
×
17的特征图进行卷积处理,得到大小为64
×
48
×
1的特征图,再将此时得到的大小为64
...

【专利技术属性】
技术研发人员:冯存郭立君许丁宁张荣
申请(专利权)人:宁波大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1