一种人体图像关键点姿态估计方法技术

技术编号:28138663 阅读:75 留言:0更新日期:2021-04-21 19:12
本发明专利技术公开了一种人体图像关键点姿态估计方法,包括:对输入的训练图像预处理,用基于空洞卷积的大感受野特征金字塔网络的行人检测网络对输入图像进行检测;将检测到的人体形成的边界框进行裁剪,只保留框内图像;将裁剪后图像输入到设计的模型中,进行人体姿态关键点估计。本发明专利技术可以将含有人体的输入图像进行关键点生成,并且生成估计处理后的图像中生成的人体关键点具有较高精度较好保持了人体的骨架几何信息。骨架几何信息。骨架几何信息。

【技术实现步骤摘要】
一种人体图像关键点姿态估计方法


[0001]本专利技术涉及图像处理
,特别是涉及一种人体图像关键点姿态估计方法。

技术介绍

[0002]人体图像关键点姿态估计,是指从一张含有人体的图像中对人体骨架上的关键点进行建模估计,人体关键点一般定义为:踝关节,左膝关节,左臀部,右臀部,左膝关节,左踝关节,右踝关节,上颈部,头顶,右手腕,左肘,左肩,右肩,右肘,左手腕,最后通过训练好的姿态估计模型,对输入图像进行姿态估计,输出为含有人体骨架关键点的图像。
[0003]由于人体具有相当柔性,会出现各种姿态和形状,人体任何一个部位的微小变化都会产生一种新的姿态,同时其关键点的可见性受穿着、姿态、视角等影响非常大,而且还面临着遮挡、光照、雾等环境的影响,除此之外,2D人体关键点和3D人体关键点在视觉上会有明显的差异,身体不同部位都会有视觉上缩短的效果(foreshortening),使得人体骨骼关键点检测成为计算机视觉领域中一个极具挑战性的问题。
[0004]现有解决人体图像关键点姿态估计的人体骨骼关键点检测算法基本上是在几何先验的基础上基于模版匹配的思路来进行,核心就在于如何去用模版表示整个人体结构,包括关键点的表示,肢体结构的表示以及不同肢体结构之间的关系的表示。一个好的模版匹配的思路,可模拟更多的姿态范围,以至于能够更好的匹配并检测出对应的人体姿态。
[0005]也有人提出了基于深度学习的方法,比如G

RMI,PAF,RMPE,Mask R

CNN。普遍使用卷积神经网络来构建人体关键点姿态估计网络结构,现在通过行人检测网络识别出人体,但是现有的检测网络通常都是基于分类网络演变而来运用现有的分类网络框架进行修改,并且采用在imagenet上预训练好的模型进行fine

tuning,本专利技术针对检测这一具体任务提出一个专门的行人检测网络结构,随后将含有人体图像输入到该网络结构中,进行一系列非线性处理(用来拟合一个复杂的映射函数)得到生成的人体骨架关键点姿态图像,将生成的人体骨架关键点姿态图像与真实的标注的人体固件关键点图像作为损失函数的输入并计算该损失函数的值,求梯度来最小化这个值,并利用反向传播函数将求得的梯度反向传播并更新网络权重的参数,多次迭代直到该损失函数不变为止。
[0006]由于技术的进一步的专利技术以及高质量高精确度的人体骨架关键点图像对用户的体验和市场的竞争都具有重要的意义。而现有的人体图像关键点姿态估计生成质量不能满足要求,且不确定性比较大。因此,对人体图像关键点姿态估计方法进行一步改进,是很有必要的。

技术实现思路

[0007]本专利技术的目的是针对现有技术中存在的技术缺陷,首先提出一种专有的检测网络DetectionNet进而提供一种融合空洞卷积(Dilated conv)的级联金字塔的深度神经网络的人体图像关键点姿态估计方法,以提高人体图像关键点姿态估计校正质量,降低不确定性。
[0008]为实现本专利技术的目的,本专利技术所采用的技术方案是:
[0009]一种人体图像关键点姿态估计方法,包括以下步骤:
[0010]步骤S1.将图像数据库中的图像数据预处理:
[0011]首先,将原始图像送入已经训练好的检测网络DetectionNet检测,输入尺寸224*224,只输出人体用边界框标记的人体图像;然后将输出的人体图像裁剪,形成预定格式大小;
[0012]步骤S2.通过训练得到能够对人体图像进行姿态估计得到人体固件关键点图像的深度网络模型:
[0013]利用步骤S1中已经裁剪完成的人体图像作为网络的输入,以训练集中的json文件作为人体关键点标注信息像作为GroundTruth,训练深度神经网络模型中的全局网络和矫正网络,获得训练好的完成从人体图像到人体关键点图像的姿态估计的深度神经网络模型;
[0014]其中,通过全局网络对输入的人体图像处理,得到不同尺寸的特征图,采用自底向上的U

Shape的结构,与真实的标注的骨架关键点图像进行L2损失的计算,通过全局网络得到不同尺度的特征图输出,然后通过Bottleneck和注意力机制模块然后进行上采样操作,对不同尺度的特征图进行concat操作后,进行L2损失的计算,模型迭代多次达到稳定后,完成模型的训练;
[0015]步骤S3.使用训练好的深度神经网络模型,对测试数据集中的图像进行姿态估计处理。
[0016]本专利技术使用全局网络和矫正网络两个网络分别定位关键点和对关键点进行修正,并采用L2损失函数,提高了生成关键点的进度和减小了不确定性,使用的以Bottleneck与注意力机制为基础的矫正网络结构可以提高不同尺度之间的校正性能。
[0017]本专利技术全局网络通过使用残差网络ResNet101结构作为骨干网络,提高了模型容量和加快训练速度。
[0018]本专利技术通过提出一种专有的检测网络,针对性质解决了一般的校正网络中忽略了各个尺度特征图之间通道权重分布问题,通过采用注意力机制模块来提升检测校正。借助提出的基于注意力机制模块的深度神经网络的人体图像关键点姿态估计模型,使用残差网络作为构建模型的基础,结合了级联金字塔结构,使得模型的校正性能更好并且泛化能力更强。
附图说明
[0019]图1所示为本专利技术在测试数据集中的一张人体图像上的测试结果,左边是输入人体图像,中间是采用注意力机制模块校正后输出图像,右边是不采用注意力机制模块校正后输出图像。
[0020]图2所示为本专利技术中专有的一中检测网络DetectionNet方法结构框图。
[0021]图3所示为设计的2中不同类型的bottleneck结构图。
[0022]图4所示为p4,p5,p6之间的运算连接方式。
[0023]图5所示为ResNet50网络的处理过程图。
[0024]图6所示为全局网络结构图。
[0025]图7所示为检测网络、全局网络中加和操作的局部示意图。
[0026]图8所示为本专利技术的整体网络结构图。
[0027]图9所示为Bottleneck结构图。
[0028]图10所示为本专利技术的加入矫正网络后的整体结构图。
[0029]图11所示为本专利技术的空洞卷积(Dilated conv)的卷积示意图。
[0030]图12所示为本专利技术设计的注意力机制模块示意图。
具体实施方式
[0031]以下结合附图和具体实施例对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0032]本专利技术的人体图像关键点姿态估计方法,包括以下几个步骤:
[0033]步骤S1,先对图像训练集数据做特定数据增强,首先我们定义可以应用于图像的所有可能的数据增强,如下表(参数均对应于TensorFlow相应函数参数):
[0034]操作名称
ꢀꢀꢀ
描述
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人体图像关键点姿态估计方法,其特征在于,包括以下步骤:步骤S1.将图像数据库中的图像数据预处理:首先,将原始图像送入已经训练好的基于空洞卷积的特征金字塔网络DetectionNet检测,只输出人体用边界框标记的人体图像;然后将输出的人体图像裁剪,形成预定格式大小,然后进行自动数据增强处理;步骤S2.通过训练得到能够对人体图像进行姿态估计以得到人体固件关键点图像的深度神经网络模型:利用步骤S1中已裁剪完的人体图像作为网络的输入,以训练集中的用xy轴坐标形式标出的json文件作为人体关键点标注信息像作为GroundTruth,训练深度神经网络模型中的全局网络和矫正网络,获得训练好的完成从人体图像到人体关键点图像的姿态估计的深度神经网络模型;其中,通过全局网络的ResNet101网络对输入的人体图像处理,得到不同尺寸的特征图输出,采用自底向上的U

Shape结构,将每一层特征图进行自底向上做采样后进行加和后,进行预测操作,其中,用与GroudTruth进行L2损失函数计算以进行损失约束;通过预测操作进行预定卷积步骤处理后,生成不同关键点的热力图,从而得到初始人体关键点;将全局网络中每一层加和的特征图,通过Bottleneck后,通过设计的注意力机制模块,然后分别进行上采样,然后进行concat操作后通过Bottleneck,并采用基于难检测关键点的L
2*
损失约束,随后通过卷积进行热力图生成,修正初始的人体关键点,得到最终的人体关键点;模型迭代多次达到稳定后,完成模型的训练;步骤S3.使用训练好的深度神经网络模型,对测试数据集中的包含人体的图像进行姿态估计处理。2.根据权利要求1所述的人体图像关键点姿态估计方法,其特征在于,所述特征金字塔网络FPN采用特定数据增强的方法处理图片,并且对FPN的后两个stage进行修改以特定针对于目标检测,并将检测后的人体图像进行裁剪后进行输入,具体为:采用Resnet50为骨干网络进行特征提取,使用标准高斯分布随机初始化ResNet50网络;根据Resnet50提取的特征,保留stage 1~4,4个尺度的特征图,并且命名为P2,P3,P4,P5,,并且通过连接卷积核大小为1*1的卷积核,增加stage5,特征图为P6的特征图;并且在stage4以后我们保持特征图的空间分辨率不变,也就是并且在stage4以后我们保持特征图的空间分辨率不变,也就是其中代表空间分辨率,i为原始图尺寸,x∈[i,2,3,4,5,6],在P4,P5,P6,之间通过连接卷积核大小为1*1的卷积核,以保持通道数一致(通道数=256);最后将stage4~6的特征图按照金字塔架构进行加和,形成FPN特征金字塔,并且采用Fast RCNN的方法进行目标检测,并通过回归损失和分类损失进行约束,多损失融合,分类损失采用log loss,回归的loss和R

CNN一样;总的损失函数:
在检测网络最后的全连接层,接入了两个分支,一个是softmax用于对每个ROI区域做分类,假如有K类待分,加上背景总共K+1类,输出结果为p=(p0.........pk),另外一个是bounding box,用于更精确的...

【专利技术属性】
技术研发人员:侯峦轩马鑫赫然孙哲南
申请(专利权)人:天津中科智能识别产业技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1