基于动态轻量高分辨率网络的人体姿态估计方法技术

技术编号:33072088 阅读:12 留言:0更新日期:2022-04-15 10:06
本发明专利技术提供了一种基于动态轻量高分辨率网络的人体姿态估计方法,该方法提出了一种动态轻量高分辨率网络Dite

【技术实现步骤摘要】
基于动态轻量高分辨率网络的人体姿态估计方法


[0001]本专利技术涉及深度学习、计算机视觉
,具体是涉及基于动态轻量高分辨率网络的人体姿态估计方法。

技术介绍

[0002]人体姿态估计,即对图像或视频中重要的人体关节或部位的位置进行检测,是许多计算机视觉
下游应用(如行为识别、人机交互、视频监控等)的前置任务。在人体姿态估计的应用中,特别是在有限的计算资源与设备条件下进行实时应用时,我们不仅要追求更高的检测精度,而且更要保证其具有较高的计算效率。现阶段大多数关于人体姿态估计的方法研究都采用了卷积神经网络来进行人体关键点特征信息的提取与检测,此类卷积神经网络可被称为人体姿态估计网络。而为了对人体关键点进行像素层面上的精确检测,在上述的人体姿态估计网络中,具有高分辨率表示的特征图是不可或缺的。高分辨率网络得益于其独特的并行多分辨率网络分支结构,能够提取包含多尺度信息的高分辨率特征图,其相较于其他卷积神经网络所提取的特征图,具有更丰富、更全面的特征表示。然而,尽管利用高分辨率网络进行人体关键点检测能够达到很高的精度,同时也会伴随着巨大的计算开销。通过对网络的宽度和深度进行缩减可以得到轻量化的高分辨率网络,从而减小计算开销,但是这样的方法亦会使其检测精度大幅下降。
[0003]除了网络整体主干结构的设计之外,网络模块的设计同时也是影响卷积神经网络性能的决定性环节。网络模块指的是把卷积、上下采样等一系列以某种固定序列反复出现在网络中的操作集成到一起得到的一种模块化结构,通常作为卷积神经网络主干结构设计的基本组件。现阶段针对高分辨率网络的网络模块设计都是静态的,即其中包含的操作类型和数量都与其输入数据无关。网络模块中各种操作在不同输入数据上的计算效率有高有低,并受到数据的分辨率大小、特征通道数量等因素影响,然而高分辨率网络中包含着众多不同尺度下的特征数据,因此静态的网络模块并不能很好地利用其并行多分辨率网络分支结构的多尺度特点,难以使其达到最优化的计算效率。
[0004]另外,传统的人体姿态估计网络都只是通过单一重复的卷积运算操作来提取图像中的人体关键点特征,由于受到卷积感受野大小的限制,这样提取出的特征图只利用了图像的局部像素信息,而忽略了远距离像素间的上下文关系。这种网络只能学习到图像局部区域中人体部位的像素分布模式,因为缺乏全局信息的辅助,而无法很好地把握所有人体部位之间的空间上下文关系,造成图像特征提取的偏差。增大卷积层所使用的卷积核的尺寸可以扩大其在图像上每一次运算的感受野范围,从而捕捉到更多的图像空间上下文信息,但一味地增大卷积核尺寸会致使网络的计算复杂度逐步上升,不利于网络的轻量化设计。因此,要想设计更轻量的高分辨率网络,并使其具有更可靠的性能,需采用更加高效的方式来增强其捕捉空间上下文信息的能力。

技术实现思路

[0005]针对传统人体姿态估计网络存在的上述问题,本专利技术设计了一种动态轻量高分辨率网络(Dynamic Lightweight High

Resolution Network,Dite

HRNet),首先对高分辨率网络的宽度和深度进行缩减得到一个轻量级高分辨率网络,然后设计一种新型的动态金字塔卷积以及一种高效的自适应上下文信息建模方法,并将它们嵌入到为高分辨率网络特别设计的两种动态上下文模块中,以增强网络提取多尺度人体关键点特征和捕捉空间上下文信息的能力,使网络具有更高的计算效率。
[0006]本专利技术所述的基于动态轻量高分辨率网络的人体姿态估计方法,所述方法的步骤为:步骤1、获取人体姿态估计数据集,包括训练集和测试集,并对其进行数据预处理;步骤2、构建新型人体姿态估计网络Dite

HRNet,所述新型人体姿态估计网络Dite

HRNet由1个高分辨率主干网络和3个不同分辨率的分支网络组成,主干网络和3个分支网络分别包含不同超参数配置的动态上下文模块和多尺度融合模块;所述新型人体姿态估计网络Dite

HRNet包含4个阶段,在第2、3、4阶段开始时,将3个分支网络逐一添加至主干网络,形成多分支并行的网络结构,相邻阶段之间经由过渡卷积模块使每个新添加的分支网络的输出具有前一个分支网络或主干网络1/2倍的分辨率和2倍的通道数量;所述动态上下文模块为动态多尺度上下文模块或动态全局上下文模块,网络的第1阶段包含1个步长为2的3
×
3卷积层和1个动态全局上下文模块;网络的第2、3、4个阶段中的主干网络和分支网络由跨分辨率单元堆叠构成,每个单元包含2个动态多尺度上下文模块和1个多尺度融合模块;主干网络全程保持高分辨率的特征输出,并通过多尺度融合模块将该高分辨率特征输出与来自所有分支网络的多种尺度下的特征输出进行重复跨分支融合来生成网络的最终输出;步骤3、使用步骤1中得到的训练集数据,对所述新型人体姿态估计网络Dite

HRNet进行训练;步骤4、使用步骤3训练得到的人体姿态估计网络模型在步骤1中得到的测试集数据上进行测试。
[0007]进一步的,所述动态多尺度上下文模块和动态全局上下文模块均先使用通道分割操作将所有输入通道平均分成数量相等的2组,从而在模块内部形成2个分支,并在这2个分支上分别执行不同的操作,然后把2个分支的输出在通道维度上重新拼接,最后使用通道混洗来在具有不同特征表示的2组通道之间进行信息交换。
[0008]进一步的,在所述动态全局上下文模块中,其中一个分支上依次执行1个步长为2的3
×
3动态深度卷积、1个全局上下文建模操作和1个1
×
1动态卷积,而另一个分支上则依次执行1个3
×
3动态深度卷积、1个全局上下文建模操作、1个1
×
1动态卷积和1个步长为2的3
×
3动态深度卷积。
[0009]进一步的,在所述动态多尺度上下文模块中,其中一个分支上依次执行1个密集上下文建模操作、1个动态金字塔卷积和1个全局上下文建模操作,而另一个分支上不执行任何操作。
[0010]进一步的,所述动态金字塔卷积的实施步骤为:a)使用通道分割操作来将所有输入特征通道平均分成数量相等的G组;
b)为每组通道都分配N个不同卷积核,其中每个卷积核的权重参数都是随机生成的,不同组的卷积核大小不同,G组通道一共有G
×
N个卷积核;c)根据各组通道的不同输入特征来为同一组通道上的N个卷积核计算注意力权重,G组通道一共有G组注意力权重;d)利用所述注意力权重对同一组通道上的N个卷积核的权重参数进行加权融合,G组通道一共有G组加权融合后的卷积核权重参数;e)使用加权融合后的G组卷积核权重参数在其各自组的通道上分别进行具有不同卷积核大小的卷积操作,G组通道一共有G组不同尺度的卷积特征输出;f)把G组卷积特征输出在通道维度上重新拼接起来;d)使用通道混洗操作来在具有不同尺度特征表示的G组通道之间进行信息交换。
[0011]进一步的,所述注本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于动态轻量高分辨率网络的人体姿态估计方法,其特征在于,所述方法的步骤为:步骤1、获取人体姿态估计数据集,包括训练集和测试集,并对其进行数据预处理;步骤2、构建新型人体姿态估计网络Dite

HRNet,所述新型人体姿态估计网络Dite

HRNet由1个高分辨率主干网络和3个不同分辨率的分支网络组成,主干网络和3个分支网络分别包含不同超参数配置的动态上下文模块和多尺度融合模块;所述新型人体姿态估计网络Dite

HRNet包含4个阶段,在第2、3、4阶段开始时,将3个分支网络逐一添加至主干网络,形成多分支并行的网络结构,相邻阶段之间经由过渡卷积模块使每个新添加的分支网络的输出具有前一个分支网络或主干网络1/2倍的分辨率和2倍的通道数量;所述动态上下文模块为动态多尺度上下文模块或动态全局上下文模块,网络的第1阶段包含1个步长为2的3
×
3卷积层和1个动态全局上下文模块;网络的第2、3、4个阶段中的主干网络和分支网络由跨分辨率单元堆叠构成,每个单元包含2个动态多尺度上下文模块和1个多尺度融合模块;主干网络全程保持高分辨率的特征输出,并通过多尺度融合模块将该高分辨率特征输出与来自所有分支网络的多种尺度下的特征输出进行重复跨分支融合来生成网络的最终输出;步骤3、使用步骤1中得到的训练集数据,对所述新型人体姿态估计网络Dite

HRNet进行训练;步骤4、使用步骤3训练得到的人体姿态估计网络模型在步骤1中得到的测试集数据上进行测试。2.根据权利要求1所述的基于动态轻量高分辨率网络的人体姿态估计方法,其特征在于,所述动态多尺度上下文模块和动态全局上下文模块均先使用通道分割操作将所有输入通道平均分成数量相等的2组,从而在模块内部形成2个分支,并在这2个分支上分别执行不同的操作,然后把2个分支的输出在通道维度上重新拼接,最后使用通道混洗来在具有不同特征表示的2组通道之间进行信息交换。3.根据权利要求2所述的基于动态轻量高分辨率网络的人体姿态估计方法,其特征在于,在所述动态全局上下文模块中,其中一个分支上依次执行1个步长为2的3
×
3动态深度卷积、1个全局上下文建模操作和1个1
×
1动态卷积,而另一个分支上则依次执行1个3
×
3动态深度卷积、1个全局上下文建模操作、1个1
×
1动态卷积和1个步长为2的3
×
3动态深度卷积。4.根据权利要求2所述的基于动态轻量高分辨率网络的人体姿态估计方法,其特征在于,在所述动态多尺度上下文模块中,其中一个分支上依次执行1个密集上下文建模操作、1个动态金字塔卷积和1个全局上下文建模操作,而另一个分支上不执行任何操作。5.根据权利要求4所述的基于动态轻量高分辨率网络的人体姿态估计方法,其特征在于,所述动态金字塔卷积的实施步骤为:a)使用通道分割操作来将所有输入特征通道平均分成数量相...

【专利技术属性】
技术研发人员:李群张子屹肖甫张锋
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1