【技术实现步骤摘要】
基于动态轻量高分辨率网络的人体姿态估计方法
[0001]本专利技术涉及深度学习、计算机视觉
,具体是涉及基于动态轻量高分辨率网络的人体姿态估计方法。
技术介绍
[0002]人体姿态估计,即对图像或视频中重要的人体关节或部位的位置进行检测,是许多计算机视觉
下游应用(如行为识别、人机交互、视频监控等)的前置任务。在人体姿态估计的应用中,特别是在有限的计算资源与设备条件下进行实时应用时,我们不仅要追求更高的检测精度,而且更要保证其具有较高的计算效率。现阶段大多数关于人体姿态估计的方法研究都采用了卷积神经网络来进行人体关键点特征信息的提取与检测,此类卷积神经网络可被称为人体姿态估计网络。而为了对人体关键点进行像素层面上的精确检测,在上述的人体姿态估计网络中,具有高分辨率表示的特征图是不可或缺的。高分辨率网络得益于其独特的并行多分辨率网络分支结构,能够提取包含多尺度信息的高分辨率特征图,其相较于其他卷积神经网络所提取的特征图,具有更丰富、更全面的特征表示。然而,尽管利用高分辨率网络进行人体关键点检测能够达到很高的精度,同时也会伴随着巨大的计算开销。通过对网络的宽度和深度进行缩减可以得到轻量化的高分辨率网络,从而减小计算开销,但是这样的方法亦会使其检测精度大幅下降。
[0003]除了网络整体主干结构的设计之外,网络模块的设计同时也是影响卷积神经网络性能的决定性环节。网络模块指的是把卷积、上下采样等一系列以某种固定序列反复出现在网络中的操作集成到一起得到的一种模块化结构,通常作为卷积神经网络主干结构设计的基本 ...
【技术保护点】
【技术特征摘要】
1.基于动态轻量高分辨率网络的人体姿态估计方法,其特征在于,所述方法的步骤为:步骤1、获取人体姿态估计数据集,包括训练集和测试集,并对其进行数据预处理;步骤2、构建新型人体姿态估计网络Dite
‑
HRNet,所述新型人体姿态估计网络Dite
‑
HRNet由1个高分辨率主干网络和3个不同分辨率的分支网络组成,主干网络和3个分支网络分别包含不同超参数配置的动态上下文模块和多尺度融合模块;所述新型人体姿态估计网络Dite
‑
HRNet包含4个阶段,在第2、3、4阶段开始时,将3个分支网络逐一添加至主干网络,形成多分支并行的网络结构,相邻阶段之间经由过渡卷积模块使每个新添加的分支网络的输出具有前一个分支网络或主干网络1/2倍的分辨率和2倍的通道数量;所述动态上下文模块为动态多尺度上下文模块或动态全局上下文模块,网络的第1阶段包含1个步长为2的3
×
3卷积层和1个动态全局上下文模块;网络的第2、3、4个阶段中的主干网络和分支网络由跨分辨率单元堆叠构成,每个单元包含2个动态多尺度上下文模块和1个多尺度融合模块;主干网络全程保持高分辨率的特征输出,并通过多尺度融合模块将该高分辨率特征输出与来自所有分支网络的多种尺度下的特征输出进行重复跨分支融合来生成网络的最终输出;步骤3、使用步骤1中得到的训练集数据,对所述新型人体姿态估计网络Dite
‑
HRNet进行训练;步骤4、使用步骤3训练得到的人体姿态估计网络模型在步骤1中得到的测试集数据上进行测试。2.根据权利要求1所述的基于动态轻量高分辨率网络的人体姿态估计方法,其特征在于,所述动态多尺度上下文模块和动态全局上下文模块均先使用通道分割操作将所有输入通道平均分成数量相等的2组,从而在模块内部形成2个分支,并在这2个分支上分别执行不同的操作,然后把2个分支的输出在通道维度上重新拼接,最后使用通道混洗来在具有不同特征表示的2组通道之间进行信息交换。3.根据权利要求2所述的基于动态轻量高分辨率网络的人体姿态估计方法,其特征在于,在所述动态全局上下文模块中,其中一个分支上依次执行1个步长为2的3
×
3动态深度卷积、1个全局上下文建模操作和1个1
×
1动态卷积,而另一个分支上则依次执行1个3
×
3动态深度卷积、1个全局上下文建模操作、1个1
×
1动态卷积和1个步长为2的3
×
3动态深度卷积。4.根据权利要求2所述的基于动态轻量高分辨率网络的人体姿态估计方法,其特征在于,在所述动态多尺度上下文模块中,其中一个分支上依次执行1个密集上下文建模操作、1个动态金字塔卷积和1个全局上下文建模操作,而另一个分支上不执行任何操作。5.根据权利要求4所述的基于动态轻量高分辨率网络的人体姿态估计方法,其特征在于,所述动态金字塔卷积的实施步骤为:a)使用通道分割操作来将所有输入特征通道平均分成数量相...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。