一种针对拥挤人群的精确人体解析方法技术

技术编号:34763310 阅读:27 留言:0更新日期:2022-08-31 19:06
本发明专利技术涉及一种针对拥挤人群的精确人体解析方法,属于计算机视觉,图像应用领域。本发明专利技术首先输入拥挤人群图像集,通过深度残差网络提取粗图像分层特征和超像素特征,对人体图像进行特征表示,得到前景精确语义特征图,并生成人体候选多区域检测框;其次,将前景精确语义特征图上采样到相同大小,并融合在一起生成高分辨率特征,通过初步解析得到人体粗解析结果;然后对候选多区域检测框中的前景精确语义特征进行人体姿态估计,生成人体关节点,细化得到多人精确姿态估计结果;最后,通过计算语义距离损失,将得到的人体粗解析结果和多人精确姿态估计结果进行联合优化,输出最终的精确人体解析结果。本发明专利技术能够有效地解析拥挤人群中的人体图像。中的人体图像。中的人体图像。

【技术实现步骤摘要】
一种针对拥挤人群的精确人体解析方法


[0001]本专利技术涉及一种针对拥挤人群的精确人体解析方法,属于计算机视觉及图像应用领域。

技术介绍

[0002]人体解析是一种细粒度的语义分割任务,旨在识别像素级人体图像的组成部分,如身体部位和衣物,它是多媒体和计算机视觉中的一项基本任务,对于各种不同视觉场景下的问题具有很好的潜力,如行为分析,视频图像理解,智能安防等。公知的方法考虑到存在不同大小的语义特征,使用例如FCN结构,DeeplabV1结构,DeeplabV3结构,SegNet结构,ASPP结构,旨在通过提取多尺度的语义特征以提升人体解析。然而仅仅考虑多尺度信息不能很好的考虑像素之间深层关系,对于拥挤场景中人实例间的复杂交互关系不能很好的建模。就技术而言,拥挤人群的人体解析仍有一些关键问题未得到较好解决,主要体现在三个方面:1)背景复杂,背景颜色和人的衣服过于相似;2)人实例数量变化大,其动作姿态多样,复杂的运动环境中的人存在很强的交互,难以确定特征归属问题;3)拥挤环境中存在复杂的遮挡,这其中包括人体的自遮挡、人和物的遮挡以及人体实例间的相互遮挡。这些遮挡对于人体解析的精度影响很大。以上三个方面是拥挤人群中人体解析亟待解决的关键。
[0003]公知的人体解析方法主要有基于特征增强,基于多任务方法等。例如,Zhang X(<Neurocomputing>402,2020,375

383)提出一种用于人体解析的语义空间融合网络(SSFNET),以缩小语义间隙,通过聚合多分辨率特征来赋予准确的高分辨率预测。Zhang Z(<IEEE/CVF Conference on Computer Vision and Pattern Recognition>,2020,8897

8906)提出了一种相关解析器(CorrPM),以利用人体语义边缘和姿势特征两者的优势来促进人体解析。然而,这些公知方法虽然利用多尺度语义以及其他任务对人体解析进行了补充,在单人解析上取得了很好的效果,同时也可以结合目标检测算法拓展到多人情况。但是其过度依赖于目标检测方法的精度,未考虑到不同人实例间的关系,很难在人群拥挤的情况下产生很好的效果。专利CN113111848A通过在编码器和和解码器之间每一层特征中添加空洞卷积做多尺度特征融合以加强模型的特征提取能力,解决传统人体解析方法对于人体边缘检测像素精度不够的问题。该方法只是简单的堆叠空洞卷积结构,存在大量的冗余计算,仅仅解决边缘精度并不能很好的适用人体解析任务,本专利技术则仅在最后一层特征中添加空洞卷积层,并在编解码器中间添加超像素特征表征图像的内部结构,在获得精确边缘的同时可以获得初步的人体结构。专利CN113537072A通过共享主干提取的多尺度特征,非局部化处理后采用联合学习的方式,分别进行姿态估计和人体解析任务。虽然其考虑到了姿态和解析任务的相同点,但是忽略了两个任务之间的差异性,并且该方法仅适用与单人解析情况。

技术实现思路

[0004]本专利技术提供了一种针对拥挤人群的精确人体解析方法,以用于有效地解析拥挤人
群图像,得到精确的人体解析结果,从而满足目前的对拥挤人群解析的精度要求。
[0005]本专利技术的技术方案是:一种针对拥挤人群的精确人体解析方法,首先输入拥挤人群图像集,通过深度残差网络提取粗图像分层特征和超像素特征,对人体图像进行特征表示,得到前景精确语义特征图,并生成人体候选多区域检测框;其次,将前景精确语义特征图上采样到相同大小,并融合在一起生成高分辨率特征,通过初步解析得到人体粗解析结果;然后对候选多区域检测框中的前景精确语义特征进行人体姿态估计,生成人体关节点,细化得到多人精确姿态估计结果;最后,通过计算语义距离损失,将得到的人体粗解析结果和多人精确姿态估计结果进行联合优化,输出最终的精确人体解析结果。
[0006]所述方法的具体步骤如下:
[0007]Step1、输入拥挤人群图像集中G={G1,G2,...G
n
},通过深度残差网络提取粗图像分层特征和超像素特征,对人体图像进行特征表示,得到前景精确语义特征图,并生成人体候选多区域检测框;
[0008]Step2、通过双线性插值法将不同尺度的前景精确语义特征图上采样到相同大小,并融合在一起生成高分辨率特征,通过初步解析得到人体粗解析结果。
[0009]Step3、对候选多区域检测框中的前景精确语义特征进行人体姿态估计,定义关节损失函数抑制干涉关节,生成人体关节点,并定义人体姿态关联规则,对生成的所有关节点进行关联连接,细化后得到多人精确姿态估计结果;
[0010]Step4、通过计算语义距离损失,将得到的人体粗解析结果和多人精确姿态估计结果进行联合优化,输出最终的精确人体解析结果。
[0011]所述Step1具体如下:
[0012]首先,对输入拥挤人群图像集G利用ResNet101提取其分层特征P={P1,P2,P3,P4,P5},并使用COB卷积导向边界生成超像素分区系列S={S0,S1,...,S
N
},其中S
N
是表示整个图像的超像素,S
N
中的超像素是S
N
‑1中的两个超像素组合。匹配P2,P4,P5的大小选取S中的子集N={N2,N4,N5},其中相邻层次间节点数量是1/4倍。
[0013]然后,对P2,P4,P5进行特征映射以映射到图矩阵,其中W是完全连接层的可读权重矩阵,||是指串联操作,Δ
min
(P
le
)和Δ
max
(P
le
)分别代表最小池化和最大池化,P
le
表示联合对应层次超像素分块的网格单元。
[0014]之后,通过图神经网络提取映射特征的上下文和分层信息,联合特征金字塔解码特征进行融合,为减少冗余计算在图神经网络中添加空间及通道注意力,得到最终的特征表示结果。给定映射节点i及一组相邻节点C
i
,节点i的空间注意力表示为:其中,M是自我注意头,是节点i邻居节点收集的特征向量集之和。通道注意力表示为道注意力表示为表示节点i及其邻居的特征向量的平均,σ表示Sigmod激活的全连接层,与执行元素乘法。注意力最终可表示为其中β是初始化为0的刻度权重。
[0015]最后,基于特征表示结果,得到前景精确语义特征F
f
={P'
u
|1≤u≤5}。并将特征表示结果输入分层级联RPN中得到候选区域,并通过分类和回归预测生成人体候选多区域检测框D={d
v
},v表示图中的人数。
[0016]所述Step3具体如下:
[0017]首先对Step1中D的所有检测到的人体候选多区域检测框进行仿射变换。
[0018]然后,将变换后的每个人体分别输入到单人姿态估计模块中,生成关节热图并定义两本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对拥挤人群的精确人体解析方法,其特征在于:包括如下步骤:Step1、输入拥挤人群图像集,通过深度残差网络提取粗图像分层特征和超像素特征,对人体图像进行特征表示,得到前景精确语义特征图,并生成人体候选多区域检测框;Step2、将前景精确语义特征图上采样到相同大小,并融合在一起生成高分辨率特征,通过初步解析得到人体粗解析结果;Step3、对候选多区域检测框中的前景精确语义特征进行人体姿态估计,生成人体关节点,细化得到多人精确姿态估计结果;Step4、通过计算语义距离损失,将得到的人体粗解析结果和多人精确姿态估计结果进行联合优化,输出最终的精确人体解析结果。2.根据权利要求1所述的针对拥挤人群的精确人体解析方法,其特征在于:所述Step1具体过程如下:首先,对输入拥挤人群图像集G利用ResNet101提取其分层特征P={P1,P2,P3,P4,P5},并使用COB卷积导向边界生成超像素分区系列S={S0,S1,...,S
N
},其中S
N
是表示整个图像的超像素,S
N
中的超像素是S
N
‑1中的两个超像素组合,匹配P2,P4,P5的大小选取S中的子集N={N2,N4,N5},其中相邻层次间节点数量是1/4倍;然后,对P2,P4,P5进行特征映射以映射到图矩阵,其中W是完全连接层的可读权重矩阵,||是指串联操作,Δ
min
(P
le
)和Δ
max
(P
le
)分别代表最小池化和最大池化,P
le
表示联合对应层次超像素分块的网格单元;之后,通过图神经网络提取映射特征的上下文和分层信息,联合特征金字塔解码特征进行融合,为减少冗余计算在图神经网络中添加空间及通道注意力,得到最终的特征表示结果;给定映射节点i及一组相邻节点C
i
,节点i的空间注意力表示为:其中,M是自我注意头,是节点i邻居节点收集的特征向量集之和;通道注意力表示为是节点i邻居节点收集的特征向量集之和;通道注意力表示为表示节点i及其邻居的特征向量的平均,σ表示Sigmod激活的全连接层,与执行元素乘法,注意力最终表示为其中β是初始化为0的刻度权重;最后,基于特征表示结果,得到前景精确语义特征F
f
={P

u
|1≤u≤5},并将特征表示结果输入分层级联RPN中得到候选区域,通过分类和回归预测生成人体候选多区域检测框D={d
v
},v表示图中的人数。3.根据权利要求1所述的针对拥挤人群的精确人体解析方法,其特征在于:所述Step3的具体过程如下:首先对Step1中所有检测到的人体候选多区域检测框D进行仿射变换;然后,将变换后的...

【专利技术属性】
技术研发人员:刘骊韦勇付晓东黄青松刘利军
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1