【技术实现步骤摘要】
一种针对拥挤人群的精确人体解析方法
[0001]本专利技术涉及一种针对拥挤人群的精确人体解析方法,属于计算机视觉及图像应用领域。
技术介绍
[0002]人体解析是一种细粒度的语义分割任务,旨在识别像素级人体图像的组成部分,如身体部位和衣物,它是多媒体和计算机视觉中的一项基本任务,对于各种不同视觉场景下的问题具有很好的潜力,如行为分析,视频图像理解,智能安防等。公知的方法考虑到存在不同大小的语义特征,使用例如FCN结构,DeeplabV1结构,DeeplabV3结构,SegNet结构,ASPP结构,旨在通过提取多尺度的语义特征以提升人体解析。然而仅仅考虑多尺度信息不能很好的考虑像素之间深层关系,对于拥挤场景中人实例间的复杂交互关系不能很好的建模。就技术而言,拥挤人群的人体解析仍有一些关键问题未得到较好解决,主要体现在三个方面:1)背景复杂,背景颜色和人的衣服过于相似;2)人实例数量变化大,其动作姿态多样,复杂的运动环境中的人存在很强的交互,难以确定特征归属问题;3)拥挤环境中存在复杂的遮挡,这其中包括人体的自遮挡、人和物的遮挡以及人体实例间的相互遮挡。这些遮挡对于人体解析的精度影响很大。以上三个方面是拥挤人群中人体解析亟待解决的关键。
[0003]公知的人体解析方法主要有基于特征增强,基于多任务方法等。例如,Zhang X(<Neurocomputing>402,2020,375
‑
383)提出一种用于人体解析的语义空间融合网络(SSFNET),以缩小语义间隙,通过 ...
【技术保护点】
【技术特征摘要】
1.一种针对拥挤人群的精确人体解析方法,其特征在于:包括如下步骤:Step1、输入拥挤人群图像集,通过深度残差网络提取粗图像分层特征和超像素特征,对人体图像进行特征表示,得到前景精确语义特征图,并生成人体候选多区域检测框;Step2、将前景精确语义特征图上采样到相同大小,并融合在一起生成高分辨率特征,通过初步解析得到人体粗解析结果;Step3、对候选多区域检测框中的前景精确语义特征进行人体姿态估计,生成人体关节点,细化得到多人精确姿态估计结果;Step4、通过计算语义距离损失,将得到的人体粗解析结果和多人精确姿态估计结果进行联合优化,输出最终的精确人体解析结果。2.根据权利要求1所述的针对拥挤人群的精确人体解析方法,其特征在于:所述Step1具体过程如下:首先,对输入拥挤人群图像集G利用ResNet101提取其分层特征P={P1,P2,P3,P4,P5},并使用COB卷积导向边界生成超像素分区系列S={S0,S1,...,S
N
},其中S
N
是表示整个图像的超像素,S
N
中的超像素是S
N
‑1中的两个超像素组合,匹配P2,P4,P5的大小选取S中的子集N={N2,N4,N5},其中相邻层次间节点数量是1/4倍;然后,对P2,P4,P5进行特征映射以映射到图矩阵,其中W是完全连接层的可读权重矩阵,||是指串联操作,Δ
min
(P
le
)和Δ
max
(P
le
)分别代表最小池化和最大池化,P
le
表示联合对应层次超像素分块的网格单元;之后,通过图神经网络提取映射特征的上下文和分层信息,联合特征金字塔解码特征进行融合,为减少冗余计算在图神经网络中添加空间及通道注意力,得到最终的特征表示结果;给定映射节点i及一组相邻节点C
i
,节点i的空间注意力表示为:其中,M是自我注意头,是节点i邻居节点收集的特征向量集之和;通道注意力表示为是节点i邻居节点收集的特征向量集之和;通道注意力表示为表示节点i及其邻居的特征向量的平均,σ表示Sigmod激活的全连接层,与执行元素乘法,注意力最终表示为其中β是初始化为0的刻度权重;最后,基于特征表示结果,得到前景精确语义特征F
f
={P
′
u
|1≤u≤5},并将特征表示结果输入分层级联RPN中得到候选区域,通过分类和回归预测生成人体候选多区域检测框D={d
v
},v表示图中的人数。3.根据权利要求1所述的针对拥挤人群的精确人体解析方法,其特征在于:所述Step3的具体过程如下:首先对Step1中所有检测到的人体候选多区域检测框D进行仿射变换;然后,将变换后的...
【专利技术属性】
技术研发人员:刘骊,韦勇,付晓东,黄青松,刘利军,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。