一种基于零件定位的行人分组属性识别方法技术

技术编号:39271131 阅读:14 留言:0更新日期:2023-11-07 10:50
本发明专利技术公开了一种基于零件定位的行人分组属性识别方法。本发明专利技术首先受到空间变化网络的启发,提出一个零件定位模块,可以在没有身体部位或位置等先验知识的情况下定位出单个行人的头部区域、躯干区域和腿部区域三个主要部位,并结合属性的空间关系特征将分组后的属性对应零件定位的区域,有效缩小关注区域以提高属性识别的准确性。其次,设计了一种加权的Focal loss损失函数以解决行人属性数据不平衡问题,设计了定位损失函数以提高零件定位模块的准确性。最后,在此基础上提出了一个基于ResNet50的端到端的行人属性识别框架。ResNet50的端到端的行人属性识别框架。ResNet50的端到端的行人属性识别框架。

【技术实现步骤摘要】
一种基于零件定位的行人分组属性识别方法


[0001]本专利技术属于计算机视觉图像分类
,具体涉及一种基于零件定位的行人分组属性识别方法。

技术介绍

[0002]行人属性识别的目的是从图像或者视频中对目标行人的属性特征进行挖掘。行人属性包括性别、年龄、服饰、背包等,是行人图像显式的语义描述,能够传达重要的信息。随着社会层面对公共安防问题的不断重视,行人属性识别在行人重识别、身份识别、智能监控领域以及安防领域被广泛地应用,发挥了重要的作用。若能在海量的监控视频中有效识别和利用行人属性信息,就能极大减少人力成本,并提高安防能力。但由于受到监控场景下光照、分辨率、遮挡等因素的影响,监控场景下的行人属性识别仍存在巨大的挑战。
[0003]传统的行人属性识别往往是通过手工设计特征的方法,例如提取图像的方向梯度直方图(histogram of oriented gradient,HOG),但传统方法的特征表达能力有限,在低分辨率且复杂的场景下受到巨大的限制。随着深度学习技术的快速发展,卷积神经网络(Convolutional NeuralNetworks,CNN)成为各个领域研究的热点,由于其拥有强大的局部特征提取能力和较低的网络训练难度,使得基于卷积神经网络的方法开始被应用于行人属性识别这个问题上,并且取得了许多重大的突破。
[0004]最早的深度学习方法是基于全局图像的全局特征,缺乏对属性细粒度特征的考虑,这会影响一些特征区域较小的属性如眼镜、鞋子等的识别,在过去的研究中利用了基于局部区域和基于注意力机制以解决这个问题。基于局部区域的方法常常是用预定义身体刚性部件,例如使用身体部件检测,姿态估计和区域建议来学习基于部位的局部特征。这些方法虽然提高了识别性能,但往往需要额外提供身体部位信息,需要对样本进行额外的数据标注,为样本做数据标注的代价是昂贵的、易出错的。之后的相关工作有直接对不同的属性区域进行预测的,高准确率的属性区域预测的确能显著提高整体识别性能,但是弱监督形式的属性区域预测难以保证全部属性区域的正确预测,属性区域预测结果的错误也会进一步导致属性分类的结果。而基于注意力机制的方法虽然可以以弱监督的方式聚焦属性的相关区域,提高识别准确率,但加入注意力模块参与网络的预测会导致网络的参数量和计算量增加,并且注意力关注的位置是不明确的,没有特定的机制来保证属性和注意掩码之间的对应性。

技术实现思路

[0005]本专利技术针对现有技术的不足,提出了一种基于零件定位的行人分组属性识别方法。本专利技术首先受到空间变化网络(STN)的启发,提出一个零件定位模块(PLM),可以在没有身体部位或位置等先验知识的情况下定位出单个行人的头部区域、躯干区域和腿部区域三个主要部位,并结合属性的空间关系特征将分组后的属性对应零件定位的区域,有效缩小关注区域以提高属性识别的准确性。其次,设计了一种加权的Focal loss损失函数以解决
行人属性数据不平衡问题,设计了定位损失函数以提高零件定位模块的准确性。最后,在此基础上提出了一个基于ResNet50的端到端的行人属性识别框架。
[0006]一种基于零件定位的行人分组属性识别方法,具体包括以下步骤:
[0007]步骤1、对PETA、PA100k和RAP行人属性数据集中的原始数据进行预处理,对原始数据进行数据增强和属性分组;
[0008]步骤2、利用步骤1预处理后的数据,输入到主干网络Resnet50中,得到全局特征分支,具体操作如下:
[0009]全局特征分支是基于整体区域的属性识别,经过resnet50的conv1

4模块特征提取特征后会得到2048
×4×
8维的全局特征,使用全局平均池化的方式。
[0010]步骤3、利用步骤2中主干网络Resnet50提取的特征,输入到零件定位模块(PLM),得到局部特征分支,并预测其对应属性;具体操作如下:
[0011]主干网络resnet50提取的全局特征经过零件定位模块中的变换会得到一个1
×
4维的特征,零件定位模块中包含的空间变换网络会根据这个1
×
4维的特征对原始行人图像进行下采样操作,输出行人的头部区域、躯干区域和腿部区域三个区域的图像,相对应的是头部、躯干和腿部三个分支;根据步骤1中的数据预处理中属性分组的结果,使行人属性分别对应头部、躯干区域和腿部这三个分支,每一个分支只会预测与其对应的属性。预测全部属性是没有意义的。例如,在头部区域预测腿部的属性得到的结果是无用的。
[0012]步骤4、通过损失计算训练网络模型;
[0013]在损失函数的设计上,本专利技术使用联合损失函数。具体由分类损失和定位损失两个部分组合而成。
[0014]步骤4

1:现有的行人属性数据集存在比较严重的属性样本不平衡问题,有些属性在数据集样本中的占比极少。以PETA数据集为例,从每个类二分类的角度来看,大多数类别的其正样本远远少于负样本。从多标签多任务的角度来看,这些类别之间又存在不平衡。并且在网络训练过程中也存在一些属性类别容易分类,一些属性类别难以分类。使用加权的focalloss的函数解决上述的问题,分类损失计算公式如下:
[0015][0016][0017]其中a
m
表示第m个属性的先验类别分布,w
m
表示第m个属性的损失权重,σ表示使用sigmoid激活函数,α、γ为设置的权重,y
i
表示行人图像对应的属性标签,表示行人图像对应的属性的预测结果;
[0018]作为优选,设置权重α取值为0.4,权重γ取值为0.5。
[0019]步骤4

2:除了属性识别的分类的损失,零件定位模块也需要计算定位损失,来更准确的辅助身体部件的定位。首先,提出的是中心约束,通过限定空间变化网络的先验中心点来解决空间变化网络的结果都容易落入同一区域的问题,约束的具体公式如下:
[0020][0021]其中t
y
代表垂直方向的translate,C
y
是每个部分的先验中心点对应的y坐标值。参数α是控制估计中心点和先验中心点之间平移的阈值。作为优选,C
y
的值分别为0.6、0和

0.5。并且设置阈值α

的值为1.25。
[0022]对仿射变换矩阵中scale的参数值的范围提出约束,来解决scale参数结果容易出现负数的问题,导致图像水平和垂直翻转的问题,约束的具体公式如下:
[0023][0024]其中s
x
代表水平方向的scale,s
y
代表垂直方向的scale。β是阈值参数,作为优选,设置阈值β的值为0.1。
[0025]对在图像内裁减的区域提出约束,来解决仿射变化得到的crop区域会出现在图像外部的问题,约束的具体公式如下:
[0026][0027]其中参数γ代表边本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于零件定位的行人分组属性识别方法,其特征在于,该方法具体包括以下步骤:步骤1、对PETA、PA100k和RAP行人属性数据集中的原始数据进行预处理,对原始数据进行数据增强和属性分组;步骤2、利用步骤1预处理后的数据,输入到主干网络Resnet50中,得到全局特征分支,具体操作如下:全局特征分支是基于整体区域的属性识别,经过resnet50的conv1

4模块特征提取特征后会得到2048
×4×
8维的全局特征,使用全局平均池化的方式;步骤3、利用步骤2中主干网络Resnet50提取的特征,输入到零件定位模块,得到局部特征分支,并预测其对应属性;具体操作如下:主干网络resnet50提取的全局特征经过零件定位模块中的变换会得到一个1
×
4维的特征,零件定位模块中包含的空间变换网络会根据这个1
×
4维的特征对原始行人图像进行下采样操作,输出行人的头部区域、躯干区域和腿部区域三个区域的图像,相对应的是头部、躯干和腿部三个分支;根据步骤1中的数据预处理中属性分组的结果,使行人属性分别对应头部、躯干区域和腿部这三个分支,每一个分支只会预测与其对应的属性;步骤4、通过损失计算训练网络模型;在损失函数的设计上,使用联合损失函数;具体由分类损失和定位损失两个部分组合而成;步骤4

1:现有的行人属性数据集存在比较严重的属性样本不平衡问题,使用加权的focal loss的函数解决上述的问题,分类损失计算公式如下:其中a
m
表示第m个属性的先验类别分布,w
m
表示第m个属性的损失权重,σ表示使用sigmoid激活函数,α、γ为设置的权重,y
i
表示行人图像对应的属性标签,表示行人图像对应的属性的预测结果;;步骤4

2:除了属性识别的分类的损失,零件定位模块也需要计算定位损失,来更准确的辅助身体部件的定位;;首先,提出的是中心约束,通过限定空间变化网络的先验中心点来解决空间变化网络的结果都容易落入同一区域的问题,约束的具体公式如下:其中t
y
代表垂直方向的translate,C
y
是每个部分的先验中心点对应的y坐标值;参数α

是控制估计中心点和先验中心点之间平移的阈值;作为优选,C
y
的值分别为0.6、0和

0.5;;设置阈值α

的值为1.25;对仿射变换矩阵中scale的参数值的范围提出约束,来解决scale参数结果容易出现负数的问题,导致图像水平和垂直翻转的问题,约束的具体公式如下:
其中s
x
代表水平方向的scale,s
y
代表垂直方向的scale;β是阈值...

【专利技术属性】
技术研发人员:邵艳利应勇王兴起魏丹陈滨方景龙
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1