【技术实现步骤摘要】
一种基于零件定位的行人分组属性识别方法
[0001]本专利技术属于计算机视觉图像分类
,具体涉及一种基于零件定位的行人分组属性识别方法。
技术介绍
[0002]行人属性识别的目的是从图像或者视频中对目标行人的属性特征进行挖掘。行人属性包括性别、年龄、服饰、背包等,是行人图像显式的语义描述,能够传达重要的信息。随着社会层面对公共安防问题的不断重视,行人属性识别在行人重识别、身份识别、智能监控领域以及安防领域被广泛地应用,发挥了重要的作用。若能在海量的监控视频中有效识别和利用行人属性信息,就能极大减少人力成本,并提高安防能力。但由于受到监控场景下光照、分辨率、遮挡等因素的影响,监控场景下的行人属性识别仍存在巨大的挑战。
[0003]传统的行人属性识别往往是通过手工设计特征的方法,例如提取图像的方向梯度直方图(histogram of oriented gradient,HOG),但传统方法的特征表达能力有限,在低分辨率且复杂的场景下受到巨大的限制。随着深度学习技术的快速发展,卷积神经网络(Convolutional NeuralNetworks,CNN)成为各个领域研究的热点,由于其拥有强大的局部特征提取能力和较低的网络训练难度,使得基于卷积神经网络的方法开始被应用于行人属性识别这个问题上,并且取得了许多重大的突破。
[0004]最早的深度学习方法是基于全局图像的全局特征,缺乏对属性细粒度特征的考虑,这会影响一些特征区域较小的属性如眼镜、鞋子等的识别,在过去的研究中利用了基于局部区域和基于注意力机制 ...
【技术保护点】
【技术特征摘要】
1.一种基于零件定位的行人分组属性识别方法,其特征在于,该方法具体包括以下步骤:步骤1、对PETA、PA100k和RAP行人属性数据集中的原始数据进行预处理,对原始数据进行数据增强和属性分组;步骤2、利用步骤1预处理后的数据,输入到主干网络Resnet50中,得到全局特征分支,具体操作如下:全局特征分支是基于整体区域的属性识别,经过resnet50的conv1
‑
4模块特征提取特征后会得到2048
×4×
8维的全局特征,使用全局平均池化的方式;步骤3、利用步骤2中主干网络Resnet50提取的特征,输入到零件定位模块,得到局部特征分支,并预测其对应属性;具体操作如下:主干网络resnet50提取的全局特征经过零件定位模块中的变换会得到一个1
×
4维的特征,零件定位模块中包含的空间变换网络会根据这个1
×
4维的特征对原始行人图像进行下采样操作,输出行人的头部区域、躯干区域和腿部区域三个区域的图像,相对应的是头部、躯干和腿部三个分支;根据步骤1中的数据预处理中属性分组的结果,使行人属性分别对应头部、躯干区域和腿部这三个分支,每一个分支只会预测与其对应的属性;步骤4、通过损失计算训练网络模型;在损失函数的设计上,使用联合损失函数;具体由分类损失和定位损失两个部分组合而成;步骤4
‑
1:现有的行人属性数据集存在比较严重的属性样本不平衡问题,使用加权的focal loss的函数解决上述的问题,分类损失计算公式如下:其中a
m
表示第m个属性的先验类别分布,w
m
表示第m个属性的损失权重,σ表示使用sigmoid激活函数,α、γ为设置的权重,y
i
表示行人图像对应的属性标签,表示行人图像对应的属性的预测结果;;步骤4
‑
2:除了属性识别的分类的损失,零件定位模块也需要计算定位损失,来更准确的辅助身体部件的定位;;首先,提出的是中心约束,通过限定空间变化网络的先验中心点来解决空间变化网络的结果都容易落入同一区域的问题,约束的具体公式如下:其中t
y
代表垂直方向的translate,C
y
是每个部分的先验中心点对应的y坐标值;参数α
′
是控制估计中心点和先验中心点之间平移的阈值;作为优选,C
y
的值分别为0.6、0和
‑
0.5;;设置阈值α
′
的值为1.25;对仿射变换矩阵中scale的参数值的范围提出约束,来解决scale参数结果容易出现负数的问题,导致图像水平和垂直翻转的问题,约束的具体公式如下:
其中s
x
代表水平方向的scale,s
y
代表垂直方向的scale;β是阈值...
【专利技术属性】
技术研发人员:邵艳利,应勇,王兴起,魏丹,陈滨,方景龙,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。