基于twins多层级特征的行人重识别方法技术

技术编号:33283787 阅读:9 留言:0更新日期:2022-04-30 23:46
本发明专利技术公开了一种基于twins多层级特征的行人重识别方法,方法流程如图1所示。首先提取twins的第三阶段和第四阶段的特征图,将第三阶段的特征图经过设计的一个Convblock,其中包括二维卷积,均值归一化层,SE注意力层,激活函数层,水平切分得到两局部特征图,再经过池化,降维等操作得到两个特征向量;将第四阶段的特征图经过池化降维等操作得到一个特征向量。将这三个特征向量分别经过三个分类层得到三个预测分类。最后将特征向量送入三元组损失,预测分类送入交叉熵损失和中心损失进行联合训练。训练80个迭代后,模型进入拟合状态,最后用数据集的query集和gallery集来评估模型的性能。的性能。的性能。

【技术实现步骤摘要】
基于twins多层级特征的行人重识别方法


[0001]本专利技术属于计算机视觉领域,涉及一种基于Transformer架构的多层级特征提取的多分支行人重识别方法。
技术背景
[0002]行人重识别(Person re

identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得行人重识别成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。
[0003]行人重识别任务主要包括特征提取和相似度度量两个步骤。在特征提取上,基于 Transformer的主干模型考虑到了输入各个部分的关联性和较低的计算代价,对计算机视觉的各个子任务有了更多的选择和可探讨性,它的蓬勃发展带来了更强大的特征表示,对于行人图像具有更好的分辨力和鲁棒性,这将Re

ID的性能提升到了一个新的水平;在相似度度量上,统一的度量都是采用特征向量间的欧式距离或者是余弦距离作为相似度的度量标准。
[0004]行人图片中包含主要的人物信息和无用的背景信息,为了让模型学习到有用的目标信息,通常使用卷积神经网络或者Transformer来对图片进行特征提取,并对提取的特征进行相应的处理进行学习,最后得到一个识别能力较好的识别模型。
[0005]一般认为,在深层金字塔架构网络中,不论是CNN还是Transformer,不同深度的网络层所提取的特征层次(level)不同:浅层的feature map表示低层次特征,低层次特征有利于定位;深层的feature map表示高层次特征,高层次特征有利于分类。当前特征金字塔存在明显缺陷:更关注特征的尺度(scale),而不关注特征的层次(level)。对于同类中外观复杂多变的不同个体,抽取多个层次的特征是很有必要的。
[0006]在进行特征学习时,由于得到的是特征提取主干的最后一层的特征图,该特征图的特点是通道数较多,但是特征图尺寸较小。因此若是仅仅使用这一个特征图来构建模型,可能会遗漏图像中某些较为细节的信息,比如目标人物的衣服上的Logo。所以,单一层次的特征学习鲁棒性不够高,在做数据集的迁移时,模型往往适应性比较差。因此,对模型做多层级的特征学习是很有必要的。

技术实现思路

[0007]为了客观、有效地结合主干的多层级特征,并且对不同层级的特征信息进行融合,本专利技术提出了一种基于twins多层级特征的行人重识别方法。本专利技术通过提取twins

SVT的第三阶段和第四阶段的特征图,对第三阶段的特征图进行卷积,均值归一化,激活函数,切
片,池化等操作,将第四阶段的特征图进行均值归一化,池化等操作,然后对这两个分支进行了联合训练,分别用Cross

Entropy+Center损失和Triplet损失来训练模型,最终使用训练好的模型实现行人重识别任务。
[0008]本专利技术方法主要包括以下步骤:
[0009]步骤一,对原生twins

SVT模型进行修改,去掉模型最后的全局平均池化(GAP)和全连接分类层,这样模型的输出就是主干网络的第四阶段stage4的输出特征图,记为f
s4
∈ b
×7×7×
512;然后将模型的第三阶段stage3的特征图进行提取,得到f
s3
∈ b
×
14
×
14
×
256,其中b表示一个batch的大小。
[0010]步骤二,将特征图f
s4
经过一个全局平均池化,再将多余的维度压缩,得到特征向量f
g
∈ b
×
512,再将f
g
经过全连接层得到分类预测向量p
g
∈b
×
num_classes,其中num_classes表示数据集的总共分类类别数;
[0011]步骤三,将特征图f
s3
∈b
×
14
×
14
×
256经过一个Convblock模块,得到和主干第四阶段相同通道数的特征图f

s3
∈b
×
12
×
12
×
512。
[0012]Convblock模块包括一个分别是二维卷积,BN层,SE注意力,Mish激活函数。
[0013]步骤四,对f

s3
进行水平切分,分别记为part

1,part

2,对应的特征图分别记为2,对应的特征图分别记为得到和
[0014]对和分别经过全局平均池化,再将多余的维度压缩,得到特征向量和再将和经过全连接层得到分类预测向量和
[0015]步骤五,将f
g
,送入三元组损失Triplet Loss,将p
g
,送入交叉熵损失 Cross

Entropy Loss+Center Loss,进行联合训练;两个损失函数的定义分别为:
[0016][0017][0018][0019]公式1中的表示第a的第i张图片,f(
·
)表示模型对图像提取的特征,||
·
||表示求L2 范数,m为损失中的裕度值,N为batch的大小,a,p,n三者的关系为:a与p为同一个人的不同图片,a与n为不同人的图片。
[0020]公式2中x
i
是每个batch中的第i张图片的提取的特征,表示特征描述的第y
i
个类别的类中心,B是batchsize的大小。
[0021]公式3中p
i
是真实标签的one

hot向量,one

hot向量是指多分类标签中的真实目标的位置记为1,其余位置为0的向量。q
i
是模型对第i类的预测概率分数。
[0022]当训练损失不再有明显的下降变化时,完成训练优化,保存模型参数。
[0023]步骤六,使用数据集中的query集和gallery集对模型进行性能评估;首先用模型提取 gallery集中的所有样本的表征向量,其中表征向量为f
g
,三个向量的连接表示,将query集中的每一个样本提取它的表征向量,与gallery集中的向量表计算向量间的欧式距离,将最相近的几个样本记为查询到的结果集;最后计算查询结果的正确率来评估模型的好坏。
[0024]步骤七,实现实际识别目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于twins多层级特征的行人重识别方法,其特征在于,该模型的搭建具体包括以下步骤:步骤一,使用twins

SVT transformer对数据集Market

1501提取行人图片的不同层级特征,对stage3提取后的特征记为特征图f
s3
,f
s3
∈14
×
14
×
256;对stage4提取的特征记为特征图f
s4
,f
s4
∈7
×7×
512;步骤二,将特征图f
s4
经过一个全局平均池化,将多余的维度压缩,得到特征向量f
g
,f
g
∈b
×
512,再将f
g
经过全连接层得到分类预测向量p
g
,p
g
∈b
×
num_classes,其中num_classes表示数据集的总共分类类别数;步骤三,将特征图f
s3
∈b
×
14
×
14
×
256经过一个Convblock模块,得到和主干第四阶段相同通道数的特征图f

s3
∈b
×
12
×
12
×
512;步骤四,将f
s3
水平分为两个分支,分别记为part

1,part

2,对应的特征图分别记为这两个特征图的尺寸大小都为6
×
12
×
512,得到b
×6×
12
×
512和对这两个特征图经过全局平均池化和降维得到两个特征向量经过BN层和全连接层分别得到分类预测向量和步骤五,将f
g
,送入三元组损失Tr...

【专利技术属性】
技术研发人员:高云园翟家豪张卷卷张卫张启忠
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1