一种基于交互级联轻量化transformers的域自适应行人重识别方法技术

技术编号：33736318 阅读：21 留言：0更新日期：2022-06-08 21:33

本发明专利技术公开了一种基于交互级联轻量化transformers的域自适应行人重识别方法，属于计算机视觉与行人识别的交叉技术领域。该方法所设计的轻量化transformer包括局部轻量化transformer和全局轻量化transformer，它们由嵌入模块、多头自注意力模块和多头混合模块组成。轻量化transformer可以捕捉长距离依赖，避免噪声标签的影响加剧。在该方法所设计的交互级联框架中，像素点被交替赋予局部信息和全局信息，这增强了局部信息建模和全局信息建模的交互能力，进而提高了模型的特征表达能力。本方法实现了有效的域自适应行人重识别。方法实现了有效的域自适应行人重识别。方法实现了有效的域自适应行人重识别。

全部详细技术资料下载

【技术实现步骤摘要】
Representation Enhancement for Unsupervised Cross
‑
Domain Person Re
‑
Identification[J].IEEE Transactions on Image Processing,2021,30:5287
‑
5298.)。
[0005]在上述工作中，如何提取具有辨识性的行人特征是跨域行人重识别的一个关键问题。现有的大多数特征提取工作都是基于卷积神经网络(CNNs)的，因此它们受到CNNs有限感受野的阻碍。Transformer(Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Advances in Neural Information Processing SysteNS.2017:5998
‑
6008.)可以捕获长距离的相互依赖关系，但由于其泛化能力较弱，transformer需要大量的预训练，大规模数据集或复杂的超参数调整(Touvron,H.,Cord,M.,Douze,M.,et al.Training data
‑
efficient image transformers&distillation through attention[C]//International Conference on Machine Learning.2021:10347
‑
10357.)，它...

【技术保护点】

【技术特征摘要】
1.一种基于交互级联轻量化transformers的域自适应行人重识别方法，其特征在于，步骤如下：(1)使用CNN编码器从行人图像提取紧凑的特征所述CNN编码器由若干卷积神经网络层构成，它输出维数是的特征图，其中height为行人图像的高度，width为行人图像的宽度；该特征图将作为交互级联轻量化transformers的输入；(2)使用交互级联轻量化transformers提取具有辨识性的行人特征所述交互级联轻量化transformers由3个基本单元构成，每个基本单元由1层局部轻量化transformer和2层全局轻量化transformers级联构成；局部轻量化transformer和全局轻量化transformer的组成模块相同，但执行的过程不同；它们均由嵌入模块、多头自注意力模块和多头混合模块组成；交互级联轻量化transformers执行的过程由1层局部轻量化transformer执行的子过程和2层全局轻量化transformers执行的子过程构成；交互级联轻量化transformers执行如下过程：(2.1)1层局部轻量化transformer执行如下子过程：(2.1.1)将特征图切割为查询块：式中，F为输入局部轻量化transformers的特征图；f
i
表示查询块，下标i为查询块的序号；N
q
表示查询块的数量；divide()表示将特征图切割为查询块的操作；N
q
＝a
×
b，a和b分别表示在将特征图F切割为查询块的过程中，将F横向切割的次数和将F纵向切割的次数；查询块f
i
的维数为(2.1.2)使用嵌入模块来压缩查询块f
i
的通道数，得到查询块e
i
；e
i
的维数是其中d＜1024；嵌入模块是1层卷积神经网络；(2.1.3)将查询块e
i
展开成由多个一维向量构成的二维矩阵s
i
：s
i
＝unfold(e
i
)
ꢀꢀ
(2)式中，unfold()表示将查询块展开成二维矩阵的操作，该展开操作只是将查询块的最后两维展开成了一维展开成了一维表示查询块e
i
被展开成的二维矩阵，它的维数是d
×
N，其中s
i
的下标i为它对应的查询块的序号；表示s
i
中的第j个一维向量，的维数为d；(2.1.4)基于s
i
利用多头自注意力模块进行信息建模，过程如下：由3个映射模块W
Q
、W
K
和W
V
得到查询矩阵q
i
、键矩阵k
i
和值矩阵v
i
：q
i
＝W
Q
s
i
；k
i
＝W
K
s
i
；v
i
＝W
V
s
i
ꢀꢀ
(3)式中，W
Q
，W
K
和W
V
为3个全连接层，它们的神经元个数均为d
×
d；q
i
，k
i
和v
i
均为维数是d
×
N的二维矩阵，下标i为对应的查询块的序号；将q
i
，k
i
和v
i
分别划分为H组查询矩阵、键矩阵和值矩阵，其中H为多头自注意力机制中的头数；将每组内的键矩阵的转置与查询矩阵进行叉乘，得到查询块内各像素点的H组相似度值；对每组相似度值进行归一化处理得到H组权重；将H组值矩阵分别与对应组的权重进行叉乘，该操作的含义是将值矩阵中的各一维向量按对应像素点间的相似度进行聚合，该操作产生H组聚合结果其中，为维数是的二维矩阵，下标i为对应的查询块的序号，上标m＝1，2，...，H为其对应的组号；(2.1.5)将H组二维矩阵重新合并成1个二维矩阵，将合并后的二维矩阵折叠为1个查询块u
i
，它的维数为下标i为查询块的序号；该折叠操作只是将矩阵的最后一维折叠为二维；(2.1.6)将u
i
送入...

【专利技术属性】
技术研发人员：葛宏伟，黄嘉健，孙亮，王霞，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人