一种基于交互级联轻量化transformers的域自适应行人重识别方法技术

技术编号:33736318 阅读:12 留言:0更新日期:2022-06-08 21:33
本发明专利技术公开了一种基于交互级联轻量化transformers的域自适应行人重识别方法,属于计算机视觉与行人识别的交叉技术领域。该方法所设计的轻量化transformer包括局部轻量化transformer和全局轻量化transformer,它们由嵌入模块、多头自注意力模块和多头混合模块组成。轻量化transformer可以捕捉长距离依赖,避免噪声标签的影响加剧。在该方法所设计的交互级联框架中,像素点被交替赋予局部信息和全局信息,这增强了局部信息建模和全局信息建模的交互能力,进而提高了模型的特征表达能力。本方法实现了有效的域自适应行人重识别。方法实现了有效的域自适应行人重识别。方法实现了有效的域自适应行人重识别。

【技术实现步骤摘要】
Representation Enhancement for Unsupervised Cross

Domain Person Re

Identification[J].IEEE Transactions on Image Processing,2021,30:5287

5298.)。
[0005]在上述工作中,如何提取具有辨识性的行人特征是跨域行人重识别的一个关键问题。现有的大多数特征提取工作都是基于卷积神经网络(CNNs)的,因此它们受到CNNs有限感受野的阻碍。Transformer(Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Advances in Neural Information Processing SysteNS.2017:5998

6008.)可以捕获长距离的相互依赖关系,但由于其泛化能力较弱,transformer需要大量的预训练,大规模数据集或复杂的超参数调整(Touvron,H.,Cord,M.,Douze,M.,et al.Training data

efficient image transformers&distillation through attention[C]//International Conference on Machine Learning.2021:10347

10357.),它很难直接应用于域自适应行人重识别任务。因此,本专利技术提出了一个参数较少的轻量化transformer来克服感受野受限的问题,并提取具有辨识性的行人特征。
[0006]另一方面,在行人重识别任务中,局部信息建模和全局信息建模之间的交互也有助于提取具有辨识性的行人特征。通常,局部信息和全局信息之间存在联系。比如穿裙子或者靴子的人更可能是长着长发的女性,背着黑色背包的人更可能是带着长着短发的男性。因此,全局信息建模生成的全局属性依赖可以提高局部信息的准确性,而来自局部信息建模的局部信息有利于全局依赖的建立。这两个建模过程之间的交互有助于增强特征表达。
[0007]然而,现有的视觉transformer不能利用这种交互作用。视觉transformer的典型结构包括基于自注意力的非层次结构、朴素层次结构、金字塔结构和交叉注意力结构。基于自注意力的非层次结构只执行全局信息建模;朴素层次结构执行多尺度信息建模;金字塔结构融合了多尺度信息;交叉注意结构允许模型利用多尺度信息建立依赖关系。上述结构中不涉及两个建模过程的交互影响。为了有效利用局部信息建模和全局信息建模之间的交互,本专利技术提出了一种局部信息建模和全局信息建模交互的级联框架,以增强域自适应行人重识别任务中辨识性行人特征的提取。
[0008]综上,针对域自适应行人重识别任务中模型的感受野受限、局部信息建模和全局信息建模之间交互作用不足的问题,本专利技术提出一种基于交互级联轻量化transformers的域自适应方法(Domain Adaption withInteractive Cascade Lightweight Transformers,DA

ICLT)。本专利技术提出的轻量化transformer可以捕捉长距离依赖,并能避免噪声标签的影响加剧。它删除了transformer中的多层感知机(MLP)以增强模型的泛化能力并减轻计算开销,使用卷积神经网络代替部分全连接层以引入平移不变性和局部性。进一步地,本专利技术中的交互级联轻量化transformers框架可以有效增强行人特征表达。它通过交替赋予像素点局部邻域信息和全局信息,使得局部信息建模和全局信息建模互补地增强了像素点的特征表达。

技术实现思路

[0009]针对域自适应行人重识别任务,本专利技术专利提出一种基于交互级联轻量化transformers的域自适应方法(DA

ICLT)。在该方法中,通过设计的轻量化transformer网络,解决了感受野受限的问题,避免了噪声标签影响加剧;通过设计的交互级联框架,增强了局部信息建模和全局信息建模的交互能力,最终提高了模型的特征表达能力。
[0010]本专利技术的技术方案:
[0011]一种基于交互级联轻量化transformers的域自适应行人重识别方法,步骤如下:
[0012]1、使用CNN编码器从行人图像提取紧凑的特征。
[0013]所述CNN编码器由若干卷积神经网络层构成。它输出维数是的特征图,其中height为行人图像的高度,width为行人图像的宽度。该特征图将作为交互级联轻量化transformers的输入。
[0014]2、使用交互级联轻量化transformers提取具有辨识性的行人特征。
[0015]所述交互级联轻量化transformers由3个基本单元构成,每个基本单元由1层局部轻量化transformer和2层全局轻量化transformers级联构成。局部轻量化transformer和全局轻量化transformer是轻量化transformer的两种类型。局部轻量化transformer和全局轻量化transformer的组成模块相同,但执行的过程不同。它们均由嵌入模块、多头自注意力模块和多头混合模块组成。
[0016]交互级联轻量化transformers执行的过程由1层局部轻量化transformer执行的子过程和2层全局轻量化transformers执行的子过程构成。
[0017]交互级联轻量化transformers执行如下过程:
[0018](2.1)1层局部轻量化transformer执行如下子过程:
[0019](2.1.1)将特征图切割为查询块:
[0020][0021]式中F为输入局部轻量化transformers的特征图,它的维数是f
i
表示查询块,下标i为查询块的序号;N
q
表示查询块的数量;divide()表示将特征图切割为查询块的操作。N
q
=a
×
b,a和b分别表示在将特征图F切割为查询块的过程中,将F横向切割的次数和将F纵向切割的次数。查询块f
i
的维数为
[0022](2.1.2)使用嵌入模块来压缩查询块f
i
的通道数,得到查询块e
i
。e
i
的维数是其中d<1024。嵌入模块是1层卷积神经网络。
[0023](2.1.3)将查询块e
i
展开成由多个一维向量构成的二维矩阵s
i

[0024]s
i
=unfold(e
i
)
ꢀꢀꢀ
(2)
[0025]式中unfold()表示将查询块展开成二维矩阵的操作,该展开操作只是将查询块的最后两本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于交互级联轻量化transformers的域自适应行人重识别方法,其特征在于,步骤如下:(1)使用CNN编码器从行人图像提取紧凑的特征所述CNN编码器由若干卷积神经网络层构成,它输出维数是的特征图,其中height为行人图像的高度,width为行人图像的宽度;该特征图将作为交互级联轻量化transformers的输入;(2)使用交互级联轻量化transformers提取具有辨识性的行人特征所述交互级联轻量化transformers由3个基本单元构成,每个基本单元由1层局部轻量化transformer和2层全局轻量化transformers级联构成;局部轻量化transformer和全局轻量化transformer的组成模块相同,但执行的过程不同;它们均由嵌入模块、多头自注意力模块和多头混合模块组成;交互级联轻量化transformers执行的过程由1层局部轻量化transformer执行的子过程和2层全局轻量化transformers执行的子过程构成;交互级联轻量化transformers执行如下过程:(2.1)1层局部轻量化transformer执行如下子过程:(2.1.1)将特征图切割为查询块:式中,F为输入局部轻量化transformers的特征图;f
i
表示查询块,下标i为查询块的序号;N
q
表示查询块的数量;divide()表示将特征图切割为查询块的操作;N
q
=a
×
b,a和b分别表示在将特征图F切割为查询块的过程中,将F横向切割的次数和将F纵向切割的次数;查询块f
i
的维数为(2.1.2)使用嵌入模块来压缩查询块f
i
的通道数,得到查询块e
i
;e
i
的维数是其中d<1024;嵌入模块是1层卷积神经网络;(2.1.3)将查询块e
i
展开成由多个一维向量构成的二维矩阵s
i
:s
i
=unfold(e
i
)
ꢀꢀ
(2)式中,unfold()表示将查询块展开成二维矩阵的操作,该展开操作只是将查询块的最后两维展开成了一维展开成了一维表示查询块e
i
被展开成的二维矩阵,它的维数是d
×
N,其中s
i
的下标i为它对应的查询块的序号;表示s
i
中的第j个一维向量,的维数为d;(2.1.4)基于s
i
利用多头自注意力模块进行信息建模,过程如下:由3个映射模块W
Q
、W
K
和W
V
得到查询矩阵q
i
、键矩阵k
i
和值矩阵v
i
:q
i
=W
Q
s
i
;k
i
=W
K
s
i
;v
i
=W
V
s
i
ꢀꢀ
(3)式中,W
Q
,W
K
和W
V
为3个全连接层,它们的神经元个数均为d
×
d;q
i
,k
i
和v
i
均为维数是d
×
N的二维矩阵,下标i为对应的查询块的序号;将q
i
,k
i
和v
i
分别划分为H组查询矩阵、键矩阵和值矩阵,其中H为多头自注意力机制中的头数;将每组内的键矩阵的转置与查询矩阵进行叉乘,得到查询块内各像素点的H组相似度值;对每组相似度值进行归一化处理得到H组权重;将H组值矩阵分别与对应组的权重进行叉乘,该操作的含义是将值矩阵中的各一维向量按对应像素点间的相似度进行聚合,该操作产生H组聚合结果其中,为维数是的二维矩阵,下标i为对应的查询块的序号,上标m=1,2,...,H为其对应的组号;(2.1.5)将H组二维矩阵重新合并成1个二维矩阵,将合并后的二维矩阵折叠为1个查询块u
i
,它的维数为下标i为查询块的序号;该折叠操作只是将矩阵的最后一维折叠为二维;(2.1.6)将u
i
送入...

【专利技术属性】
技术研发人员:葛宏伟黄嘉健孙亮王霞
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1