一种用于车辆重识别的局部细化和全局强化网络制造技术

技术编号:38622225 阅读:20 留言:0更新日期:2023-08-31 18:25
本发明专利技术涉及车辆重识别技术领域,具体地涉及一种用于车辆重识别的局部细化和全局强化网络,该网络为三分支网络,通过局部细化模块和全局强化模块来学习车辆的鉴别性的局部特征和全局特征。其中,局部细化模块旨在学习细化的局部表示,通过目标像素与其距离最近的像素的交互来捕获相邻像素间丰富的相关性信息;全局强化模块旨在学习强化的全局表示,首先将目标像素的注意力分散到各个窗口中来强调区域内重要的远程依赖,然后通过跨窗口交互聚集全局上有意义的远程连接。本发明专利技术局部细化模块和全局强化模块的相互配合,能够有效提取车辆的鉴别性的局部信息和整体信息。的鉴别性的局部信息和整体信息。的鉴别性的局部信息和整体信息。

【技术实现步骤摘要】
一种用于车辆重识别的局部细化和全局强化网络


[0001]本专利技术涉及车辆重识别
,具体地涉及一种用于车辆重识别的局部细化和全局强化网络。

技术介绍

[0002]车辆重识别旨在从图像库中检索出与查询ID相同的车辆图像。目前,车辆重识别任务主要面临类内差异大和类间差异小两种挑战。学习车辆的鉴别性的局部特征和全局特征对解决这两种挑战至关重要。自注意力机制是一种特殊的注意力,它主要包含完全自注意力(full self

attention)和局部自注意力(local self

attention)两种形式,已在计算机视觉领域中表现出了巨大的潜力。但是,full self

attention建模的全局上下文中的远程连接通常较弱,这限制了对车辆的整体信息的学习;localself

attention的窗口模式阻碍了对车辆的局部细节信息的充分学习。

技术实现思路

[0003]本专利技术的目的在于克服现有技术存在的缺点,提出设计一种用于车辆重识别的局部细化和全局强化网络。
[0004]本专利技术解决其技术问题所采取的技术方案是:一种用于车辆重识别的局部细化和全局强化网络,采用ResNet

50的res_conv4_2之前的残差块作为特征提取的骨干,res_conv4_1残差块的后续部分被划分为三个分支:GL Branch、GS Branch和LR Branch,并移除三个分支的res_conv5_1残差块的下采样操作,以提供更大的空间视图;未使用注意力模块的GL Branch用于学习车辆的整体的概括性信息;在GS Branch的res_conv5层之后添加一个全局强化模块来学习车辆的强化的全局表示;在LR Branch的res_conv5层之后应用一个局部细化模块来学习车辆的细化的局部表示;其中,所述局部细化模块旨在捕获车辆的鉴别性的局部信息,其结构为:设特征图为该模块的输入,其中,C、H、W分别表示特征图的通道数量、高度和宽度;使用一个输出通道数为3C的1*1卷积得到x的查询张量、键张量和值张量:;设x中第i个像素的查询为,表示x
q
在位置i处的特征向量;第i个像素的邻域内的键集合记为,表示x
k
中与位置i距离最近的k2个位置的特征向量。
[0005]为了实现第i个像素与它的最近的k2个像素的交互,将q
i
与k
i
的转置进行矩阵乘积计算并执行softmax归一化得到注意力权重向量,其公式如下:
,其中,表示矩阵乘法计算;注意力权重向量的第j个元素表示了第i个像素与它的邻域内的第j个像素的成对亲和性;然后,本专利技术从x
v
中抽取位置i的邻域内的特征向量,记作,代表第i个像素的k2个最近邻的值;最后,本专利技术根据注意力得分A
i
聚集v
i
来捕获第i个像素的局部上下文并对其表征进行重建,得到,其计算过程表示为:;所述全局强化模块旨在捕获车辆的鉴别性的整体信息,其结构为:设特征图为全局强化模块的输入,其中,C、H、W分别表示特征图的通道数、高度和宽度;通过一个变形操作和一个全连接层得到x的查询矩阵,;该矩阵的第i行表示第i个像素的查询向量;为了将一目标像素处的注意力分数分散到多个窗口内,本专利技术沿空间维度将x均匀地划分为个窗口,其中,h和w分别为一个窗口的高度和宽度;对每一个窗口的特征图实施一个变形操作和一个全连接层得到M个窗口的键矩阵:,其中,第j个窗口的键矩阵为,N=h*w为窗口的大小,所有窗口的线性变换操作共享相同的权重;K
j
中的每一列为第j个窗口中的一个键向量;将Q
i
与K
Tj
进行矩阵相乘得到目标像素i与第j个窗口内各像素之间的成对亲和性向量,即;其中,表示矩阵乘法;第j个窗口关于所有目标像素的成对亲和性矩阵,通过Q与K
Tj
进行矩阵相乘得到:,其中,R
j
中的每一行为一个目标像素与第j个窗口内各像素之间的成对亲和性;然后,本专利技术在R
j
的列方向上执行softmax归一化操作以获得窗口的像素在每个目标像素处的注意力分数,其公式化为:;第j个窗口的注意力矩阵的每一行表示一目标像素与第j个窗口内所有像素的依赖关系;通过计算M个窗口在每个目标像素处的注意力分数,得到M个窗口的注意力矩阵;这M个矩阵同时被计算为:
,其中,softmax操作在最后一个维度上执行;为了捕获目标像素的全局上有意义的远程连接,将M个注意力矩阵沿列轴拼接成矩阵并对其执行L1_norm归一化,得到远距离依赖强化的注意力矩阵,其计算公式为:;L1_norm从全局感受野聚集了强化的远程连接;与键矩阵的计算类似,本专利技术对x的每一个窗口的特征图实施一个变形操作和一个全连接层来得到M个窗口的值矩阵,,其中,所有窗口的线性变换操作的参数共享;在将M个窗口的值矩阵拼接在一起形成值矩阵后,用矩阵A
''
对矩阵V进行加权求和以重建特征的表示:;重建后的特征S捕获的全局上下文加强了一些有意义的关联度不高的远距离依赖;最后,本专利技术将矩阵变形为张量,并将其与输入特征图相加来计算全局强化模块的输出特征图F

,其计算过程如下:;其中,GELU表示高斯误差线单位,BN表示批量归一化操作;该模块将注意力分散到各个窗口并采用跨窗口交互操作构建了强化的全局上下文表示,提升了网络学习车辆整体信息的能力。
[0006]进一步的,所述局部细化模块中,每个像素与它最近的k2个像素的成对亲和性的计算及所有像素的重建可以通过unfold操作和张量的矩阵乘法来实现;首先,将x
q
变形得到查询张量,此张量有HW个查询,每个查询的大小为1
×
C;同时在x
k
上使用一个内核大小为k*k且步长为1的unfold操作来抽取每个像素周围的k2个键,并变形得到键张量,其中,每个像素的最近邻所对应的键用一个k2×
C的矩阵存储;表示每个像素与它的最近的k2个像素的成对亲和性的注意力权重张量是通过Q和K
T
的矩阵相乘及softmax归一化操作得到的,即:,其中,某一个像素与其邻域内的像素的成对亲和性用一个大小为1
×
k2的向量表示;其次,在x
v
上使用一个内核大小为k*k且步长为1的unfold操作来提取每个像素的k2个最近邻所对应的值,并变形得到值张量,其中,每个像素的最近邻的值用一个k2×
C的矩阵存储;最后,使用每一个像素的权重向量对它周围的k2个像素所对应的值进行加权求和,得到所有重建的像素,其计算过程表示如下:;计算过程实现了每个像素与其最近邻像素的交互,捕获了丰富的细节信息。
[0007]将张量x

重塑为并将其与原始特征图相加,对相加后的特征图执行BN和GELU操作得到最终输出特征图F...

【技术保护点】

【技术特征摘要】
1.一种用于车辆重识别的局部细化和全局强化网络,其特征在于:采用ResNet

50的res_conv4_2之前的残差块作为特征提取的骨干,res_conv4_1残差块的后续部分被划分为三个分支:GL Branch、GS Branch和LR Branch,并移除三个分支的res_conv5_1残差块的下采样操作;未使用注意力模块的GL Branch用于学习车辆的整体的概括性信息;在GS Branch的res_conv5层之后添加一个全局强化模块来学习车辆的强化的全局表示;在LR Branch的res_conv5层之后应用一个局部细化模块来学习车辆的细化的局部表示;其中,所述局部细化模块的结构为:设特征图为该模块的输入,其中,C、H、W分别表示特征图的通道数量、高度和宽度;使用一个输出通道数为3C的1*1卷积得到x的查询张量、键张量和值张量:;设x中第i个像素的查询为,表示x
q
在位置i处的特征向量;第i个像素的邻域内的键集合记为,表示x
k
中与位置i距离最近的k2个位置的特征向量;将q
i
与k
i
的转置进行矩阵乘积计算并执行softmax归一化得到注意力权重向量,其公式如下:,其中, 表示矩阵乘法计算;注意力权重向量的第j个元素表示了第i个像素与它的邻域内的第j个像素的成对亲和性;然后,从x
v
中抽取位置i的邻域内的特征向量,记作,代表第i个像素的k2个最近邻的值;最后,根据注意力得分A
i
聚集v
i
来捕获第i个像素的局部上下文并对其表征进行重建,得到,其计算过程表示为:;所述全局强化模块的结构为:设特征图为全局强化模块的输入,其中,C、H、W分别表示特征图的通道数、高度和宽度;通过一个变形操作和一个全连接层得到x的查询矩阵,;该矩阵的第i行表示第i个像素的查询向量;沿空间维度将x均匀地划分为个窗口,其中,h和w分别为一个窗口的高度和宽度;对每一个窗口的特征图实施一个变形操作和一个全连接层得到M个窗口的键矩阵:,其中,第j个窗口的键矩阵为,N=h*w为窗口的大小,所有窗口的线性变换操作共享相同的权重;K
j
中的每一列为第j个窗口中的一个键向量;
将Q
i
与K
Tj
进行矩阵相乘得到目标像素i与第j个窗口内各像素之间的成对亲和性向量,即;其中,表示矩阵乘法;第j个窗口关于所有目标像素的成对亲和性矩阵,通过Q与K
Tj
进行矩阵相乘得到:,其中,R
j
中的每一行为一个目标像素与第j个窗口内各像素之间的成对亲和性;然后,在R
j
的列方向上执行softmax归一化操作以获得窗口的像素在每个目标像素处的注意力分数,其公式化为:;第j个窗口的注意力矩阵的每一行表示一目标像素与第j个窗口内所有像素的依赖关系;通过计算M个窗口在每个目标像素处的注意力分数,得到M个窗口的注意力矩阵;这M个矩阵同时被计算为:,其中,softmax操作在最后一个维度上执行;将M个注意力矩阵沿列轴拼接成矩阵并对其执行L1_norm归一化,得到远距离依赖强化的注意力矩阵,其计算公式为:;对x的每一个窗口的特征图实施一个变形操作和一个全连接层来得到M个窗口的值矩阵,,其中,所有窗口的线性变换操作的参数共享;在将M个窗口的值矩阵拼接在一起形成值矩阵后,用矩阵A

【专利技术属性】
技术研发人员:郑美凤王成张峰孙珂李曦周厚仁庞希愚周晓颖田佳琛
申请(专利权)人:山东交通学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1