视频行人重识别的方法技术

技术编号：32736502 阅读：12 留言：0更新日期：2022-03-20 08:42

本发明专利技术属于视频行人重识别技术领域，提供了一种视频行人重识别的方法。本发明专利技术使用Transformer结构提取多视角特征来解决视频行人重识别任务。视频行人重识别目的是实现行人序列图片的跨摄像头匹配。本发明专利技术提出使用三叉网络分别获取行人视频的空间视角，时序视角和时空视角，以此获得在不同特征域的多视角观察。在单一的视角特征域内使用Transformer挖掘单视角特征关系，并优化视角特征。在跨视角特征域间使用Transformer探索多视角特征关系，并融合多视角信息得到更充分的特征表示。本发明专利技术可以提取行人视频更鲁棒、更具判别力的特征表示，能够实现更高精度的行人视频实例匹配。配。配。

全部详细技术资料下载

【技术实现步骤摘要】
视频行人重识别的方法

[0001]本专利技术属于视频行人重识别
，对给定的一个待识别行人视频，在视频集中找到与之匹配的同一行人的其他视频，涉及到图像和视频处理的相关知识，特别涉及到行人特征学习方法。

技术介绍

[0002]行人重识别任务是以人为中心的分类任务，其目的是对给定的一个行人图片或视频，在跨摄像头拍摄得到的其他图片集或者视频集中寻找与之对应的正确匹配。由于行人重识别算法在疑犯搜捕，场景监控等实际应用中扮演重要作用，因此越来越多的研究人员投入到行人重识别的研究当中。近些年来，随着深度学习的空前发展和海量行人数据的有效使用，行人重识别领域得到了快速和充足的进步。尽管如此，重识别任务仍旧面临着诸多挑战，如，行人图片中频繁出现复杂的背景干扰，以及视角，姿态，光照等信息的变化。这些挑战给行人特征的表示学习带来了极大困难，是影响识别精度的主要因素。行人重识别任务根据样本的类型不同，又可细分成两个不同的子任务：图片行人重识别和视频行人重识别。相比图片行人重识别使用单张行人图片做匹配，视频行人重识别使用多帧图像序列做匹配。与单张的静态图片相比，视频数据带来了行人在时序上的变化，如步态和多视角信息，这些有助于行人更好地匹配识别。但是，这些时序上的变化也引入了更多的噪声和背景变化。基于上面的挑战，在视频行人重识别任务中，如何充分利用时间和空间信息是解决视频行人重识别任务的关键。
[0003]近些年来，针对视频行人重识别任务，研究人员主要从空间特征提取和时序特征学习两方面考虑。空间特征提取方面，鉴于卷积神经网络(CN...

【技术保护点】

【技术特征摘要】
1.一种视频行人重识别的方法，其特征在于，步骤如下：步骤1：数据采样；对给定的行人视频进行抽帧采样得到序列图像，把每个行人视频等分成8个片段，从每个片段中抽取一张图片，并由此将一个视频片段构建成一个序列图像集；步骤2：构建批次；构建按行人编号构建批次，每个批次包含8个不同行人，每个行人有4个不同的序列图像集，共计32个序列图像集；步骤3：归一化处理；由于不同序列图像集中图片的规格和尺寸可能存在不同，对批次内每一个序列集中的每一张图片做数据的归一化处理；步骤4：数据增广；使用数据增广方法对批次内序列图片按照多种规则进行变化，其中包括图片随机裁剪、图片随机水平翻转、图片随机遮挡；步骤5：构建网络；构建基于Transformer的三叉视角神经网络，包括三叉视角特征提取器、自注意力池化模块、基于Transformer的视角特征优化器和基于Transformer的多视角特征融合模块；三叉视角特征提取器以ResNet
‑
50为骨架，然后使用自注意力池化模块将原始时空特征映射到空间视角和时间视角；接下来，使用视角特征优化器挖掘视角内部的关系依赖并对三种视角特征进行优化；最后，多视角特征融合模块在时空特征的基础上，融合时间和空间特征得到最终的行人视频编码特征；(1)三叉视角特征提取器使用ResNet
‑
50提取视频序列中每一帧的空间特征；ResNet
‑
50神经网络分为5个网络模块，每个网络块包含若干个残差神经网络；使用前4个网络模块作为时间、空间、时空三视角特征提取网络的共享层；使用3个不共享的第5个网络模块来做三视角的特征分离；由此，提取到三个不同的视频特征表示，分别代表时间、空间和时空视角；(2)自注意力池化模块引入自注意力池化模块来变换原始时空特征到空间视角域和时间视角域；对于变换时空特征到空间视角域，给定一个视频的原始的三维时空特征X
s
∈R
T
×
HW
×
C
，这里T表示一个序列图像帧的个数，H，W分别表示特征的高和宽，C表示特征通道的个数；首先，使用一个线性映射层对时空特征中每一个空间特征X
si
∈R
T
×
C
,i∈[1,H
×
W]进行编码得到F
i
∈R
T
×
C
，其中，W表示线性变换的网络参数；然后，通过矩阵计算来生成自注意力矩阵M
i
∈R
T
×
T
，M
i
＝F
i
F
iT
ꢀꢀ
(2)这里，(
·
)
T
表示转置操作；之后，将M
i
在时间维度求和，并使用softmax激活函数得到每一空间位置特征在不同时序上的注意力值，
之后，空间特征和它对应的时序注意力值相乘得到自注意力池化后的特征，因此通过自注意力特征池化将时空特征变换到空间视角域中，得到空间特征F
s
＝{g1,
…
,g
i
,
…
,g
H
×
W
}，i∈[1,H
×
W]；同样地，采用相同的机制，将时空特征变换到时间视角域中，得到时序特征F
t
＝{g1,
…
,g
i
,
…
,g
T
}，i∈[1,T]；(3)基于Transformer的视角特征优化器使用Transformer挖掘各自视角域中的空间依赖关系、时间依赖关系和时空依赖关系；在时间视角域中，从三叉视角特征提取器中提取到的时间特征表示F
t
∈R
T
×
C

【专利技术属性】
技术研发人员：刘雪虎，王一帆，卢湖川，
申请(专利权)人：大连维视科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人