视频行人重识别的方法技术

技术编号:32736502 阅读:12 留言:0更新日期:2022-03-20 08:42
本发明专利技术属于视频行人重识别技术领域,提供了一种视频行人重识别的方法。本发明专利技术使用Transformer结构提取多视角特征来解决视频行人重识别任务。视频行人重识别目的是实现行人序列图片的跨摄像头匹配。本发明专利技术提出使用三叉网络分别获取行人视频的空间视角,时序视角和时空视角,以此获得在不同特征域的多视角观察。在单一的视角特征域内使用Transformer挖掘单视角特征关系,并优化视角特征。在跨视角特征域间使用Transformer探索多视角特征关系,并融合多视角信息得到更充分的特征表示。本发明专利技术可以提取行人视频更鲁棒、更具判别力的特征表示,能够实现更高精度的行人视频实例匹配。配。配。

【技术实现步骤摘要】
视频行人重识别的方法


[0001]本专利技术属于视频行人重识别
,对给定的一个待识别行人视频,在视频集中找到与之匹配的同一行人的其他视频,涉及到图像和视频处理的相关知识,特别涉及到行人特征学习方法。

技术介绍

[0002]行人重识别任务是以人为中心的分类任务,其目的是对给定的一个行人图片或视频,在跨摄像头拍摄得到的其他图片集或者视频集中寻找与之对应的正确匹配。由于行人重识别算法在疑犯搜捕,场景监控等实际应用中扮演重要作用,因此越来越多的研究人员投入到行人重识别的研究当中。近些年来,随着深度学习的空前发展和海量行人数据的有效使用,行人重识别领域得到了快速和充足的进步。尽管如此,重识别任务仍旧面临着诸多挑战,如,行人图片中频繁出现复杂的背景干扰,以及视角,姿态,光照等信息的变化。这些挑战给行人特征的表示学习带来了极大困难,是影响识别精度的主要因素。行人重识别任务根据样本的类型不同,又可细分成两个不同的子任务:图片行人重识别和视频行人重识别。相比图片行人重识别使用单张行人图片做匹配,视频行人重识别使用多帧图像序列做匹配。与单张的静态图片相比,视频数据带来了行人在时序上的变化,如步态和多视角信息,这些有助于行人更好地匹配识别。但是,这些时序上的变化也引入了更多的噪声和背景变化。基于上面的挑战,在视频行人重识别任务中,如何充分利用时间和空间信息是解决视频行人重识别任务的关键。
[0003]近些年来,针对视频行人重识别任务,研究人员主要从空间特征提取和时序特征学习两方面考虑。空间特征提取方面,鉴于卷积神经网络(CNN)在图像处理领域展现出的高效性,在之前的算法中,其被广泛地使用以提取行人的空间特征。时序特征学习方面,循环网络被设计用来处理序列化的特征。经典的循环网络包括门控循环网络(GRU)和长短时记忆网络(LSTM)。其中,LSTM网络利用序列化特征在时间上的长时和短时依赖,来学习时序的特征表示。总的来说,输入的原始视频,相继通过空间特征提取和时序特征学习之后,得到最终的视频表示,以便进一步地在样本之间做特征匹配。相比之前手工设计特征的传统方法,这种经典的两阶段的视频重识别处理流程有着极好的性能表现。同时,这种基于两阶段的视频行人重识别算法仍有很大的进步空间。在一方面,一些算法聚焦在如何更好地提取更具判别力的空间特征。如,Li等人于2018年CVPR发表的

Diversity regularized spatiotemporal attention for video based person re

identification

设计多个空间注意力模块提捕捉互不相同的空间局部特征。Fu等人于2019年AAAI发表的

STA:Spatial

temporal attention for large

scale video based person re

identification

无参地学习一个注意力矩阵,以此对空间上分块特征进行自适应的注意力加权。Zhao等人于2019年发表的

Attribute

driven feature disentangling and temporal aggregation for video person re

identification

使用属性预测网络辅助以提取空间上不同属性对应的特征。在另一方面,一些算法尝试强化时序特征的表征学习。
例如,Zhang等人于2019年CVPR发表的

Multi

shot pedestrian re

identification via sequential decision making

设计一个序列强化模型逐帧地分类预测和判决终止。Liu等人于2019年AAAI上发表的

Spatial and temporal mutual promotion for video

based person re

identification

在时序处理阶段使用一个优化循环单元,对空间特征做序列化地优化学习。它们的实验结果表明,通过对时间和空间特征提取的优化,当前的这些算法可以有效地提高视频行人重识别的匹配精度。
[0004]尽管如此,这些算法仍旧存在如下的问题:(1)当前的视频特征提取方法往往只关注单一视角里的特征优化学习,如空间上的注意力挖掘,时序上的长短依赖捕捉,而这些缺少不同类型特征的表示学习,如分别从空间,时间和时空不同特征空间的多视角观察。(2)当前的视频特征提取方法缺少对时间和空间特征的有效融合手段,比如直接的特征相加和特征拼接虽然一定程度上可以实现多特征的融合,但是这种方式太过简单并不能充分发挥多视角特征的优势,因此,我们提出在时空特征的指导下,使用Transformer网络架构,进一步融合时间特征和空间特征,以此得到全面的视频特征表示。

技术实现思路

[0005]本专利技术要解决的技术问题是:对于给定的一个行人视频,在不使用额外属性信息的情况下提取行人视频的表示特征,以便后续的实例匹配。不仅如此,该专利技术还要能够处理行人视频序列中出现的表征不对齐,如视频序列中行人在不同地点的背景变化,和在不同时间的光照变化。这些时空变化导致的行人表征不对齐是视频行人重识别任务的重大挑战。另外,该专利技术还提出一种新颖的多视角特征融合模块,在挖掘到行人视频的时序视角特征,空间视角特征和时空视角特征后,有效地实现多表征特征的融合。
[0006]本专利技术的技术方案:
[0007]一种视频行人重识别的方法,步骤如下:
[0008]步骤1:数据采样;
[0009]对给定的行人视频进行抽帧采样得到序列图像,把每个行人视频等分成8个片段,从每个片段中抽取一张图片,并由此将一个视频片段构建成一个序列图像集;
[0010]步骤2:构建批次;
[0011]构建按行人编号构建批次,每个批次包含8个不同行人,每个行人有4个不同的序列图像集,共计32个序列图像集;
[0012]步骤3:归一化处理;
[0013]由于不同序列图像集中图片的规格和尺寸可能存在不同,对批次内每一个序列集中的每一张图片做数据的归一化处理;
[0014]步骤4:数据增广;
[0015]使用数据增广方法对批次内序列图片按照多种规则进行变化,其中包括图片随机裁剪、图片随机水平翻转、图片随机遮挡;
[0016]步骤5:构建网络;
[0017]构建基于Transformer的三叉视角神经网络,包括三叉视角特征提取器、自注意力池化模块、基于Transformer的视角特征优化器和基于Transformer的多视角特征融合模块;三叉视角特征提取器以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频行人重识别的方法,其特征在于,步骤如下:步骤1:数据采样;对给定的行人视频进行抽帧采样得到序列图像,把每个行人视频等分成8个片段,从每个片段中抽取一张图片,并由此将一个视频片段构建成一个序列图像集;步骤2:构建批次;构建按行人编号构建批次,每个批次包含8个不同行人,每个行人有4个不同的序列图像集,共计32个序列图像集;步骤3:归一化处理;由于不同序列图像集中图片的规格和尺寸可能存在不同,对批次内每一个序列集中的每一张图片做数据的归一化处理;步骤4:数据增广;使用数据增广方法对批次内序列图片按照多种规则进行变化,其中包括图片随机裁剪、图片随机水平翻转、图片随机遮挡;步骤5:构建网络;构建基于Transformer的三叉视角神经网络,包括三叉视角特征提取器、自注意力池化模块、基于Transformer的视角特征优化器和基于Transformer的多视角特征融合模块;三叉视角特征提取器以ResNet

50为骨架,然后使用自注意力池化模块将原始时空特征映射到空间视角和时间视角;接下来,使用视角特征优化器挖掘视角内部的关系依赖并对三种视角特征进行优化;最后,多视角特征融合模块在时空特征的基础上,融合时间和空间特征得到最终的行人视频编码特征;(1)三叉视角特征提取器使用ResNet

50提取视频序列中每一帧的空间特征;ResNet

50神经网络分为5个网络模块,每个网络块包含若干个残差神经网络;使用前4个网络模块作为时间、空间、时空三视角特征提取网络的共享层;使用3个不共享的第5个网络模块来做三视角的特征分离;由此,提取到三个不同的视频特征表示,分别代表时间、空间和时空视角;(2)自注意力池化模块引入自注意力池化模块来变换原始时空特征到空间视角域和时间视角域;对于变换时空特征到空间视角域,给定一个视频的原始的三维时空特征X
s
∈R
T
×
HW
×
C
,这里T表示一个序列图像帧的个数,H,W分别表示特征的高和宽,C表示特征通道的个数;首先,使用一个线性映射层对时空特征中每一个空间特征X
si
∈R
T
×
C
,i∈[1,H
×
W]进行编码得到F
i
∈R
T
×
C
,其中,W表示线性变换的网络参数;然后,通过矩阵计算来生成自注意力矩阵M
i
∈R
T
×
T
,M
i
=F
i
F
iT
ꢀꢀ
(2)这里,(
·
)
T
表示转置操作;之后,将M
i
在时间维度求和,并使用softmax激活函数得到每一空间位置特征在不同时序上的注意力值,
之后,空间特征和它对应的时序注意力值相乘得到自注意力池化后的特征,因此通过自注意力特征池化将时空特征变换到空间视角域中,得到空间特征F
s
={g1,

,g
i
,

,g
H
×
W
},i∈[1,H
×
W];同样地,采用相同的机制,将时空特征变换到时间视角域中,得到时序特征F
t
={g1,

,g
i
,

,g
T
},i∈[1,T];(3)基于Transformer的视角特征优化器使用Transformer挖掘各自视角域中的空间依赖关系、时间依赖关系和时空依赖关系;在时间视角域中,从三叉视角特征提取器中提取到的时间特征表示F
t
∈R
T
×
C

【专利技术属性】
技术研发人员:刘雪虎王一帆卢湖川
申请(专利权)人:大连维视科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1