基于时序补偿引导的强化学习图像-视频行人重识别方法技术

技术编号:34104206 阅读:19 留言:0更新日期:2022-07-12 00:06
本发明专利技术公开了一种基于时序补偿引导的强化学习图像

【技术实现步骤摘要】
基于时序补偿引导的强化学习图像

视频行人重识别方法


[0001]本专利技术涉及行人重识别场景,具体而言是一种基于时序信息补偿引导的强化学习图像
‑ꢀ
视频跨模态行人重识别方法。

技术介绍

[0002]行人重识别(Person Re

Identification)旨在从多个不同的相机视图中识别目标行人身份。 该技术在智能监控系统,行为分析和人机交互等诸多领域中拥有的巨大潜力,近年来引起了 越来越多的关注。由于背景杂乱,部分遮挡,拍摄角度、照明和身体姿势变化等因素,行人 重识别非常具有挑战性。现有的大多数方法主要关注基于图像或视频的单模态行人重识别, 即基于图像

图像或视频

视频的行人匹配技术,极大地限制了行人重识别在很多实际场景中 的应用。这就引出了图像

视频跨模态行人重识别(Image

to

Video Person Re

Identification)。 该任务的目标在于给定一张行人图像,从多个不同的相机视图中识别与检索包含同一行人身 份的视频。相较于基于图像或视频的单模态行人重识别而言,该任务的主要难点在于需要解 决图像和视频之间信息不对等问题。视频中蕴含大量空间和时间信息而图像中只含有空间信 息,这使视频和图像在特征空间存在巨大的差异,难以衡量图像特征和视频特征的相似度, 导致图像

视频跨模态行人检索性能不足以支撑实际场景的应用落地。为此,视频和图像信 息不对等问题成为图像

视频行人重识别技术亟待解决的关键。
[0003]为解决上述问题,现有图像

视频行人重识别方法主要分为两大类:1)利用距离度量方 法将图像和视频特征投影同一特征空间;2)利用知识蒸馏方法使图像特征提取网络具备视频 特征提取网络学习时序信息的能力。两者均将图像

视频行人重识别视作跨模态检索任务, 驱使网络模型从视频和图像中学习相似的特征表达,忽略了视频和图像之间由于时空信息不 对等问题引起的巨大差异。第二类方法还需要分别构建图像特征提取网络与视频特征提取网 络,极大程度上提高了网络模型的复杂度。此外,视频序列通常包含大量冗余的外观信息和 噪声,而现有的两类方法直接从所有视频帧中提取特征,未考虑噪声和冗余信息对网络模型 造成的影响,导致视频特征表达的鲁棒性和有效性不如人意。

技术实现思路

[0004]本专利技术是为了解决上述现有技术存在的不足之处,提出一种基于时序补偿引导的强化学 习图像

视频行人重识别方法,以期能减少视频序列中时空冗余信息与噪声的干扰,从而实 现从图像到视频的行人匹配以达到高效、精确的身份识别。
[0005]本专利技术为达到上述专利技术目的,采用如下技术方案:
[0006]本专利技术一种基于时序补偿引导的强化学习图像

视频行人重识别方法的特点在于,包括 如下步骤:
[0007]步骤一、行人数据收集和预处理:
[0008]分别采集不同场景的行人视频数据并逐帧使用行人检测方法和尺寸归一化法进
行预处理, 获得训练数据集其中,x

i
表示第i段行人视频,且第i段行人视频x

i
所包 含的帧数为t
i
,即,即表示第i段行人视频x

i
内第t帧图像,y

i
表示第i段行人视 频x

i
对应的行人身份ID,且m表示任意一个行人的身份ID,表示 训练数据集中D的身份ID数量;N表示训练数据集D中的行人视频的数量;
[0009]步骤二、构建批处理视频数据:
[0010]步骤2.1、从所述训练数据集D中随机采集p个行人身份ID,且根据每个行人身份ID分 别随机选取n段相应行人身份ID的行人视频,再从每段行人视频中采样T帧图像,从而由 p
×
n段视频序列构成当前批的处理数据其中,x
j
表示批处理数据X中时间 长度为T的第j段视频,且长度为T的第j段视频,且表示第j段视频x
j
中的第t帧图像,y
j
表示批处理数 据X中第j段视频x
j
中对应的行人身份ID;
[0011]步骤2.2、构建以ResNet

50深度学习网络为基础的序列特征提取网络;
[0012]所述ResNet

50深度学习网络包括5个阶段,其中,第1个阶段Stage 0由一个卷积核为 k1×
k1的卷积层,一个批量归一化处理层和一个ReLU激活函数层构成,其余4个阶段均由 Bottleneck模块组成;第2个阶段Stage 1包含3个Bottleneck模块,剩下3个阶段分别包括 4个、6个、3个Bottleneck模块,每个Bottleneck模块由S个卷积层组成,每个卷积层后均 连接一个批量归一化处理层和一个ReLU激活函数层;其中第s个卷积层的卷积核为K
s
×
K
s

[0013]所述序列特征提取模块包含一个由ResNet

50网络前四个阶段构成的基础特征提取模块, 一个多头注意力模块及T个补偿残差检测器;
[0014]其中,所述多头注意力模块包含两个卷积层,每个补充残差检测器包含一个由ResNet
‑ꢀ
50网络第五阶段构造的补偿特征学习模块;
[0015]步骤2.3、将当前批的处理数据X中的第j段视频x
j
输入所述序列特征提取网络,经过所 述基础特征提取模块的处理后,得到第j个基础特征述基础特征提取模块的处理后,得到第j个基础特征表示第j段视频x
j
中的第 t帧图像对应的基础特征;
[0016]当t=1时,第t帧图像对应的基础特征经过第t个补偿残差检测模块的提取后,得 到第t帧图像对应的特征并令第t帧图像对应的包含时序补偿信息的序列特征 其中,表示前t

1帧图像对应的包含时序补偿信息的序列特征,且
[0017]当t≥2时,前t

1帧图像对应的序列特征经由卷积核为1
×
1的降维卷积层和一个多 头注意力模块的处理后,获得前t

1帧图像对应的维度为k2×
c的显著性特征其中, k2表示显著区域的数量;
[0018]在第t个补偿残差检测器中,将显著性特征作为维度为k
×
k
×
c的卷积核,并与
第t 帧基础特征进行卷积学习后获取前t

1帧图像对应的显著性特征在第t帧图像上对 应的显著区域的掩图并利用式(1)得到第t帧图像蕴含的补偿残差信息
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时序补偿引导的强化学习图像

视频行人重识别方法,其特征在于,包括如下步骤:步骤一、行人数据收集和预处理:分别采集不同场景的行人视频数据并逐帧使用行人检测方法和尺寸归一化法进行预处理,获得训练数据集其中,x'
i
表示第i段行人视频,且第i段行人视频x'
i
所包含的帧数为t
i
,即,即表示第i段行人视频x'
i
内第t帧图像,y'
i
表示第i段行人视频x'
i
对应的行人身份ID,且m表示任意一个行人的身份ID,表示训练数据集中D的身份ID数量;N表示训练数据集D中的行人视频的数量;步骤二、构建批处理视频数据:步骤2.1、从所述训练数据集D中随机采集p个行人身份ID,且根据每个行人身份ID分别随机选取n段相应行人身份ID的行人视频,再从每段行人视频中采样T帧图像,从而由p
×
n段视频序列构成当前批的处理数据其中,x
j
表示批处理数据X中时间长度为T的第j段视频,且T的第j段视频,且表示第j段视频x
j
中的第t帧图像,y
j
表示批处理数据X中第j段视频x
j
中对应的行人身份ID;步骤2.2、构建以ResNet

50深度学习网络为基础的序列特征提取网络;所述ResNet

50深度学习网络包括5个阶段,其中,第1个阶段Stage 0由一个卷积核为k1×
k1的卷积层,一个批量归一化处理层和一个ReLU激活函数层构成,其余4个阶段均由Bottleneck模块组成;第2个阶段Stage 1包含3个Bottleneck模块,剩下3个阶段分别包括4个、6个、3个Bottleneck模块,每个Bottleneck模块由S个卷积层组成,每个卷积层后均连接一个批量归一化处理层和一个ReLU激活函数层;其中第s个卷积层的卷积核为K
s
×
K
s
;所述序列特征提取模块包含一个由ResNet

50网络前四个阶段构成的基础特征提取模块,一个多头注意力模块及T个补偿残差检测器;其中,所述多头注意力模块包含两个卷积层,每个补充残差检测器包含一个由ResNet

50网络第五阶段构造的补偿特征学习模块;步骤2.3、将当前批的处理数据X中的第j段视频x
j
输入所述序列特征提取网络,经过所述基础特征提取模块的处理后,得到第j个基础特征述基础特征提取模块的处理后,得到第j个基础特征表示第j段视频x
j
中的第t帧图像对应的基础特征;当t=1时,第t帧图像对应的基础特征经过第t个补偿残差检测模块的提取后,得到第t帧图像对应的特征并令第t帧图像对应的包含时序补偿信息的序列特征其中,表示前t

1帧图像对应的包含时序补偿信息的序列特征,且当t≥2时,前t

1帧图像对应的序列特征经由卷积核为1
×
1的降维卷积层和一个多头注意力模块的处理后,获得前t

1帧图像对应的维度为k2×
c的显著性特征其中,k2表示显著区域的数量;在第t个补偿残差检测器中,将显著性特征作为维度为k
×
k
×
c的卷积核,并与第t
帧基础特征进行卷积学习后获取前t

1帧图像对应的显著性特征在第t帧图像上对应的显著区域的掩图并利用式(1)得到第t帧图像蕴含的补偿残差信息蕴含的补偿残差信息所述补偿残差信息经过第t个补偿特征学习模块的处理后得到补偿特征将与前t

1帧对应的包含时序补偿信息的序列特征相加后获得前t帧对应的包含时序补偿信息的序列特征第j段视频x
j
的所有帧图像对应的包含时序补偿信息的序列特征经过一个时空平均池化层后输出第j个特征集合从而得到当前批的处理数据X的特征集合其中,表示第j段视频x
j
的前t帧图像提取的含时序补偿信息的序列特征向量;步骤2.4、构建由actor网络和critic网络组成的智能体,并作为序列决策模块网络;其中,critic网络包括三个全连接层,actor网络包括三个全连接层和一个Sigmoid函数层;步骤2.4.1、从当前批的处理数据X中获取与行人视频x
j
不同的行人视频x'
j
,行人视频x'
j
对应行人ID为y'
j
,将行人视频x'
j
中的第一帧记为行人图像I
i
,行人图像I
i
经过所述序列特征提取网络后得到对应的图像特征向量v'
i
;步骤2.4.2、在t时刻将第j段行人视频x
j
中第t帧图像对应的基础特征经池化层后获得基础特征向量步骤2.4.3、第j段行人视...

【专利技术属性】
技术研发人员:查正军刘嘉威吴蔚
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1