【技术实现步骤摘要】
基于时序补偿引导的强化学习图像
‑
视频行人重识别方法
[0001]本专利技术涉及行人重识别场景,具体而言是一种基于时序信息补偿引导的强化学习图像
‑ꢀ
视频跨模态行人重识别方法。
技术介绍
[0002]行人重识别(Person Re
‑
Identification)旨在从多个不同的相机视图中识别目标行人身份。 该技术在智能监控系统,行为分析和人机交互等诸多领域中拥有的巨大潜力,近年来引起了 越来越多的关注。由于背景杂乱,部分遮挡,拍摄角度、照明和身体姿势变化等因素,行人 重识别非常具有挑战性。现有的大多数方法主要关注基于图像或视频的单模态行人重识别, 即基于图像
‑
图像或视频
‑
视频的行人匹配技术,极大地限制了行人重识别在很多实际场景中 的应用。这就引出了图像
‑
视频跨模态行人重识别(Image
‑
to
‑
Video Person Re
‑
Identification)。 该任务的目标在于给定一张行人图像,从多个不同的相机视图中识别与检索包含同一行人身 份的视频。相较于基于图像或视频的单模态行人重识别而言,该任务的主要难点在于需要解 决图像和视频之间信息不对等问题。视频中蕴含大量空间和时间信息而图像中只含有空间信 息,这使视频和图像在特征空间存在巨大的差异,难以衡量图像特征和视频特征的相似度, 导致图像
‑
视频跨模态行人检索性能不足以支撑实际 ...
【技术保护点】
【技术特征摘要】
1.一种基于时序补偿引导的强化学习图像
‑
视频行人重识别方法,其特征在于,包括如下步骤:步骤一、行人数据收集和预处理:分别采集不同场景的行人视频数据并逐帧使用行人检测方法和尺寸归一化法进行预处理,获得训练数据集其中,x'
i
表示第i段行人视频,且第i段行人视频x'
i
所包含的帧数为t
i
,即,即表示第i段行人视频x'
i
内第t帧图像,y'
i
表示第i段行人视频x'
i
对应的行人身份ID,且m表示任意一个行人的身份ID,表示训练数据集中D的身份ID数量;N表示训练数据集D中的行人视频的数量;步骤二、构建批处理视频数据:步骤2.1、从所述训练数据集D中随机采集p个行人身份ID,且根据每个行人身份ID分别随机选取n段相应行人身份ID的行人视频,再从每段行人视频中采样T帧图像,从而由p
×
n段视频序列构成当前批的处理数据其中,x
j
表示批处理数据X中时间长度为T的第j段视频,且T的第j段视频,且表示第j段视频x
j
中的第t帧图像,y
j
表示批处理数据X中第j段视频x
j
中对应的行人身份ID;步骤2.2、构建以ResNet
‑
50深度学习网络为基础的序列特征提取网络;所述ResNet
‑
50深度学习网络包括5个阶段,其中,第1个阶段Stage 0由一个卷积核为k1×
k1的卷积层,一个批量归一化处理层和一个ReLU激活函数层构成,其余4个阶段均由Bottleneck模块组成;第2个阶段Stage 1包含3个Bottleneck模块,剩下3个阶段分别包括4个、6个、3个Bottleneck模块,每个Bottleneck模块由S个卷积层组成,每个卷积层后均连接一个批量归一化处理层和一个ReLU激活函数层;其中第s个卷积层的卷积核为K
s
×
K
s
;所述序列特征提取模块包含一个由ResNet
‑
50网络前四个阶段构成的基础特征提取模块,一个多头注意力模块及T个补偿残差检测器;其中,所述多头注意力模块包含两个卷积层,每个补充残差检测器包含一个由ResNet
‑
50网络第五阶段构造的补偿特征学习模块;步骤2.3、将当前批的处理数据X中的第j段视频x
j
输入所述序列特征提取网络,经过所述基础特征提取模块的处理后,得到第j个基础特征述基础特征提取模块的处理后,得到第j个基础特征表示第j段视频x
j
中的第t帧图像对应的基础特征;当t=1时,第t帧图像对应的基础特征经过第t个补偿残差检测模块的提取后,得到第t帧图像对应的特征并令第t帧图像对应的包含时序补偿信息的序列特征其中,表示前t
‑
1帧图像对应的包含时序补偿信息的序列特征,且当t≥2时,前t
‑
1帧图像对应的序列特征经由卷积核为1
×
1的降维卷积层和一个多头注意力模块的处理后,获得前t
‑
1帧图像对应的维度为k2×
c的显著性特征其中,k2表示显著区域的数量;在第t个补偿残差检测器中,将显著性特征作为维度为k
×
k
×
c的卷积核,并与第t
帧基础特征进行卷积学习后获取前t
‑
1帧图像对应的显著性特征在第t帧图像上对应的显著区域的掩图并利用式(1)得到第t帧图像蕴含的补偿残差信息蕴含的补偿残差信息所述补偿残差信息经过第t个补偿特征学习模块的处理后得到补偿特征将与前t
‑
1帧对应的包含时序补偿信息的序列特征相加后获得前t帧对应的包含时序补偿信息的序列特征第j段视频x
j
的所有帧图像对应的包含时序补偿信息的序列特征经过一个时空平均池化层后输出第j个特征集合从而得到当前批的处理数据X的特征集合其中,表示第j段视频x
j
的前t帧图像提取的含时序补偿信息的序列特征向量;步骤2.4、构建由actor网络和critic网络组成的智能体,并作为序列决策模块网络;其中,critic网络包括三个全连接层,actor网络包括三个全连接层和一个Sigmoid函数层;步骤2.4.1、从当前批的处理数据X中获取与行人视频x
j
不同的行人视频x'
j
,行人视频x'
j
对应行人ID为y'
j
,将行人视频x'
j
中的第一帧记为行人图像I
i
,行人图像I
i
经过所述序列特征提取网络后得到对应的图像特征向量v'
i
;步骤2.4.2、在t时刻将第j段行人视频x
j
中第t帧图像对应的基础特征经池化层后获得基础特征向量步骤2.4.3、第j段行人视...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。