基于多时空注意力模型的视频行人重识别算法及装置制造方法及图纸

技术编号:21833755 阅读:24 留言:0更新日期:2019-08-10 18:24
本发明专利技术公开一种基于多时空注意力模型的视频行人重识别算法及装置,该算法首先利用多空间注意力模型来定位判别视频图像行人区域;再结合时间注意力模型来计算由每个空间注意力模型提取的特征的聚合表示,并进行行人重识别损失函数补偿;最后将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比,搜索出相似度最高的行人目标图像并输出最终重识别匹配结果。本发明专利技术算法能解决针对实际过程中,行人视频图像成像质量差,细节显示不清楚,行人部分有用信息被遮挡而特征提取困难导致的视频监控系统重识别准确率不高等问题,并使算法满足实时性需求。

Video Pedestrian Recognition Algorithms and Devices Based on Multi-temporal Attention Model

【技术实现步骤摘要】
基于多时空注意力模型的视频行人重识别算法及装置
本专利技术涉及计算机视觉领域,具体涉及一种基于多时空注意力模型的视频行人重识别算法及装置。
技术介绍
随着人工智能、计算机视觉和硬件技术的不断发展,视频图像处理技术已经广泛应用于智能城市系统中。行人重识别(PersonRe-identification)也称行人再识别,简称为Re-ID。是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。在监控视频中,由于相机分辨率和拍摄角度的缘故,通常无法得到质量非常高的人脸图片。当人脸识别失效的情况下,Re-ID就成为了一个非常重要的替代品技术。Re-ID有一个非常重要的特性就是跨摄像头,所以检索出不同摄像头下的相同行人图片就成为了Re-ID的关键。大多现存的解决视频行人重识别问题的方法是把每一帧编码成一个向量,然后对所有的帧向量进行聚合得到视频序列的特征嵌入。在实践中,行人经常被部分遮挡,这样就破坏了提取的特征。并且基于视频的行人重识别Re-ID,如果全部利用所有的帧,会因为有很多质量不好的图片(遮挡,光照等因素)对深度学习出来的特征影响很大。从而影响行人重识别的准确率,增加系统的计算量的同时使系统鲁棒性也变差。针对这些问题,本专利技术提出一种基于多时空注意力模型的视频图像行人重识别算法。本专利技术算法能够自动地使用视频序列中条件最好的帧中的路径学到面部、躯干以及身体其他部分的特征,能够很好地对抗遮挡和不对齐,有效提取所有帧中的有用信息,能够很好的提高行人重识别系统在复杂条件下的重识别准确率、并提高系统的鲁棒性。
技术实现思路
本专利技术的主要目的是提供一种基于多时空注意力模型的视频行人重识别算法及装置,旨在目前视频行人识别系统在实践时,行人经常被部分遮挡,这样就破坏了提取的特征,并且基于视频的行人重识别Re-ID,如果全部利用所有的帧,会因为有很多质量不好的图片(遮挡,光照等因素)对深度学习出来的特征影响很大,从而影响行人重识别的准确率,增加系统的计算量的同时使系统鲁棒性也变差的问题。为实现上述目的,本专利技术提供一种基于多时空注意力模型的视频行人重识别算法,包括以下步骤:S1基于多空间注意力模型来定位判别视频图像行人区域;S2基于时间注意力模型来计算由每个空间注意力模型提取的特征的聚合表示,并将聚合表示连接成最终的特征向量;S3根据步骤S1和S2获取待识别图像的特征向量,将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比,搜索出相似度最高的行人目标图像并输出最终重识别匹配结果。优选地,步骤S1包括:S1.1用约束随机抽样策略进行视频图像采样;S1.2利用采样的视频图像训练多空间注意力模型来定位判别视频图像行人区域。优选地,步骤S1.1包括:给定一个输入视频V,将其按照相等时间划分为N个块:{Cn},n=1...N,从每个块Cn中随机地对图像In进行采样,视频由有序的一组采样帧表示{In},n=1...N。优选地,步骤S1.2包括:从每个采样图像中提取特征,将N张图片送入预训练的ResNet50得到N×2048×8×4的特征图,并将每张图划分为32个2048维的空间特征{fn,l},l=1,L,其中L=32,对于每个空间注意力模块,将2048×32的空间特征图经过一个d个神经元的fc+ReLU降维得到d×32,然后再经过一个神经元的fc得到1×32=32个e(n,k,l);将一张图32个空间向量经过下面的softmax得到32个空间向量的权重,每个空间向量权重表示为Sn,k,l表示第n帧、第k个空间注意力模块、第l个空间向量的权重,Sn,k成为第k个空间注意力模块的感受野,具体公式如下:根据L个权重对L个空间特征进行加权求和,得到了第n帧、第k个空间注意力模块的特征Xn,k:获取得到视频序列的N×K×D的空间注意力输出图。优选地,步骤S1.2还包括:利用海林格距离来计算sn,i和sn,j的相似性,其定义为:在对sn,i和sn,j之间的距离进行最大化的条件下,每个图像的感受野冗余的正则项是:其中,||·||F表示矩阵的Frobenius范数,I是K维单位矩阵,该正则项Q将乘以一个系数,并添加到训练模型中的原始OIM损失中。优选的,步骤S2包括:将N×K×D特征图经过一个神经元的fc得到N×K的,然后再在时域N上Softmax得到N×K的时域权重,tn,k表示对于第K个空间注意力模块,第n帧感受野特征的权重,其公式如下:然后时序注意力模型被运用在每个成分上使用加权平均:最终的判别性的区域的特征为:将这些聚合表示连接成最终的特征向量:x=[x1,...,xK]。优选的,步骤S3中通过以下公式计算相似度:为实现上述目的,本专利技术提供一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述任一项所述的基于多时空注意力模型的视频行人重识别算法的步骤。本专利技术提出的基于多时空注意力模型的视频行人重识别算法,能够自动地使用视频序列中条件最好的帧中的路径学到面部、躯干以及身体其他部分的特征,能够很好地对抗遮挡和不对齐,有效提取所有帧中的有用信息,能够很好的提高行人重识别系统在复杂条件下的重识别准确率、并提高系统的鲁棒性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。图1是本专利技术一实施例所述的算法流程图;图2是本专利技术一实施例所述整体算法整体网络结构图;图3是本专利技术一实施例所述多空间注意力模型的可视化图像结果;图4是本专利技术一实施例所述时域注意力的可视化结果图像。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。本专利技术算法的流程图如图1所示,整体网络结构图如图2所示。本专利技术本专利技术提出的基于多时空注意力模型的视频行人重识别算法具体包括以下步骤:S1基于多空间注意力(spatialattention)模型来定位判别视频图像行人区域;S1.1用约束随机抽样策略进行视频图像采样;本专利技术提出一种约束的随机采样策略以期能够获得原始数据好的特征表达,该方法能够利用整个视频序列的视觉信息,同时避免连续帧之间的冗余,其具体如下:给定一个输入视频V,将其按照相等时间划分为N个块:{Cn},n=1...N,从每个块Cn中随机地对图像In进行采样,即每个块中随机选择1张图片,然后,视频由有序的一组采样帧表示{In},n=1...N,完成视频随机采样。S1.2训练多空间注意力模型来定位判别视频图像行人区域;本专利技术算法采用ResNet-50CNN结构作为基础模型,用于从每个采样图像中提取特征,将N张图片送入预训练的ResNet50得到N×2048×8×4的特征图,对于每张图,划分为32个2048维的空间特征{fn,l},l=1,L,其中L=32,对于每个空间注意力模块,将2048x32的空间特征图经过一个d个神经元的fc+ReLU降维(D=20本文档来自技高网...

【技术保护点】
1.一种基于多时空注意力模型的视频行人重识别算法,其特征在于,包括以下步骤:S1 基于多空间注意力模型来定位判别视频图像行人区域;S2 基于时间注意力模型来计算由每个空间注意力模型提取的特征的聚合表示,并将聚合表示连接成最终的特征向量;S3 根据步骤S1和S2获取待识别图像的特征向量,将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比,搜索出相似度最高的行人目标图像并输出最终重识别匹配结果。

【技术特征摘要】
1.一种基于多时空注意力模型的视频行人重识别算法,其特征在于,包括以下步骤:S1基于多空间注意力模型来定位判别视频图像行人区域;S2基于时间注意力模型来计算由每个空间注意力模型提取的特征的聚合表示,并将聚合表示连接成最终的特征向量;S3根据步骤S1和S2获取待识别图像的特征向量,将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比,搜索出相似度最高的行人目标图像并输出最终重识别匹配结果。2.如权利要求1所述的基于多时空注意力模型的视频行人重识别算法,其特征在于,步骤S1包括:S1.1用约束随机抽样策略进行视频图像采样;S1.2利用采样的视频图像训练多空间注意力模型来定位判别视频图像行人区域。3.如权利要求2所述的基于多时空注意力模型的视频行人重识别算法,其特征在于,步骤S1.1包括:给定一个输入视频V,将其按照相等时间划分为N个块:{Cn},n=1...N,从每个块Cn中随机地对图像In进行采样,视频由有序的一组采样帧表示{In},n=1...N。4.如权利要求3所述的基于多时空注意力模型的视频行人重识别算法,其特征在于,步骤S1.2包括:从每个采样图像中提取特征,将N张图片送入预训练的ResNet50得到N×2048×8×4的特征图,并将每张图划分为32个2048维的空间特征其中L=32,对于每个空间注意力模块,将2048×32的空间特征图经过一个d个神经元的fc+ReLU降维得到d×32,然后再经过一个神经元的fc得到1×32=32个e(n,k,l);将一张图32个空间向量经过下面的softmax得到32个空间向量的权重,每个空间...

【专利技术属性】
技术研发人员:张斯尧谢喜林王思远黄晋蒋杰张诚
申请(专利权)人:深圳久凌软件技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1