【技术实现步骤摘要】
一种新型的多模态融合的行人重识别算法
[0001]本专利技术涉及人工智能
,尤其涉及一种新型的多模态融合的行人重识别算法。
技术介绍
[0002]行人重识别(Re
‑
ID)是一种重要的图像识别技术,其目的是解决跨摄像头后,通过行人的外观视觉特征和动作特征在海量的图像或视频库中检索特定行人的问题。对相互联网的不同摄像头拍摄到的行人身份进行关联,以便及时获取特定行人的运动轨迹。行人重识别技术是智能分析技术的重要基础,逐渐引起计算机视觉领域科研人员的密切关注。
[0003]随着深度学习在计算机视觉领域的广泛应用,目前基于深度学习的行人重识别已经成为主流模型,并且在效果上远远超出基于传统机器学习的行人重识别方案。由于在现实场景中,红外模式摄像头和深度摄像头等所捕获的行人图像也十分常见,所以跨模态行人重识别被提出,用于在多模态下的图像库中检索匹配同一行人的图像。有效解决跨模态行人重识别问题,对公共安全、预防犯罪和刑侦追查等方面有着重大的意义。
[0004]近年来,涌现了大量跨模态行人重识别的研究工作和相关框架。但距离跨模态行人重识别能够投入实际场景中应用依然存在一些差距。目前面临的困难与挑战主要在于:
[0005]1)多种模态下捕捉的图像存在较大差异。例如RGB图像拥有三个通道,包含红绿蓝的可见光颜色信息,而红外图像只有一个通道,包含近红外光的强度信息;从成像原理的角度,二者的波长范围也有所区别;不同的清晰度和光照条件在两类图像上所能产生的效果也可能会大相径庭。
[000 ...
【技术保护点】
【技术特征摘要】
1.一种新型的多模态融合的行人重识别算法,其特征在于:获取含有RGB、NI和TI的三种模态的行人图像;将所述三种模态的行人图像输入预先训练的多模态融合行人重识别网络中,得到预测分类结果;其中所述多模态行人重识别网络被配置为:包括三个分支来分别捕获每个模态中人物图像的特征,得到分别代表RGB,NI和TI模态的图像特征,将RGB,NI和TI模态的图像特征水平切分为p块,再经过全局平均池化GAP后得到p个部分列向量特征和即各模态的embedding层特征;然后将三个模态的各p个部分列向量特征和分别输入到由全连接层FC和softmax函数构成的分类器中,从而得到各模态输入行人图像的身份预测值向量先将各模态的p个预测值向量特征连接起来,生成各模态下的特征向量和然后再将这三个特征向量连接起来,得到融合特征向量X1×
3Kp
,再将该特征通过一个分类层得到预测分类结果2.根据权利要求1所述的新型的多模态融合的行人重识别算法,其特征在于:所述的多模态行人重识别网络的训练过程为:S1、网络层权值进行初始化,一般采用随机初始化;S2、单模态特征提取:对于每张行人图像,分别提取RGB、近红外(NI)和热红外(TI)三种模态的特征;将提取的RGB、近红外(NI)和热红外(TI)三种模态的特征分别输入包含SCA注意力模块的ResNet50卷积神经网络中的卷积层、归一化层、平均池化层等各层的前向传播,分别得到分别代表RGB,NI和TI模态的图像特征和S3、单模态图像特征处理:首先,对于每个模态,为了获取人物图像的局部信息,我们采用局部方案将每个张量水平切分为p块,再经过全局平均池化(GAP)后得到p个部分列向量和即各模态的embedding层特征;然后将每个模态的各部分特征向量g
l
分别输入到由全连接(FC)层和softmax函数构成的分类器中,从而得到各模态输入行人图像的身份预测值向量然后计算各模态行人ID预测向量与真实标签的差值,利用p个分类层交叉熵的总和作为单模态的损失函数来优化网络;S4、设置一个虚拟分支使三种模态图像的embedding层特征进行联合学习,实现各模态间的信息融合,使三个不同模态的特征都向着一个共同的虚拟均值向量学习,并当单模态交叉熵分类损失足够小时,退出虚拟分支;然后计算各模态embedding层特征与虚拟均值的差值,使用余弦距离作为损失函数来优化网络;S5、将S3中得到的各模态行人ID预测向量特征经过连接操作和分类层的前向传播得到多模态融合特征输出值,即预测分类结果所述分类层由全连接层和softmax分类器构成;
S6、求出多模态融合特征输出值与目标值之间的KL散度损失和跨模态的难样本三元组损失;S7、求出最终的多模态融合全局损失:将单模态特征处理产生的交叉熵损失函数、多模态融合虚拟分支产生的欧式距离损失函数以及多模态融合特征处理涉及的KL散度损失函数和跨模态的难样本三元组损失函数相加,作为最终的多模态全局损失参与网络的训练;S8、将多模态融合全局损失反向传回网络中,依次求得网络各层:分类层classifier、全连接层FC、池化层GAP和和带有注意力的resnet50结构各层的反向传播误差;S9、网络各层根据各层的反向传播误差对网络中的所有权重系数进行调整,即进行权重的更新;S10、重新随机选取新的图像数据,然后进入到S2,进行网络前向传播得到输出值;S11、往复迭代,当求出网络的输出值与目标值(标签)之间的误差小于某个阈值,或者迭代次数超过某个阈值时,结束训练;S12、保存训练好的所有层的网络参数。3.根据权利要求2所述的新型的多模态融合的行人重识别算法,其特征在于:所述包含注意力模块的ResNet50卷积神经网络结构包括五个部分,第一部分主要对输入进行卷积、正则化、激活函数、最大池化的计算,第二、三、四、五部分结构引入了残差块,即在网络中增加了直连通道,允许原始输入信息直接传到后面的层中,每个残差块中含有三层卷积;且分别在ResNet50第二部分和第三部分之后加入SCA注意力模块,除ResNet50最后一个残差块外,三个模态的网络参数共享,从而得到分别代表RGB,NI和TI模态的图像特征信息外,三个模态...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。