一种融合ViT的跨模态行人重识别方法及装置制造方法及图纸

技术编号:34513547 阅读:31 留言:0更新日期:2022-08-13 21:00
本发明专利技术提供了一种基于深度学习模型的跨膜态行人重识别方法及装置,属于人工智能图像处理领域,方法的主要步骤为:对行人的可见光图像和红外图像使用数据增强技术以增加图像数据的多样性;使用ResNet50网络和ViT模块融合设计一种混合双通路深度学习网络模型,可以用来提取可见光和红外两种模态图像的特征;该模型的损失函数使用分类损失函数和改进的三元损失函数的组合,并且这两个损失函数的权重随训练过程中损失函数的值的改变而改变,从而能够平衡两个损失函数在模型训练过程中的重要度;在使用过程中,使用该模型提取不同模态图像的特征,并以此判断不同图像是否表示为同一个行人。一个行人。一个行人。

【技术实现步骤摘要】
一种融合ViT的跨模态行人重识别方法及装置


[0001]本专利技术涉及人工智能图像处理领域,更具体地,是一种融合ViT(VisionTransformer,视觉转换器)的跨模态行人重识别方法及装置。

技术介绍

[0002]行人重识别是指给行人的待查询图像,在行人的候选图像集中找出具有相同身份的人员。通常,待查询图像和候选图像集来自于不同的摄像头,或者同一摄像头的不同时段。行人重识别能够应用于危险预警、无人超市、走失救助等许多领域。目前的行人重识别主要针对待查询图像和候选图像集均来自于可见光摄像头,具有较大的局限性,可见光摄像头获得的图像质量受光照的影响比较大,在弱光或者无光的情况下无法获得清晰的行人图像用于识别。在弱光或者无光的环境下通常使用不依赖光线的红外摄像头进行监控。跨膜态行人重识别就是针对待查询图像和候选图像集来自于不同模态摄像头的情况,从而实现全天候的行人重识别。因此,跨膜态行人重识别具有更加广泛的应用前景。
[0003]针对可见光图像和红外图像的跨膜态行人重识别方法需要解决不同模态之间的差异问题,提取到的图像特征能够充分反映不同行人之间差异的同时,需要尽量减少模态之间的差异。目前,常用的跨膜态行人重识别的方法是主要从模型设计、损失函数设计和图像变换等三个方面进行研究。模型设计从深度学习网络的结构入手,尝试设计能够表达出跨膜态的图像特征;损失函数设计主要通过合适的损失函数引导深度学习模型的训练,使得获得图像特征满足不同模态下同一行人的特征距离较近、不同行人的特征距离较远;图像变换则使用GAN等方法根据当前某个模态的图像生成另一个模态的图像或者中间模态的图像,来减少可见光图像和红外图像之间的差异,但是图像变换容易产生噪声又给行人重识别带来很多干扰。现有的这些还存在识别准确性不足等缺点。

技术实现思路

[0004]针对现有技术的缺陷,本专利技术公开了一种融合ViT的跨膜态行人重识别方法及装置,通过所设计的深度学习网络模型提取到适合的图像特征,从而提高跨膜态行人重识别的准确率。
[0005]为了达到以上目的,本专利技术第一方面,提供一种融合ViT的跨模态行人重识别方法,获取行人的可见光和/或红外图像,根据行人的可见光和/或红外图像,在可见光和/或红外图像数据库中查询出相同的人。
[0006]在一些可能的实施方式中,所述融合ViT的跨模态行人重识别方法,具体包括以下步骤:
[0007]S1:获取行人的可见光图像和/或红外图像,进行标注,并构建模型的训练集;
[0008]S2:对经S1标注后的可见光图像和/或红外图像进行数据增强;
[0009]S3:融合ResNet50网络和ViT构成深度学习网络ResNet

ViT,并使用ID分类损失函数和改进的三元损失函数的组合作为所述深度学习网络ResNet

ViT的损失函数;
[0010]S4:将经过S2数据增强后的可见光图像和/或红外图像输入S3中所描述的深度学习网络ResNet

ViT中,提取可见光图像和/或红外图像的特征,并进行训练;
[0011]S5:在实际使用过程中,通过计算经过S4获取的可见光图像和/或红外图像与待查询图像的距离来判断他们是否为同一个行人。
[0012]在一些可能的实施方式中,S1中所述构建模型的训练集的具体方法如下:使用目标检测方法将行人在可见光图像和红外图像中的边界框找出,并将包含行人的边界框缩放为相对应大小的图像,并对同一个行人的图像标注为相同的编码。
[0013]在一些可能的实施方式中,S2中所述的数据增强方法具体如下:
[0014]针对行人的可见光图像,使用包括:随机擦除部分图像、转换为灰度图像、随机小角度旋转、左右翻转、随机选择一个通道、随机调整亮度、随机调整对比度、随机调整饱和度和随机调整色调的方法的一种及上述方法的组合进行数据增强;
[0015]或者,针对行人的红外图像,使用包括:随机擦除部分图像、转换为灰度图像、随机小角度旋转、左右翻转、随机选择一个通道、随机调整亮度、随机调整对比度、随机调整饱和度和随机调整色调的方法中的一种及上述方法的组合进行数据增强。
[0016]在一些可能的实施方式中,S3中所述深度学习网络ResNet

ViT的具体结构如下:
[0017]所述深度学习网络ResNet

ViT是一种混合双通路深度学习网络架构,它的主干网络由ResNet50网络和ViT模块的融合构成。
[0018]在一些可能的实施方式中,所述ResNet50网络包括一个卷积层块和四个残差网络块串联,依次被标注为block0

x、residual block1

x、residualblock2

x、residual block3和residual block4。
[0019]在一些可能的实施方式中,所述深度学习网络ResNet

ViT图像处理过程具体如下:
[0020]行人的可见光图像V和红外图像I分别放入block0

x,residual block1

x和 residual block2

x中提取浅层特征和各模态的固有特征,然后输入具有共享参数的residual block3和residual block4残差块中提取高层特征以及不同模型的不同模态的共有特征;
[0021]所述深度学习网络ResNet

ViT使用ResNet50网络提取行人图像特征的同时,在卷积层块和每个残差块的输出分别使用ViT模块提取信息,然后串联起来,最终和ResNet50网络提取的特征合并在一起构成行人图像的特征F,所述F为一个一维向量;F再经过一个批处理层输入到分类层。
[0022]在一些可能的实施方式中,S3中所述深度学习网络ResNet

ViT的损失函数具体为:
[0023][0024]其中,代表ID分类损失函数,表示一种改进的三元损失函数,ω1(t)和ω2(t)分别表示随训练迭代次数而动态改变的两个损失函数的系数;
[0025]所述ID分类损失函数的具体定义为:
[0026][0027]其中,N表示一个训练批次中图像的数量,y
j
代表图像j所标注的行人编码, f(x
j
)
表示图像j经过ResNet

ViT分类层所得到预测的行人编码;
[0028]所述一种改进的三元损失函数的具体定义为:
[0029][0030]其中,和(i,j,k)表示一个三元组,对于一个图像样本x
i
,j和k分别表示和x
i
是同一个模态和不同模态的图像;对于一个图像样本x
i
,P
i
表示和x
i
标识为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合ViT的跨模态行人重识别方法,其特征在于:获取行人的可见光和/或红外图像,根据行人的可见光和/或红外图像,在可见光和/或红外图像数据库中查询出相同的人。2.根据权利1所述的一种融合ViT的跨模态行人重识别方法,其特征在于:所述融合ViT的跨模态行人重识别方法,具体包括以下步骤:S1:获取行人的可见光图像和/或红外图像,进行标注,并构建模型的训练集;S2:对经S1标注后的可见光图像和/或红外图像进行数据增强;S3:融合ResNet50网络和ViT构成深度学习网络ResNet

ViT,并使用ID分类损失函数和改进的三元损失函数的组合作为所述深度学习网络ResNet

ViT的损失函数;S4:将经过S2数据增强后的可见光图像和/或红外图像输入S3中所描述的深度学习网络ResNet

ViT中,提取可见光图像和/或红外图像的特征,并进行训练;S5:在实际使用过程中,通过计算经过S4获取的可见光图像和/或红外图像与待查询图像的距离来判断他们是否为同一个行人。3.根据权利要求2所述的一种融合ViT的跨模态行人重识别方法,其特征在于,S1中所述构建模型的训练集的具体方法如下:使用目标检测方法将行人在可见光图像和红外图像中的边界框找出,并将包含行人的边界框缩放为相对应大小的图像,并对同一个行人的图像标注为相同的编码。4.根据权利要求2所述的一种融合ViT的跨模态行人重识别方法,其特征在于,S2中所述的数据增强方法具体如下:针对行人的可见光图像,使用包括:随机擦除部分图像、转换为灰度图像、随机小角度旋转、左右翻转、随机选择一个通道、随机调整亮度、随机调整对比度、随机调整饱和度和随机调整色调的方法的一种及上述方法的组合进行数据增强;或者,针对行人的红外图像,使用包括:随机擦除部分图像、转换为灰度图像、随机小角度旋转、左右翻转、随机选择一个通道、随机调整亮度、随机调整对比度、随机调整饱和度和随机调整色调的方法中的一种及上述方法的组合进行数据增强。5.根据权利要求2所述的一种融合ViT的跨模态行人重识别方法,其特征在于,S3中所述深度学习网络ResNet

ViT的具体结构如下:所述深度学习网络ResNet

ViT是一种混合双通路深度学习网络架构,它的主干网络由ResNet50网络和ViT模块融合构成。6.根据权利要求5所述的一种融合ViT的跨模态行人重识别方法,其特征在于,所述ResNet50网络包括一个卷积层块和四个残差网络块串联,依次被标注为block0

x、residual block1

x、residual block2

x、residual block3和residual block4。7.根据权利要求6所述的一种融合ViT的跨模态行人重识别方法,其特征在于,所述深度学习网络ResNet

ViT图像处理过程具体如下:行人的可见光图像V和红外图像I分别放入block0

x,residual block1

x和residual block2

x中提取浅层特征和各模态的固有特征,然后输入具有共享参数的residual block3和residual block4残差块中提取高层特征以及不同模型的不同模态的共有特征;所述深度学习网络ResNet

ViT使用ResNet50网络提取行人图像特征的同时,在卷积层块和每个残差块的输出分别使用ViT模块提取信息,然后串联起来,最终和ResNet50网络提
取的特征合并在一起构成行人图像的特征F,所述F为一个一维向量;F再经过一个批处理层输入到分类层。8.根据权利要求2所述的一种融合ViT的跨模态行人重识别方法,其特征在于,S3中所述深度学习网络ResNet

ViT的损失函数具体为:其中,代表ID分类损失函数,表示一种改进的三元损失函数,w1(t)和w2(t)分别表示随训练迭代次数而动态改变的两个损失函数的系数;所述ID分类损失函数的具体定义为:其中,N表示一个训练批次中图像的数量,y
j
代表图像j所标注的行人编码,f(x
j
)表示图像j经过ResNet

ViT分类层所得到预测的行人编码;所述一种改进的三元损失函数的具体定义为:其中,和(i,j,k)表示一个三元组,对于一个图像样本x
i
,j和k分别表示和x
i
是同一个模态和不同模态的图像;对于一个图像样本x
i
,P
i
表示和x
i
标识为同一个行人的图像集合,N
i
表示和x
i
标识为不同行人的图像集合;d
ij
表示两个图像i,j的距...

【专利技术属性】
技术研发人员:耿学文朱盛开刘文平葛慧李明磊朱卫东肖建平范学志董磊朱晓波方向亮周杰
申请(专利权)人:国网电动汽车服务有限公司国网湖南电动汽车服务有限公司北京佰汇亿达科技有限公司湖北经济学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1