行人重识别模型的预训练方法及装置制造方法及图纸

技术编号：40378606 阅读：14 留言：0更新日期：2024-02-20 22:17

本发明专利技术提供一种行人重识别模型的预训练方法及装置，其中方法包括：获取目标待识别行人的全局视图和局部视图；基于全局视图对应的全局令牌、局部视图对应的局部令牌、及局部视图和全局视图的所属关系，确定第一和第二训练样本；对第一训练样本包括的部分图像块随机掩码后得到第三训练样本；基于第一、第二和第三训练样本，对行人重识别模型进行训练，确定模型的学生网络对应的最优网络参数，并同步至教师网络，完成预训练。本发明专利技术对全局图像以及分割后的局部图像标记对应的全局令牌以及局部令牌，使得预训练过程中行人重识别模型同时关注行人的全局特征和局部特征，提取到更加具有判别力的局部特征，提高行人重识别模型对行人识别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息，尤其涉及一种行人重识别模型的预训练方法及装置。

技术介绍

1、行人重识别(personre-identification，简称re-id)也称行人再识别，旨在从多个摄像头捕捉到的图像中寻找同一个目标人物，一大难点是外观相似的不同行人之间差异小，相同人物在不同视角和场景下外表差异可能很大，导致难以找到正确的目标人物。

2、当前主流的行人重识别方法所采用模型的预训练方法仅关注物体类别之间的差异化特征，导致了现有方法得到的行人重识别预训练模型更加关注的是图像全局的粗粒度的特征，而忽略了对于行人重识别至关重要的细粒度局部特征，比如行人的衣着，背包等局部特征。

3、因此，如何在行人重识别中充分利用行人的细粒度局部特征已成为本领域亟待解决的技术问题。

技术实现思路

1、针对现有技术存在的问题，本专利技术提供一种行人重识别模型的预训练方法及装置。

2、第一方面，本专利技术提供一种行人重识别模型的预训练方法，包括：

3、获取目标待识别行人的全局视图和局部视图；所述局部视图是将所述全局视图分割成多个存在重叠的不同的局部区域，并在所述局部区域中随机裁剪得到的多个矩形视图；

4、基于所述全局视图对应的全局令牌、所述局部视图对应的局部令牌、以及所述局部视图和所述全局视图的所属关系，确定第一训练样本和第二训练样本；所述第一训练样本为所述目标待识别行人的全局视图，且已标记与所述全局视图对应的全局令牌和属于所述全局视图的所有所述局部

5、对所述第一训练样本中所述全局视图的部分图像块进行随机掩码处理，得到第三训练样本；

6、基于所述第一训练样本、所述第二训练样本和所述第三训练样本，对所述行人重识别模型进行训练，确定所述行人重识别模型的学生网络对应的最优网络参数，并同步至所述行人重识别模型的教师网络，得到预训练完成的所述行人重识别模型。

7、可选地，所述基于所述第一训练样本、所述第二训练样本和所述第三训练样本，对所述行人重识别模型进行训练，确定所述行人重识别模型的学生网络对应的最优网络参数，并同步至所述行人重识别模型的教师网络，得到预训练完成的所述行人重识别模型，包括：

8、基于所述行人重识别模型的教师网络，确定所述第一训练样本的全局令牌对应的预测结果，以及所述第一训练样本的各局部令牌对应的预测结果，分别作为第一预测结果和第二预测结果；

9、基于所述行人重识别模型的学生网络，确定所述第三训练样本的全局令牌对应的预测结果、所述第三训练样本的各局部令牌对应的预测结果、所述第二训练样本的全局令牌对应的预测结果、以及所述第二训练样本的局部令牌对应的预测结果，分别作为第三预测结果、第四预测结果、第五预测结果和第六预测结果；

10、基于所述第二预测结果、所述第四预测结果以及所述第六预测结果，确定第一损失函数；所述第一损失函数为属于同一目标待识别行人的所有目标局部区域的局部令牌对应损失函数；所述目标局部区域为所述目标待识别行人的全局视图被分割成的多个存在重叠的不同的局部区域之一；

11、基于所述第一预测结果、所述第三预测结果以及所述第五预测结果，确定第二损失函数；所述第二损失函数为属于同一目标待识别行人的全局令牌对应的损失函数；

12、基于梯度下降法，确定总损失函数最小或满足收敛的情况下，得到所述行人重识别模型的学生网络对应的最优网络参数；所述总损失函数基于所述第一损失函数和所述第二损失函数确定；

13、采用指数滑动平均，将所述行人重识别模型的学生网络对应的最优网络参数，同步至所述行人重识别模型的教师网络，得到预训练完成的所述行人重识别模型。

14、可选地，所述基于所述第二预测结果、所述第四预测结果以及所述第六预测结果，确定第一损失函数，包括：

15、以目标待识别行人的目标局部区域对应局部令牌为单位，基于交叉熵损失函数、所述第二预测结果、所述第四预测结果以及所述第六预测结果，确定第一损失函数；

16、所述第一损失函数满足的公式表示为：

17、

18、其中，m1≠m2，叉熵损失函数h(a,b)＝-alogb，θs表示行人重识别模型中学生网络的参数；表示第二预测结果中全局视图标记的局部令牌li的图像块对应的预测局部分类为所述局部令牌li的概率；表示第四预测结果中局部视图标记的局部令牌li的图像块对应的预测局部分类为所述局部令牌li的概率；表示第二预测结果中全局视图标记的局部令牌li的图像块对应的预测局部分类为局部令牌li的概率值；表示第六预测结果中全局视图标记的局部令牌li的图像块对应的预测局部分类为局部令牌li的概率；m表示第一样本图像中目标待识别行人的全局视图的总个数；j表示任一局部区域中裁剪的局部视图的总个数。

19、可选地，所述基于所述第一预测结果、所述第三预测结果以及所述第五预测结果，确定第二损失函数，包括：

20、以属于目标待识别行人的全局令牌为单位，基于交叉熵损失函数、所述第一预测结果、所述第三预测结果以及所述第五预测结果，确定所述第二损失函数；

21、所述第二损失函数满足的公式表示为：

22、

23、其中，m1≠m2，叉熵损失函数h(a,b)＝-alogb，表示第一预测结果中全局视图标记的全局令牌对应的预测目标身份为所述全局令牌的概率；表示第五预测结果中局部视图标记的全局令牌对应的预测目标身份为所述全局令牌的概率；表示第一预测结果中目标待识别行人的全局视图标记的全局令牌的图像块对应的预测目标身份为所述全局令牌的概率；表示第三预测结果中掩码后的全局视图标记的全局令牌对应的预测目标身份为所述全局令牌的概率；m表示目标待识别行人的全局视图的总个数；l表示目标待识别行人的全局视图包括的局部区域的总个数；j表示任一局部区域中裁剪的局部视图的总个数。

24、可选地，所述获取目标待识别行人的全局视图和局部视图，包括：

25、获取第一数据集中任一图像，作为第一样本图像；所述第一数据集为由多个不同视角和位置的摄像头采集的行人图像构成，且每个所述行人图像已标注不同的行人标记；

26、确定第一样本图像中包括目标待识别行人的最小矩形视图，作为所述全局视图；

27、将所述全局视图分割成多个存在重叠的不同的局部区域，并在所述局部区域中随机裁剪多个矩形视图，作为所述局部区域的局部视图。

28、可选地，所述行人重识别模型基于视觉transformer网络构建。

29、可选地，所述方法还包括：

30、基于预训练后的所述行人重识别模型，确定第二样本图像的第七预测结果；所述第二样本图像包括目标待识别行人，且已标记对应的全局令牌和所有的局部令牌；

31、基于所述第七预测结果本文档来自技高网...

【技术保护点】

1.一种行人重识别模型的预训练方法，其特征在于，包括：

2.根据权利要求1所述的行人重识别模型的预训练方法，其特征在于，所述基于所述第一训练样本、所述第二训练样本和所述第三训练样本，对所述行人重识别模型进行训练，确定所述行人重识别模型的学生网络对应的最优网络参数，并同步至所述行人重识别模型的教师网络，得到预训练完成的所述行人重识别模型，包括：

3.根据权利要求2所述的行人重识别模型的预训练方法，其特征在于，所述基于所述第二预测结果、所述第四预测结果以及所述第六预测结果，确定第一损失函数，包括：

4.根据权利要求2所述的行人重识别模型的预训练方法，其特征在于，所述基于所述第一预测结果、所述第三预测结果以及所述第五预测结果，确定第二损失函数，包括：

5.根据权利要求1所述的行人重识别模型的预训练方法，其特征在于，所述获取目标待识别行人的全局视图和局部视图，包括：

6.根据权利要求1所述的行人重识别模型的预训练方法，其特征在于，所述行人重识别模型基于视觉Transformer网络构建。

7.根据权利要求1所述的行人

8.一种行人重识别模型的预训练装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述行人重识别模型的预训练方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述行人重识别模型的预训练方法。

...

【技术特征摘要】

1.一种行人重识别模型的预训练方法，其特征在于，包括：

5.根据权利要求1所述的行人重识别模型的...

【专利技术属性】
技术研发人员：王金桥，朱宽，郭海云，
申请(专利权)人：中科视语句容科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人