一种模型训练方法、装置、电子设备、介质制造方法及图纸

技术编号：41873329 阅读：5 留言：0更新日期：2024-07-02 00:24

本公开提供一种模型训练方法、装置、电子设备、介质，通过获取目标第一网络模型，目标第一网络模型为通过训练数据集对初始第一网络模型进行训练得到；将训练数据集输入目标第一网络模型，得到每个第一网络层的分类预测结果；获取每个第一网络层的卷积通道特征；使用训练数据集、分类预测结果、卷积通道特征，对初始第二网络模型进行训练，得到目标第二网络模型，初始第二网络模型包括的多个第二网络层与多个第一网络层相对应，初始第二网络模型的参数量小于初始第一网络模型。通过训练第一网络模型，将第一网络模型的输出以及卷积通道特征和第二网络模型的输出作为训练数据进行迭代训练，能够提升第二网络模型的精确度和泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及图像处理，尤其涉及一种模型训练方法、装置、电子设备、介质。

技术介绍

1、行人重识别也称行人再识别，是利用计算机视觉技术判断图像或者视频序列是否存在特定行人的技术，广泛被认为是图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像，旨在弥补固定的摄像头的视觉局限，并可与行人检测/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。将深度神经网络用于行人重识别，在训练阶段不仅需要大量的参数，也需要消耗大量的计算和内存资源，使得在资源有限的移动设备或嵌入式系统上部署深度学习模型变得非常困难，增加了模型训练复杂度、运行时间和存储成本。知识蒸馏方法可以实现模型的压缩，目前的知识蒸馏方法通常采用教师网络最后一层的知识进行蒸馏，且为教师向学生网络的单向知识传递的方式训练。

技术实现思路

1、为了解决相关技术中存在的问题，本公开提出一种模型训练方法，通过融合多阶段学习和自我学习的模型蒸馏方法训练获得的行人重识别模型，通过知识蒸馏的方式减少了行人重识别模型的复杂度，从而提升了行人重识别模型的运行效率、降低了行人重识别模型的存储成本之外，还使得训练完成的行人重识别模型具有优良的识别性能和泛化能力。

2、本公开的第一方面实施例提出了一种模型训练方法，该方法包括：获取目标第一网络模型，目标第一网络模型为通过训练数据集对初始第一网络模型进行训练得到，目标第一网络模型包括多个第一网络层，每个第一网络层设置有分类器；将训练数据集输入目标第一网络模型，得到每个第一网络层

3、在本公开的一些实施例中，将训练数据集输入目标第一网络模型，得到每个第一网络层的分类预测结果包括：确定分类器的多个类别的数量、目标第一网络模型的而第一蒸馏温度；将训练数据集输入目标第一网络模型，确定每个第一网络层的每个类别的概率值；根据多个类别的数量、第一蒸馏温度、第一概率值，确定每个第一网络层的分类预测结果。

4、在本公开的一些实施例中，使用训练数据集、分类预测结果、卷积通道特征，对初始第二网络模型进行训练包括：将训练数据集输入初始第二网络模型，确定每个第二网络层的每个类别的第二概率值；根据第二概率值、初始第二网络模型的第二蒸馏温度以及多个类别的数量，确定每个第二网络层的分类预测结果；根据每个第一网络层的分类预测结果、每个第二网络层的分类预测结果、多个分类器的数量，确定多个蒸馏损失；以训练数据集、第一网络层的分类预测结果、卷积通道特征作为初始第二网络模型的训练数据，根据多个蒸馏损失，对初始第二网络的每个第二网络层进行迭代训练。

5、在本公开的一些实施例中，对初始第二网络模型的每个第二网络层进行迭代训练，还包括：使用第1个至第n-1个第二网络层的分类预测结果，对第n个第二网络层进行迭代训练。

6、在本公开的一些实施例中，根据每个第一网络层的分类预测结果、每个第二网络层的分类预测结果、多个分类器的数量，确定多个蒸馏损失包括：根据每个第一网络层的分类预测结果、每个第二网络层的分类预测结果、多个类别的数量，确定每个分类器的散度；根据每个分类器的散度、多个分类器的数量，确定每个分类器对应的网络层的多个蒸馏损失；其中，该方法还包括：根据多个蒸馏损失各自的调整参数以及交叉熵损失，确定目标第二网络模型的总蒸馏损失。

7、本公开的第二方面实施例提出了一种行人重识别方法，包括：获取行人图像数据；使用经第一方面中任一项描述的模型训练方法训练得到的目标第二网络模型，对行人图像数据进行识别。

8、本公开的第三方面实施例提出了一种模型训练装置，该装置包括：获取模块，用于获取目标第一网络模型，目标第一网络模型为通过训练数据集对初始第一网络模型进行训练得到，目标第一网络模型包括多个第一网络层，每个第一网络层设置有分类器；预测模块，用于将训练数据集输入目标第一网络模型，得到每个第一网络层的分类预测结果；提取模块，用于获取每个第一网络层的卷积通道特征；训练模块，用于使用训练数据集、分类预测结果、卷积通道特征，对初始第二网络模型进行训练，得到目标第二网络模型，初始第二网络模型包括的多个第二网络层与多个第一网络层相对应，初始第二网络模型的参数量小于初始第一网络模型。

9、本公开的第四方面实施例提出了一种行人重识别装置，该装置包括：获取模块，用于获取行人图像数据；识别模块，用于使用经本公开第一方面中任一项所描述的模型训练方法训练得到的目标第二网络模型，对行人图像数据进行识别。

10、本公开的第五方面实施例提出了一种电子设备，包括：一个或多个处理器；与一个或多个处理器通信连接的存储装置，其上存储有一个或多个程序；当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现本公开第一方面或第二方面实施例中描述的方法。

11、本公开的第六方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开第一方面或第二方面实施例中描述的方法。

12、本公开的第七方面实施例提出了一种计算机程序产品，包括计算机程序，计算机程序在被执行后实现本公开第一方面或第二方面实施例中描述的方法。

13、综上，根据本公开提出的模型训练方法，通过获取目标第一网络模型，目标第一网络模型为通过训练数据集对初始第一网络模型进行训练得到，目标第一网络模型包括多个第一网络层，每个第一网络层设置有分类器；将训练数据集输入目标第一网络模型，得到每个第一网络层的分类预测结果；获取每个第一网络层的卷积通道特征；使用训练数据集、分类预测结果、卷积通道特征，对初始第二网络模型进行训练，得到目标第二网络模型，初始第二网络模型包括的多个第二网络层与多个第一网络层相对应，初始第二网络模型的参数量小于初始第一网络模型。通过将教师和学生网络划分为几个浅层网络块，同时从教师网络的不同阶段的浅层块中传递通道特征和预测结果给学生网络，提高学生网络的性能，从而得到准确度较高的轻量级网络。

14、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

本文档来自技高网...

【技术保护点】

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述训练数据集输入所述目标第一网络模型，得到每个第一网络层的分类预测结果包括：

3.根据权利要求2所述的方法，其特征在于，所述使用所述训练数据集、所述分类预测结果、所述卷积通道特征，对初始第二网络模型进行训练包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述初始第二网络模型的每个第二网络层进行迭代训练，还包括：

5.根据权利要求3所述的方法，其特征在于，所述根据每个第一网络层的分类预测结果、每个第二网络层的分类预测结果、所述多个分类器的数量，确定多个蒸馏损失包括：

6.一种行人重识别方法，其特征在于，包括：

7.一种模型训练装置，其特征在于，所述装置包括：

8.一种行人重识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行如权利要求1-5或6中任一项所述的方法。

11.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被执行后实现如权利要求1-5或6中任一项所述的方法。

...

【技术特征摘要】

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述训练数据集输入所述目标第一网络模型，得到每个第一网络层的分类预测结果包括：

3.根据权利要求2所述的方法，其特征在于，所述使用所述训练数据集、所述分类预测结果、所述卷积通道特征，对初始第二网络模型进行训练包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述初始第二网络模型的每个第二网络层进行迭代训练，还包括：

5.根据权利要求3所述的方法，其特征在于，所述根据每个第一网络层的分类预测结果、每个第二网络层的分类预测结果...

【专利技术属性】
技术研发人员：熊祥硕，
申请(专利权)人：中移苏州软件技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人