基于图像-文本对的蒸馏训练方法、装置、终端及介质制造方法及图纸

技术编号：44573964 阅读：3 留言：0更新日期：2025-03-11 14:34

本发明专利技术公开了基于图像‑文本对的蒸馏训练方法、装置、终端及介质。本发明专利技术采用图像‑文本对进行知识蒸馏，可以对齐图像表示和文本表示，实现多种模态的联合蒸馏，更加适用于开集检测。并且通过一种或者多种损失值进行模型参数更新，可以满足不同的训练需求，并有效地提升模型性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及开集目标检测，尤其涉及的是基于图像-文本对的蒸馏训练方法、装置、终端及介质。

技术介绍

1、目标检测技术是计算机视觉领域的重要组成部分，旨在识别并定位图像或视频中的目标对象。

2、现有的目标检测技术有闭集目标检测和开集目标检测，其中传统的目标检测算法属于闭集目标检测算法，在闭集目标检测中，模型在训练和测试阶段只会处理训练集中存在的类别；而开集目标检测模型在训练阶段只接触到一部分已知类别目标的数据，但在测试阶段可能会面对未知类别目标，这要求模型需要具备一定的泛化能力，能够识别未在训练集中出现的新类别目标，而蒸馏训练(knowledge distillation)是一种用于被广泛应用的用于提升深度神经网络性能和泛化能力的训练方法。在蒸馏训练中，学生模型可以借助教师模型的知识提高性能，然而现有的基于目标检测算法的蒸馏训练方法存在训练模态单一、监督信号有限等问题，导致蒸馏训练效果不佳。

3、因此，现有技术还有待改进和发展。

技术实现思路

1、本专利技术要解决的技术问题在于，针对现有技术的上述缺陷，提供基于图像-文本对的蒸馏训练方法、装置、终端及介质，旨在解决现有的基于目标检测算法的蒸馏训练方法的训练模态单一，导致蒸馏训练效果不佳的问题。

2、本专利技术解决问题所采用的技术方案如下：

3、第一方面，本专利技术实施例提供一种基于图像-文本对的蒸馏训练方法，所述方法包括：

4、基于所述图像-文本对通过第一模型，得到若干第一

5、根据所述若干第一图像表示得到对象查询，所述对象查询包含查询内容和查询位置；

6、根据所述对象查询进行第一损失计算，得到第一损失值；

7、基于所述图像-文本对通过第二模型，得到若干第二图像表示；

8、根据所述第一文本表示和所述第二图像表示进行第二损失计算，得到第二损失值；

9、基于所述对象查询的查询位置通过第三损失计算，得到第三损失值；

10、根据所述第一损失值、所述第二损失值和所述第三损失值至少一种，得到综合损失值；

11、基于所述综合损失值对所述第二模型进行参数更新。

12、在一种实施方式中，根据所述若干第一图像表示得到对象查询，所述对象查询包含查询内容和查询位置，包括：

13、从所述若干第一图像表示中选择目标图像表示；

14、根据所述目标图像表示确定对象查询的查询内容，根据所述目标图像表示在所述若干第一图像表示中的位置确定所述对象查询的查询位置。

15、在一种实施方式中，根据所述对象查询进行第一损失计算，得到第一损失值，包括：

16、对所述对象查询进行去噪，得到去噪对象查询；

17、根据所述对象查询和所述去噪对象查询进行第一损失计算，得到第一损失值。

18、在一种实施方式中，对所述对象查询进行去噪，得到去噪对象查询，包括：

19、对所述对象查询的内容部分进行随机抽取，得到去噪对象查询的查询内容；

20、对所述图像-文本对的目标框进行采样，得到所述去噪对象查询的查询位置。

21、在一种实施方式中，根据所述对象查询和所述去噪对象查询进行第一损失计算，得到第一损失值，包括：

22、将所述对象查询和所述去噪对象查询通过所述第一模型的解码器和所述第二模型的解码器，分别得到第一预测结果和第二预测结果，预测结果包括预测框和预测类别；

23、根据所述第一预测结果和所述第二预测结果进行第一损失计算，得到第一损失值。

24、在一种实施方式中，根据所述第一文本表示和所述第二图像表示进行第二损失计算，得到第二损失值，包括：

25、将所述第一文本表示和所述第二图像表示进行融合，得到融合表示；

26、根据所述融合表示进行第二损失计算，得到第二损失值。

27、在一种实施方式中，将所述第一文本表示和所述第二图像表示进行融合，得到融合表示，包括：

28、根据所述第一文本表示和所述第二图像表示通过交叉注意力机制分别计算图像到文本的第一交叉注意力以及文本到图像的第二交叉注意力；

29、基于所述第一交叉注意力和所述第二交叉注意力得到融合表示。

30、在一种实施方式中，基于所述对象查询的查询位置通过第三损失计算，得到第三损失值，包括：

31、根据所述对象查询的查询位置分别通过所述第一模型和所述第二模型，得到第三预测结果和第四预测结果；

32、基于所述第三预测结果和所述第四预测结果通过第三损失计算，得到第四损失值；

33、基于所述第四预测结果和对应的数据标注通过所述第三损失计算，得到第五损失值。

34、根据所述第四损失值和/或所述第五损失值计算所述第三损失值。

35、第二方面，本专利技术实施例还提供一种基于图像-文本对的蒸馏训练装置，所述装置包括：

36、第一特征提取模块，用于基于所述图像-文本对通过第一模型，得到若干第一图像表示和若干第一文本表示；

37、查询生成模块，用于根据所述若干第一图像表示得到对象查询，所述对象查询包含查询内容和查询位置；

38、第一损失计算模块，用于根据所述对象查询进行第一损失计算，得到第一损失值；

39、第二特征提取模块，用于基于所述图像-文本对通过第二模型，得到若干第二图像表示；

40、第二损失计算模块，用于根据所述第一文本表示和所述第二图像表示进行第二损失计算，得到第二损失值；

41、第三损失计算模块，用于基于所述对象查询的查询位置通过第三损失计算，得到第三损失值；

42、综合损失计算模块，用于根据所述第一损失值、所述第二损失值和所述第三损失值至少一种，得到综合损失值；

43、参数更新模块，用于基于所述综合损失值对所述第二模型进行参数更新。

44、第三方面，本专利技术实施例还提供一种终端，所述终端包括有存储器和一个以上处理器；所述存储器存储有一个以上的程序；所述程序包含用于执行如上述任一所述的基于图像-文本对的蒸馏训练方法的指令；所述处理器用于执行所述程序。

45、第四方面，本专利技术实施例还提供一种计算机可读存储介质，其上存储有多条指令，所述指令适用于由处理器加载并执行，以实现如上述任一所述的基于图像-文本对的蒸馏训练方法的步骤。

46、本专利技术的有益效果：本专利技术实施例采用图像-文本对进行知识蒸馏，可以对齐图像表示和文本表示，实现多种模态的联合蒸馏，更加适用于开集检测。并且通过一种或者多种损失值进行模型参数更新，可以满足不同的训练需求，并有效地提升模型性能。

本文档来自技高网...

【技术保护点】

1.一种基于图像-文本对的蒸馏训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于图像-文本对的蒸馏训练方法，其特征在于，根据所述若干第一图像表示得到对象查询，所述对象查询包含查询内容和查询位置，包括：

3.根据权利要求1所述的基于图像-文本对的蒸馏训练方法，其特征在于，根据所述对象查询进行第一损失计算，得到第一损失值，包括：

4.根据权利要求3所述的基于图像-文本对的蒸馏训练方法，其特征在于，对所述对象查询进行去噪，得到去噪对象查询，包括：

5.根据权利要求3所述的基于图像-文本对的蒸馏训练方法，其特征在于，根据所述对象查询和所述去噪对象查询进行第一损失计算，得到第一损失值，包括：

6.根据权利要求1所述的基于图像-文本对的蒸馏训练方法，其特征在于，根据所述第一文本表示和所述第二图像表示进行第二损失计算，得到第二损失值，包括：

7.根据权利要求6所述的基于图像-文本对的蒸馏训练方法，其特征在于，将所述第一文本表示和所述第二图像表示进行融合，得到融合表示，包括：

8.根据权利要求1所

9.一种基于图像-文本对的蒸馏训练装置，其特征在于，所述装置包括：

10.一种终端，其特征在于，所述终端包括有存储器和一个以上处理器；所述存储器存储有一个以上的程序；所述程序包含用于执行如权利要求1-8中任一所述的基于图像-文本对的蒸馏训练方法的指令；所述处理器用于执行所述程序。

11.一种计算机可读存储介质，其上存储有多条指令，其特征在于，所述指令适用于由处理器加载并执行，以实现如权利要求1-8中任一所述的基于图像-文本对的蒸馏训练方法的步骤。

...

【技术特征摘要】

1.一种基于图像-文本对的蒸馏训练方法，其特征在于，所述方法包括：

3.根据权利要求1所述的基于图像-文本对的蒸馏训练方法，其特征在于，根据所述对象查询进行第一损失计算，得到第一损失值，包括：

4.根据权利要求3所述的基于图像-文本对的蒸馏训练方法，其特征在于，对所述对象查询进行去噪，得到去噪对象查询，包括：

6.根据权利要求1所述的基于图像-文本对的蒸馏训练方法，其特征在于，根据所述第一文本表示和所述第二图像表示进行第二损失计算，得到第二...

【专利技术属性】
技术研发人员：黄宏杰，高晗，蒋擎，刘文龙，马正宇，俞青，张磊，
申请(专利权)人：粤港澳大湾区数字经济研究院福田，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人