基于两级提示的持续学习方法技术

技术编号：44971478 阅读：2 留言：0更新日期：2025-04-12 01:45

本发明专利技术公开了基于两级提示的持续学习方法，包括：将输入图像输入至参数冻结的CLIP图像编码器生成图像嵌入，并将图像嵌入与前缀标记拼接形成拼接图像嵌入；将输入图像对应的输入文本提示与类别名称关联形成第一级提示，并将第一级提示输入至参数冻结的CLIP文本编码器生成文本嵌入；计算图像嵌入和文本嵌入的相似度，并利用自适应权重对相似度进行调整、从而得到调整后的相似度分数中最大的K个值以形成第二级提示；将拼接图像嵌入和第二级提示输入至预训练模型VIT中，输出得到最终嵌入、并将最终嵌入进行softmax操作得到最终预测。本发明专利技术无需微调任何参数，不需要任何缓冲区来存储过去的实例样本，适用于数据隐私敏感的场景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能的持续学习领域，尤其涉及基于两级提示的持续学习方法。

技术介绍

1、持续学习能够对非独立同分布的数据流进行学习。持续学习的特点是随着训练数据流的流入，模型不断地增量学习，最终完成对所有任务的训练。在这一过程中，模型既能够对到来的新数据进行利用，并基于之前任务积累的经验，在新的数据上很好的完成任务；又能够避免遗忘问题，对曾经训练过的任务依旧保持很高的精度。它主要的挑战被称为灾难性遗忘(catastrophic forgetting)，源于对新分布的适应通常会导致大大降低对旧分布的捕捉能力。

2、近年来，持续学习领域发展迅速，涵盖了传统持续学习范式和基于提示的持续学习方法。传统的从头训练方法旨在通过保护重要的过去参数来防止知识遗忘。弹性权重整合通过在新任务的损失函数中应用正则化约束，保留已学习的知识，防止新信息干扰。此外，动态网络架构通过隔离以前学习的参数并为新任务分配新参数，防止修改重要参数。这些方法大多数专注于解决遗忘问题(稳定性)，而忽视了模型快速泛化能力(可塑性)，这需要多次迭代才能收敛，在需要快速识别新目标的场景中带来了巨大挑战。

3、在大规模数据上训练得到的预训练模型为持续学习引入了新的研究方向。受到提示学习的启发，这些方法冻结了预训练的transformer骨干，并通过从提示池中直接选择相关提示来指导当前任务的表示学习。这些方法显著减少了灾难性遗忘的影响，并允许模型在极少迭代中收敛。然而，这种方法的性能严重依赖于选择策略。随着任务序列的延长，对应提示的数量增加，使得选择正确

技术实现思路

1、本专利技术的目的在于克服现有技术的不足，提供基于两级提示的持续学习方法。

2、本专利技术的目的是通过以下技术方案来实现的：

3、本专利技术的第一方面，提供基于两级提示的持续学习方法，包括：

4、将输入图像输入至参数冻结的clip图像编码器生成图像嵌入，并将所述图像嵌入与前缀标记拼接形成拼接图像嵌入；所述前缀标记为训练完成的语言标记和训练完成的类标记比例相加得到，语言标记和类标记利用参数冻结的预训练模型vit、参数冻结的clip图像编码器、参数冻结的clip文本编码器训练得到；

5、将输入图像对应的输入文本提示与类别名称关联形成第一级提示，并将所述第一级提示输入至参数冻结的clip文本编码器生成文本嵌入；

6、计算所述图像嵌入和文本嵌入的相似度，并利用自适应权重对相似度进行调整、从而得到调整后的相似度分数中最大的k个值以形成第二级提示；

7、将所述拼接图像嵌入和第二级提示输入至预训练模型vit中，输出得到最终嵌入、并进一步将所述最终嵌入进行softmax操作得到作为分类类别标签的最终预测。

8、进一步地，所述输入图像输入至参数冻结的clip图像编码器生成图像嵌入，具体为：

9、q＝evis(x)

10、式中，q表示图像嵌入，evis表示参数冻结的clip图像编码器，x表示输入图像；

11、语言标记li∈[l1,l2,…,ld]和类标记ci∈[c1,c2,…,cd]，i代表当前任务中的类编码。

12、进一步地，将输入文本提示与类别名称关联形成第一级提示，包括：

13、将可学习的上下文向量p即输入文本提示与类别名称yc∈yt关联，形成第c类的文本描述作为第一级提示：

14、

15、其中[p]s∈rd，[cls]c是第c类名称的文本嵌入，yt表示第t个任务中的所有类别集合；将所述第一级提示输入至参数冻结的clip文本编码器生成文本嵌入，包括：

16、

17、式中，kt表示文本嵌入，etxt表示参数冻结的clip文本编码器，t表示任务编码。

18、进一步地，所述计算所述图像嵌入和文本嵌入的相似度，包括：

19、通过匹配查询与键来计算相似度分数，以检索第二级提示：

20、si,t＝<qi,t,ki,t>

21、其中i代表当前任务中的类编码，<·,·>表示余弦距离相似性；相似度分数随后被投影到共享空间st∈rn×d；

22、所述利用自适应权重对相似度进行调整、从而得到调整后的相似度分数中最大的k个值以形成第二级提示，包括：

23、

24、其中top-kmax表示从给定的一组值中选取最大的k个值的操作，w∈rn×d表示自适应权重。

25、进一步地，所述将所述拼接图像嵌入和第二级提示输入至预训练模型vit中，输出得到最终嵌入、并进一步将所述最终嵌入进行softmax操作得到作为分类类别标签的最终预测，包括：

26、语言标记对应的语言标记嵌入为类标记对应的类标记嵌入为fθ表示预训练模型vit；所述最终嵌入为训练完成的语言标记嵌入和训练完成的类标记嵌入比例相加得到，包括：

27、

28、式中，α和β是超参数，用于调节整合过程；

29、最终嵌入通过softmax生成最终预测：

30、

31、其中φ是分类头。

32、进一步地，语言标记和类标记的训练包括：基于总损失函数和参数冻结的预训练模型vit，对语言标记和类标记进行训练，执行反向传播并更新选择的键和提示集合；其中，总损失函数ltotal为：

33、ltotal＝lo+lsd

34、式中，lo表示正则化惩罚损失函数，具体为：

35、

36、式中，ti表示当前任务，past(t)＝{t'|t'∈t,t'<i})表示之前学习的任务，表示上一轮任务训练得到的第二级提示；

37、lsd表示语义蒸馏损失函数，具体为：

38、

39、其中，λ是平衡超参数，表示分类头的预测结果，lcrossentropy表示交叉熵损失，lkd表示知识蒸馏损失，ci表示图像的上下文信息可学习的上下文向量p。

40、本专利技术的有益效果是：

41、在本专利技术的一示例性实施例中，通过使用clip模型的文本输入作为第一级提示，并通过查询-键匹配机制(计算图像嵌入和文本嵌入的相似度，图像嵌入为查询，文本嵌入为键)选择第二级提示，优点在于增强模型的稳定性，即不需要选择或合并参数，clip只为当前图像和文本生成语义嵌入，而无需微调任何参数；在此基础上，本示例性实施例引入了一种带有自适应权重的稀疏联合提示输入方法(即自适应权重对相似度进行调整)，即使用稀疏联合提示作为模型输入，不需要任何缓冲区来存储过去的实例样本，使本示例性实施例中的方法适用于数据隐私敏感的场景。

本文档来自技高网...

【技术保护点】

1.基于两级提示的持续学习方法，其特征在于：包括：

2.根据权利要求1所述基于两级提示的持续学习方法，其特征在于：所述输入图像输入至参数冻结的CLIP图像编码器生成图像嵌入，具体为：

3.根据权利要求2所述基于两级提示的持续学习方法，其特征在于：将输入文本提示与类别名称关联形成第一级提示，包括：

4.根据权利要求3所述基于两级提示的持续学习方法，其特征在于：所述计算所述图像嵌入和文本嵌入的相似度，包括：

5.根据权利要求4所述基于两级提示的持续学习方法，其特征在于：所述将所述拼接图像嵌入和第二级提示输入至预训练模型VIT中，输出得到最终嵌入、并进一步将所述最终嵌入进行softmax操作得到作为分类类别标签的最终预测，包括：

6.根据权利要求5所述基于两级提示的持续学习方法，其特征在于：语言标记和类标记的训练包括：基于总损失函数和参数冻结的预训练模型VIT，对语言标记和类标记进行训练，执行反向传播并更新选择的键和提示集合；其中，总损失函数Ltotal为：

【技术特征摘要】

1.基于两级提示的持续学习方法，其特征在于：包括：

2.根据权利要求1所述基于两级提示的持续学习方法，其特征在于：所述输入图像输入至参数冻结的clip图像编码器生成图像嵌入，具体为：

3.根据权利要求2所述基于两级提示的持续学习方法，其特征在于：将输入文本提示与类别名称关联形成第一级提示，包括：

4.根据权利要求3所述基于两级提示的持续学习方法，其特征在于：所述计算所述图像嵌入和文本嵌入的相似度，包括：

5.根...

【专利技术属性】
技术研发人员：匡平，吴明雨，冯志坤，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人