用于提示搜索的系统和方法技术方案

技术编号：43922692 阅读：35 留言：0更新日期：2025-01-03 13:26

用于提示搜索的系统和方法。一种计算机实现的方法，包括：接收多个输入图像；利用多个图像和图像编码器生成视觉矩阵，其中视觉矩阵包括编码图像的列表；接收多个文本提示；从多个文本提示中选择文本提示；将文本提示中的第一个发送到语言模型以生成候选词元列表；选择词元；经由附加词元将文本提示转换成更新的文本提示；利用文本提示和文本编码器生成文本矩阵；以及利用在图像‑文本相似性矩阵处分配的数值，确定与图像‑文本相似性矩阵相关联的分数；以及在评估多个文本提示中的每一个之后，响应于标识出与最终词元相关联的最高分数，评估准则并向更新的文本提示输出最终词元。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及提示工程，其包括利用语言模型(诸如大型语言模型(llm))的提示工程。

技术介绍

1、自监督视觉语言模型(vlm)，如对比语言图像预训练(clip)，可以经由对比训练创建对齐的图像编码器和文本编码器。与传统训练的分类网络不同，这样的对齐通过向文本编码器提示如“{}的照片”的手工输入，然后经由嵌入输入图像的最大内积来预测目标，从而实现零样本图像分类。然而，为零样本学习选择有效的提示在很大程度上仍然是一个临时(ad-hoc)的过程：一些系统已经添加了若干个提示，如“卡通{}”或“{}的艺术”，其旨在改进imagenet-r的性能和准确度。

技术实现思路

1、第一说明性实施例说明了用于调整预训练的机器学习网络的计算机实现的方法。该方法包括：接收包括多个像素的多个输入图像；利用多个输入图像和机器学习网络的图像编码器生成视觉矩阵，其中视觉矩阵包括编码图像的列表；接收多个文本提示；从多个文本提示中选择文本提示中的第一个；将文本提示中的第一个发送到大型语言模型(llm)以生成候选词元(token)列表，其中候选词元列表是通过从与文本提示中的第一个相关联的每一个词元中选择子集来生成的，其中子集包括与文本提示中的第一个相关联的最可能的词元，其中最可能的词元是响应于llm的输出而计算的；从候选列表中选择一个或多个词元；经由附加与多个文本提示相关联的一个或多个选择的词元将文本提示之一转换成更新的文本提示；利用包括一个或多个词元的更新的文本提示和机器学习网络的文本编码器生成文本矩阵，其中文本矩阵

2、第二说明性实施例说明了一种包括处理器的系统，该处理器被编程为：接收多个输入图像；利用多个输入图像和机器学习网络的图像编码器生成视觉矩阵，其中视觉矩阵包括编码图像列表；接收多个文本提示；从多个文本提示中选择文本提示中的第一个；将文本提示中的第一个发送到大型语言模型(llm)以生成候选词元列表，其中候选词元列表是通过从与文本提示中的第一个相关联的每一个词元中选择词元子集来生成的，其中子集包括与文本提示中的第一个相关联的最可能的词元，其中最可能的词元是响应于llm的输出而计算的；从候选列表中选择一个或多个词元；经由附加与多个文本提示相关联的一个或多个选择的词元将文本提示之一转换成更新的文本提示；利用包括一个或多个词元的更新的文本提示和机器学习网络的文本编码器生成文本矩阵，其中文本矩阵包括编码的视觉描述符的列表，所述列表包括具有一个或多个词元的更新的文本提示；将文本矩阵和视觉矩阵相乘以生成图像-文本相似性矩阵，其中图像-文本相似性矩阵分配指示每个编码的视觉描述符和每个编码的图像之间的相似性的数值，其中相似性由具有数值的图像-文本相似性矩阵的条目指示；利用在图像-文本相似性矩阵处分配的数值，确定与图像-文本相似性矩阵相关联的分数；当分数下降到低于阈值时，对文本提示中的第一个的第二词元重复某些步骤，并且当分数超过阈值时，将一个或多个词元添加到更新的文本提示，并且对多个文本提示中的每一个的剩余部分重复某些步骤；以及在评估多个文本提示中的每一个之后，响应于标识出与最终词元相关联的最高分数，向更新的文本提示输出最终词元。

3、第三说明性实施例说明了一种计算机实现的方法，其包括：接收多个输入图像；利用多个输入图像和机器学习网络的图像编码器生成视觉矩阵，其中视觉矩阵包括编码图像列表；接收多个文本提示；从多个文本提示中选择文本提示中的第一个；将文本提示中的第一个发送到语言模型(lm)以生成候选词元列表，其中在候选词元列表中的是小于与文本提示中的第一个相关联的所有词元的子集；从候选列表中选择一个或多个词元；经由附加与多个文本提示相关联的一个或多个选择的词元将文本提示之一转换成更新的文本提示；利用包括一个或多个词元的更新的文本提示和机器学习网络的文本编码器生成文本矩阵，其中文本矩阵包括编码的视觉描述符的列表，该列表包括具有一个或多个词元的更新的文本提示；将文本矩阵和视觉矩阵相乘以生成图像-文本相似性矩阵，其中图像-文本相似性矩阵分配指示每个编码的视觉描述符和每个编码的图像之间的相似性的数值，其中相似性由具有数值的图像-文本相似性矩阵的条目来指示；利用在图像-文本相似性矩阵分配的数值，确定与图像-文本相似性矩阵相关联的分数；并且当分数下降到低于阈值时，对文本提示中的第一个的第二词元重复某些步骤，以及当分数超过阈值时，将一个或多个词元添加到更新的文本提示，并对多个文本提示中的每一个的剩余部分重复某些步骤。

本文档来自技高网...

【技术保护点】

1.一种用于预训练的机器学习网络的计算机实现的方法，所述计算机实现的方法包括以下步骤：

2.根据权利要求1所述的方法，其中确定与图像-文本相似性矩阵相关联的分数包括利用KL-散度。

3.根据权利要求1所述的方法，其中所述图像-文本相似性矩阵是每个图像的独热编码的矩阵。

4.根据权利要求1所述的方法，其中所述文本编码器是对比语言-图像预训练(CLIP)文本编码器，并且所述图像编码器是CLIP图像编码器。

5.根据权利要求1所述的方法，其中不修改与图像编码器和文本编码器相关联的参数。

6.根据权利要求1所述的方法，其中所述阈值是迭代次数。

7.根据权利要求1所述的方法，其中所述阈值包括与所述多个文本提示相关联的长度。

8.根据权利要求1所述的方法，其中所述阈值是收敛阈值。

9.根据权利要求1所述的方法，其中文本提示之一与代表所述多个输入图像之一的类别相关联。

10.根据权利要求1所述的方法，其中所述一个或多个词元包括词语。

11.一种系统，包括：

12.

13.根据权利要求11所述的系统，其中将所述一个或多个词元添加到更新的文本提示包括用较低分数替换先前的词元。

14.根据权利要求11所述的系统，其中与图像编码器和文本编码器相关联的参数保持固定。

15.一种计算机实现的方法，包括：

16.根据权利要求15所述的方法，其中将所述一个或多个词元添加到更新的文本提示包括替换先前的词元。

17.根据权利要求15所述的方法，其中通过从与文本提示中的第一个相关联的每一个词元中选择词元子集来生成候选词元列表，其中所述子集包括与文本提示中的第一个相关联的最可能的词元，其中响应于LLM的输出来计算最可能的词元。

18.根据权利要求15所述的方法，其中所述方法包括在评估所述多个文本提示中的每一个之后，响应于标识出与最终词元相关联的最高分数，向更新的文本提示输出最终词元。

19.根据权利要求15所述的方法，其中所述一个或多个词元包括词语。

20.根据权利要求15所述的方法，其中将所述一个或多个词元添加到更新的文本提示包括用较低分数替换先前的词元。

...

【技术特征摘要】

1.一种用于预训练的机器学习网络的计算机实现的方法，所述计算机实现的方法包括以下步骤：

2.根据权利要求1所述的方法，其中确定与图像-文本相似性矩阵相关联的分数包括利用kl-散度。

3.根据权利要求1所述的方法，其中所述图像-文本相似性矩阵是每个图像的独热编码的矩阵。

4.根据权利要求1所述的方法，其中所述文本编码器是对比语言-图像预训练(clip)文本编码器，并且所述图像编码器是clip图像编码器。