一种基于跨模态提示学习的可控图像描述方法及装置制造方法及图纸

技术编号：41534458 阅读：22 留言：0更新日期：2024-06-03 23:12

本申请涉及计算机视觉及文本生成技术领域，其公开了一种基于跨模态提示学习的可控图像描述方法及装置，首先获取多个图像数据集并对每个图像数据集中的每个图像分别打上内容标签组成图像标签对，得到图像标签数据集，其次利用构建的标准映射模块和图像标签数据集构建图像内容编码器，再根据图像内容编码器和图像标签数据集构建跨模态融合特征提取模块，最后将预测图像和指令要求输入至跨模态融合特征提取模块得到图像描述文本。本申请不仅能够通过跨模态的方法实现图像描述生成，还能够与用户进行交互，响应用户的特定需求，生成满足用户需求的图像描述文本。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机视觉及文本生成，具体而言，涉及一种基于跨模态提示学习的可控图像描述方法及装置。

技术介绍

1、跨模态图像描述的生成任务有非常广泛的应用前景，跨模态是指涉及多个不同的模态之间的关系和交互。在计算机科学和人工智能领域，模态通常指的是不同的数据类型或表示方式，如图像、文本、语音、视频等。在当前跨模态领域中，根据图像生成对应的图像描述能够使得计算机理解输入图像的信息，从而自动生成相应的图像描述。提示学习指的是通过对模型给出相应的指令文本，让模型能够根据用户的要求进行相应的输出，满足人机对话的需求。

2、在现有技术中的跨模态图像描述生成方法都是仅能够输入图像，模型固定输出图像整体的描述，该描述通常概括性较强。这一类的方法虽然能够通过跨模态的方法实现图像描述生成，但不能与用户进行交互，不能够响应用户的特定需求，进而生成满足用户需求的图像描述文本。

技术实现思路

1、本申请的目的在于，为了克服现有的技术缺陷，提供了一种基于跨模态提示学习的可控图像描述方法及装置，不仅能够通过跨模态的方法实现图像描述生成，还能够与用户进行交互，响应用户的特定需求，生成满足用户需求的图像描述文本。

2、本申请目的通过下述技术方案来实现：

3、第一方面，本申请提出了一种基于跨模态提示学习的可控图像描述方法，所述方法包括：

4、步骤s1、获取多个图像数据集并对每个图像数据集中的每个图像分别打上内容标签组成图像标签对，得到图像标签数据集；

5、步骤

6、步骤s3、根据图像内容编码器和图像标签数据集构建跨模态融合特征提取模块；

7、步骤s4、将预测图像和指令要求输入至跨模态融合特征提取模块得到图像描述文本。

8、在一种可能的实施方式中，步骤s2、利用构建的标准映射模块和图像标签数据集构建图像内容编码器的步骤，包括：

9、步骤s2-1、通过构建的标准映射模块对每个图像标签数据集中的图像进行映射得到第一特征；

10、步骤s2-2、利用第一激活函数对所述第一特征进行激活得到第二特征；

11、步骤s2-3、利用所述标准映射模块对第二特征进行映射得到第三特征；

12、步骤s2-4、利用第二激活函数对第三特征和内容标签进行激活得到每个数据集类别的概率分布；

13、步骤s2-5、计算每个数据集类别的概率分布与内容标签的分布之间的差异得到交叉熵损失；

14、步骤s2-6、利用第三特征替换每个图像标签数据集中的图像，重复步骤s2-1至步骤s2-5，直至交叉熵损失维持稳定得到图像内容编码器。

15、在一种可能的实施方式中，标准映射模块的构建公式为：，其中是可学习的缩放参数，是可学习的平移参数，是输入特征的均值，非负实数是输入特征的标准差，为常数，是可学习的权重矩阵，是一个长度为m的可学习偏置项，m为输出特征的数量，是每个图像标签数据集中的图像。

16、在一种可能的实施方式中，步骤s3、根据图像内容编码器和图像标签数据集构建跨模态融合特征提取模块的步骤，包括：

17、步骤s3-1、对图像标签数据集中的图像进行特征提取得到图像特征；

18、步骤s3-2、根据构建的prompt模板和开源文本生成模型获得提示文本；

19、步骤s3-3、将所述提示文本输入至文本编码器进行文本编码得到文本特征；

20、步骤s3-4、将图像标签数据集中的图像送入图像内容编码器进行编码得到内容特征；

21、步骤s3-5、将文本特征、内容特征与图像特征进行特征融合得到多模态特征；

22、步骤s3-6、将图像标签对输入至文本编码器进行文本编码得到描述特征；

23、步骤s3-7、计算出描述特征和多模态特征之间的差异得到损失函数；

24、步骤s3-8、通过梯度下降优化模型参数，使得损失函数不断减小，直至损失函数达到平稳状态得到跨模态融合特征提取模块。

25、在一种可能的实施方式中，步骤s3-1、对图像标签数据集中的图像进行特征提取得到图像特征的步骤，包括：

26、步骤s3-1a、将图像标签数据集中的图像经过2d卷积层得到第一图像特征；

27、步骤s3-1b、将第一图像特征经过层归一化得到第二图像特征；

28、步骤s3-1c、将第二图像特征经过层归一化得到第三图像特征；

29、步骤s3-1d、按照尺寸维度对第三图像特征进行拆分得到第一向量、第二向量以及第三向量；

30、步骤s3-1e、将第一向量与注意权重进行相乘后通过标准映射模块得到第四图像特征；

31、步骤s3-1f、将第四图像特征经过层归一化得到第五图像特征；

32、步骤s3-1g、将第五图像特征与可学习参数相乘得到图像特征。

33、在一种可能的实施方式中，步骤s4、将预测图像和指令要求输入至跨模态融合特征提取模块得到图像描述文本的步骤，包括：

34、步骤s4-1、将预测图像和指令要求输入至跨模态融合特征提取模块得到跨模态特征；

35、步骤s4-2、将跨模态特征输入至跨模态解码器得到图像描述文本。

36、第二方面，本申请提出了一种基于跨模态提示学习的可控图像描述装置，所述装置包括：

37、数据集生成单元，用于获取多个图像数据集并对每个图像数据集中的每个图像分别打上内容标签组成图像标签对，得到图像标签数据集；

38、编码器构建单元，用于利用构建的标准映射模块和图像标签数据集构建图像内容编码器；

39、模块构建单元，用于根据图像内容编码器和图像标签数据集构建跨模态融合特征提取模块；

40、文本生成单元，用于将预测图像和指令要求输入至跨模态融合特征提取模块得到图像描述文本。

41、在一种可能的实施方式中，编码器构建单元，用于：

42、通过构建的标准映射模块对每个图像标签数据集中的图像进行映射得到第一特征；

43、利用第一激活函数对所述第一特征进行激活得到第二特征；

44、利用所述标准映射模块对第二特征进行映射得到第三特征；

45、利用第二激活函数对第三特征和内容标签进行激活得到每个数据集类别的概率分布；

46、计算每个数据集类别的概率分布与内容标签的分布之间的差异得到交叉熵损失；

47、利用第三特征替换每个图像标签数据集中的图像，直至交叉熵损失维持稳定得到图像内容编码器。

48、在一种可能的实施方式中，模块构建单元，用于：

49、对图像标签数据集中的图像进行特征提取得到图像特征；

50、根据构建的prompt模板和开源文本生成模型获得提示文本；

51、将所述提示文本输入至文本编码器进行本文档来自技高网...

【技术保护点】

1.一种基于跨模态提示学习的可控图像描述方法，其特征在于，所述方法包括：

2.如权利要求1所述的可控图像描述方法，其特征在于，步骤S2、利用构建的标准映射模块和图像标签数据集构建图像内容编码器的步骤，包括：

3.如权利要求1或2所述的可控图像描述方法，其特征在于，标准映射模块的构建公式为：，其中是可学习的缩放参数，是可学习的平移参数，是输入特征的均值，非负实数是输入特征的标准差，为常数，是可学习的权重矩阵，是一个长度为m的可学习偏置项，m为输出特征的数量，是每个图像标签数据集中的图像。

4.如权利要求1所述的可控图像描述方法，其特征在于，步骤S3、根据图像内容编码器和图像标签数据集构建跨模态融合特征提取模块的步骤，包括：

5.如权利要求4所述的可控图像描述方法，其特征在于，步骤S3-1、对图像标签数据集中的图像进行特征提取得到图像特征的步骤，包括：

6.如权利要求1所述的可控图像描述方法，其特征在于，步骤S4、将预测图像和指令要求输入至跨模态融合特征提取模块得到图像描述文本的步骤，包括：

7.一种基于跨模态提

8.如权利要求7所述的可控图像描述装置，其特征在于，编码器构建单元，用于：

9.如权利要求7所述的可控图像描述装置，其特征在于，模块构建单元，用于：

10.如权利要求7所述的可控图像描述装置，其特征在于，文本生成单元，用于：

...

【技术特征摘要】

1.一种基于跨模态提示学习的可控图像描述方法，其特征在于，所述方法包括：

2.如权利要求1所述的可控图像描述方法，其特征在于，步骤s2、利用构建的标准映射模块和图像标签数据集构建图像内容编码器的步骤，包括：

4.如权利要求1所述的可控图像描述方法，其特征在于，步骤s3、根据图像内容编码器和图像标签数据集构建跨模态融合特征提取模块的步...

【专利技术属性】
技术研发人员：张诗涵，杨涵，李杰，
申请(专利权)人：成都索贝数码科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人