视觉问答方法、装置、设备及存储介质制造方法及图纸

技术编号：41500084 阅读：17 留言：0更新日期：2024-05-30 14:42

本申请公开了一种视觉问答方法、装置、设备及存储介质，涉及计算机设备领域。所述方法包括：获取第一图像、第一文本和视觉提示信息，第一文本是针对第一图像的问题文本，视觉提示信息是针对第一图像中的一部分图像内容的信息；根据第一图像和视觉提示信息，生成图像分割信息，图像分割信息用于指示第一图像中的一部分区域；根据第一图像、图像分割信息和第一文本，生成第一文本对应的第一回答信息。本申请通过关注于图像分割信息所指示的输入图像中的一部分区域，并结合该部分区域与整体区域之间的关系，针对性地回答输入文本，使得生成的回答信息更加准确。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，特别涉及一种视觉问答方法、装置、设备及存储介质。

技术介绍

1、视觉问答（visual question answer，vqa）是对视觉图像的自然语言问答，作为视觉理解（visual understanding）的一个研究方向，连接着视觉和语言，模型需要在理解图像的基础上，根据具体的问题然后做出回答。

2、相关技术中，视觉问答模型先分别对图像和问题提取特征，然后联合这两个特征进行多模态融合、知识补充等分析和理解图像内容的处理，最终经过分类器输出回答，包括图像描述、对象识别、场景解释等回答。

3、然而，上述方法是对图像的全部内容进行分析，容易导致图像的局部区域的理解不准确。

技术实现思路

1、本申请实施例提供了一种视觉问答方法、装置、设备及存储介质。本申请实施例提供的技术方案如下。

2、根据本申请实施例的一个方面，提供了一种视觉问答方法，所述方法包括：获取第一图像、第一文本和视觉提示信息，所述第一文本是针对所述第一图像的问题文本，所述视觉提示信息是针对所述第一图像中的一部分图像内容的信息；根据所述第一图像和所述视觉提示信息，生成图像分割信息，所述图像分割信息用于指示所述第一图像中的一部分区域；根据所述第一图像、所述图像分割信息和所述第一文本，生成所述第一文本对应的第一回答信息。

3、根据本申请实施例的一个方面，提供了一种视觉问答模型的训练方法，所述方法包括：获取所述视觉问答模型的训练数据集，所述训练数据集中包括至少一个

4、根据本申请实施例的一个方面，提供了一种视觉问答装置，所述装置包括：数据获取模块，用于获取第一图像、第一文本和视觉提示信息，所述第一文本是针对所述第一图像的问题文本，所述视觉提示信息是针对所述第一图像中的一部分图像内容的信息；图像分割模块，用于根据所述第一图像和所述视觉提示信息，生成图像分割信息，所述图像分割信息用于指示所述第一图像中的一部分区域；第一生成模块，用于根据所述第一图像、所述图像分割信息和所述第一文本，生成所述第一文本对应的第一回答信息。

5、根据本申请实施例的一个方面，提供了一种视觉问答模型的训练装置，所述装置包括：数据获取模块，用于获取所述视觉问答模型的训练数据集，所述训练数据集中包括至少一个四元组，每个所述四元组中包括样本图像、样本提示信息、样本文本和所述样本文本对应的样本回答信息，所述样本文本是针对所述样本图像的问题文本，所述样本提示信息是针对所述样本图像中的一部分图像内容的信息；图像分割模块，用于根据所述样本图像和所述样本提示信息，生成图像分割信息，所述图像分割信息用于指示所述样本图像中的一部分区域；回答生成模块，用于通过所述视觉问答模型根据所述样本图像、所述图像分割信息和所述样本文本，生成所述样本文本对应的预测回答信息；训练模块，用于根据所述预测回答信息和所述样本回答信息之间的差异，对所述视觉问答模型的参数进行调整，得到训练后的视觉问答模型。

6、根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述视觉问答方法，或视觉问答模型的训练方法。

7、根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述视觉问答方法，或视觉问答模型的训练方法。

8、根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序由处理器加载并执行以实现上述视觉问答方法，或视觉问答模型的训练方法。

9、本申请实施例提供的技术方案可以带来如下有益效果：通过获取输入图像（即第一图像）和视觉提示信息，使得可以根据输入图像和视觉提示信息，生成图像分割信息，得到输入图像中的一部分区域，然后根据输入图像、图像分割信息和输入文本（即第一文本），生成输入文本对应的回答信息。相较于相关技术中根据图像的全部内容回答问题文本，本申请提供的技术方案，通过关注于图像分割信息所指示的输入图像中的一部分区域，并结合该部分区域与整体区域之间的关系，针对性地回答输入文本，使得生成的回答信息更加准确。且通过结合视觉提示信息，使得视觉问答具有较高的灵活性，可以适应于不同类型的问题文本，生成对应的回答信息，有效保证了回答信息与输入文本间的关联性。

本文档来自技高网...

【技术保护点】

1.一种视觉问答方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一图像和所述视觉提示信息，生成图像分割信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述解码所述第一图像的特征信息和所述视觉提示信息的特征信息，得到所述图像分割信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述通过注意力机制根据所述第一图像的特征信息和所述视觉提示信息的特征信息，得到所述注意力机制的输出数据，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述多层感知机的输出数据，得到所述图像分割信息，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据所述第一图像、所述图像分割信息和所述第一文本，生成所述第一文本对应的第一回答信息，包括：

7.根据权利要求1至5任一项所述的方法，其特征在于，所述视觉提示信息包括以下至少之一：

8.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

9.一种视觉问答模型的训练方法，其特征在于，所述方法包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述预测回答信息和所述样本回答信息之间的差异，对所述视觉问答模型的参数进行调整，得到训练后的视觉问答模型，包括：

11.一种视觉问答装置，其特征在于，所述装置包括：

12.一种视觉问答模型的训练装置，其特征在于，所述装置包括：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的视觉问答方法，或者实现如权利要求9至10任一项所述的视觉问答模型的训练方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至8任一项所述的视觉问答方法，或者实现如权利要求9至10任一项所述的视觉问答模型的训练方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至8任一项所述的视觉问答方法，或者实现如权利要求9至10任一项所述的视觉问答模型的训练方法。

...

【技术特征摘要】