System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 视觉问答方法、装置、计算机设备及计算机可读存储介质制造方法及图纸_技高网

视觉问答方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:44459596 阅读:5 留言:0更新日期:2025-02-28 19:07
本申请公开了一种视觉问答方法、装置、计算机设备及计算机可读存储介质,可以利用问题引导图像实现跨模态交互,使得生成的图像特征融入问题信息,提高模态内和模态间的交互能力。所述方法包括:基于视觉问答模型,确定样本图像的自适应注意力特征图和样本问题的问题特征表示;对自适应注意力特征图和问题特征表示进行跨模态特征融合,确定样本预测答案;根据样本预测答案和样本实际答案之间的损失对视觉问答模型的模型参数进行优化,以及重新获取训练样本对视觉问答模型进行优化,直至视觉问答模型达到停止模型训练的标准,得到目标模型;响应于视觉问答指令,将待预测图像和待预测问题输入至目标模型进行预测,得到待预测问题对应的预测答案。

【技术实现步骤摘要】

本申请涉及视觉问答和深度学习领域,特别是涉及一种视觉问答方法、装置、计算机设备及计算机可读存储介质


技术介绍

1、视觉问答是指计算机根据输入的图片和自然语言问题,分析其中的视觉和文本信息,以生成正确的答案。相较于其他视觉语言任务,视觉问答要求在更精细语义层面理解图像和问题。这一过程涉及目标检测、物体识别和计算等多种视觉任务。对于某些复杂的问题,可能还需要引入外部知识库来辅助生成答案。因此,视觉问答任务不仅比其他视觉语言任务更加复杂和具有挑战性,还因其更接近人类在理解和交流方面的能力而展现出更大的社会价值与应用潜力,有助于改善人们的生活和工作。

2、相关技术中,视觉问答通常通过联合嵌入法来实现。这种方法通过将图像特征和问题特征映射到同一个特征空间,从而实现跨模态的语义匹配。然而,联合嵌入法是对特征向量进行简单组合,因此,在处理图像特征和问题特征时,不足以建模两个模态的复杂关系,导致视觉问答的答案预测的准确率较低。


技术实现思路

1、有鉴于此,本申请提供了一种视觉问答方法、装置、计算机设备及计算机可读存储介质,主要目的在于解决目前联合嵌入法是对特征向量进行简单组合,因此,在处理图像特征和问题特征时,不足以建模两个模态的复杂关系,导致视觉问答的答案预测的准确率较低的问题。

2、依据本申请第一方面,提供了一种视觉问答方法,该方法包括:

3、获取训练样本,将所述训练样本输入至视觉问答模型,其中,所述训练样本包括样本图像和样本问题,所述样本问题对应有样本实际答案;

4、基于所述视觉问答模型,确定所述样本图像的自适应注意力特征图和所述样本问题的问题特征表示,其中,所述自适应注意力特征图是根据所述样本图像的样本特征图和自适应注意力权重矩阵确定的,所述自适应注意力权重矩阵是采用所述样本问题对所述样本特征图的自注意力权重矩阵进行引导得到的;

5、利用所述视觉问答模型对所述自适应注意力特征图和所述问题特征表示进行跨模态特征融合,并根据跨模态融合结果确定所述样本问题对应的样本预测答案;

6、根据预设损失函数计算所述样本预测答案和所述样本实际答案之间的损失,根据所述损失对所述视觉问答模型的模型参数进行优化,以及重新获取训练样本输入至优化后的所述视觉问答模型中,并继续对所述视觉问答模型进行优化,直至所述视觉问答模型达到停止模型训练的标准,得到目标模型;

7、响应于视觉问答指令,将待预测图像和待预测问题输入至所述目标模型进行预测,得到所述待预测问题对应的预测答案。

8、可选地,所述基于所述视觉问答模型,确定所述样本图像的自适应注意力特征图,包括:

9、基于所述视觉问答模型的图像编码器执行下述操作:

10、提取所述样本图像的原始特征图,并将所述原始特征图的尺寸调整为预设大小,得到所述样本特征图;

11、基于自适应自注意力机制,确定所述样本特征图对应的自注意力权重矩阵,采用所述自注意力权重矩阵对所述样本特征图对应的图像值向量进行加权计算,得到自注意力特征图;

12、基于引导注意力机制,确定所述自注意力特征图对应的图像键向量和图像值向量,以及确定所述样本问题对应的问题查询向量;

13、基于引导注意力机制对所述自注意力特征图进行分组,得到多个自注意力头,对于每个自注意力头,确定所述自注意力头关联的图像键向量,对所述图像键向量和所述问题查询向量进行点积缩放计算,得到每个自注意力头的注意力权重矩阵,以及根据每个自注意力头的注意力权重矩阵对所述自注意力特征图对应的图像值向量进行加权计算,得到指定注意力特征图;

14、基于前馈层对所述指定注意力特征图进行非线性变换,得到引导注意力特征图,基于所述自适应自注意力机制确定所述引导注意力特征图对应的自注意力权重矩阵,采用所述自注意力权重矩阵对所述引导注意力特征图对应的图像值向量进行加权计算,得到自注意力特征图,基于所述引导注意力机制,确定所述自注意力特征图对应的指定注意力特征图,基于所述前馈层对所述指定注意力特征图进行非线性变换,得到新的引导注意力特征图;

15、再次基于所述自适应自注意力机制确定所述引导注意力特征图对应的自注意力权重矩阵,采用所述自注意力权重矩阵对所述引导注意力特征图对应的图像值向量进行加权计算,得到自注意力特征图,再次基于所述引导注意力机制,确定所述自注意力特征图对应的指定注意力特征图,直至输出指定注意力特征图的次数满足预设的循环次数阈值,得到最终的指定注意力特征图,基于所述前馈层对最终的指定注意力特征图进行非线性变换,得到所述自适应注意力特征图。

16、可选地,所述基于自适应自注意力机制,确定所述样本特征图对应的自注意力权重矩阵,采用所述自注意力权重矩阵对所述样本特征图对应的图像值向量进行加权计算,得到自注意力特征图,包括:

17、确定所述样本特征图对应的图像查询向量、图像键向量和图像值向量;

18、根据所述图像查询向量和所述图像键向量计算所述自注意力权重矩阵,采用所述自注意力权重矩阵对所述图像值向量进行加权计算,得到待调整注意力特征图;

19、基于邻域预测模块,按照多个预设参数配置不同尺寸的感受野,根据不同尺寸的感受野调整所述待调整注意力特征图中每个图像区域对应的注意力权重矩阵,得到所述待调整注意力特征图对应的待调整注意力权重矩阵;

20、采用所述待调整注意力权重矩阵对所述待调整注意力特征图对应的图像值向量进行加权计算,得到所述自注意力特征图。

21、可选地,所述基于所述视觉问答模型,确定所述样本问题的问题特征表示,包括:

22、将所述样本问题调整为固定长度,采用预训练的词嵌入模型将所述样本问题中的每个单词转换为词嵌入向量,得到词嵌入序列;

23、基于所述视觉问答模型的问题编码器执行下述操作:

24、基于自注意力层确定所述词嵌入序列对应的问题查询向量、问题键向量和问题值向量;

25、基于所述自注意力层对所述词嵌入序列进行分组,得到多个自注意力头,对于每个自注意力头,确定所述自注意力头关联的问题查询向量和问题键向量,对所述问题查询向量和所述问题键向量进行点积缩放计算,得到每个所述自注意力头的自注意力输出,以及合并每个所述自注意力头的输出并通过线性映射函数进行处理,得到所述自注意力层的输出;

26、基于前馈层对所述自注意力的输出进行非线性变换,得到上下文表示序列,将所述上下文表示序列输入至所述自注意力层,基于所述自注意力层对所述上下文表示序列行分组,得到多个自注意力头,对于每个自注意力头,确定所述自注意力头关联的问题查询向量和问题键向量,对所述问题查询向量和所述问题键向量进行点积缩放计算,得到每个所述自注意力头的自注意力输出,以及合并每个所述自注意力头的输出并通过线性映射函数进行处理,得到新的自注意力层的输出,基于所述前馈层对所述自注意力的输出进行非线性变换,得到新的上下文表示序列;本文档来自技高网...

【技术保护点】

1.一种视觉问答方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述视觉问答模型,确定所述样本图像的自适应注意力特征图,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于自适应自注意力机制,确定所述样本特征图对应的自注意力权重矩阵,采用所述自注意力权重矩阵对所述样本特征图对应的图像值向量进行加权计算,得到自注意力特征图,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述视觉问答模型,确定所述样本问题的问题特征表示,包括:

5.根据权利要求1所述的方法,其特征在于,所述利用所述视觉问答模型对所述自适应注意力特征图和所述问题特征表示进行跨模态特征融合,并根据跨模态融合结果确定所述样本问题对应的样本预测答案,包括:

6.根据权利要求1所述的方法,其特征在于,所述根据预设损失函数计算所述样本预测答案和所述样本实际答案之间的损失,根据所述损失对所述视觉问答模型的模型参数进行优化,包括:

7.根据权利要求6所述的方法,其特征在于,所述将所述训练样本重新输入至优化后的所述视觉问答模型中,并继续对所述视觉问答模型进行优化,直至所述视觉问答模型达到停止模型训练的标准,得到目标模型,包括:

8.一种视觉问答装置,其特征在于,包括:

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种视觉问答方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述视觉问答模型,确定所述样本图像的自适应注意力特征图,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于自适应自注意力机制,确定所述样本特征图对应的自注意力权重矩阵,采用所述自注意力权重矩阵对所述样本特征图对应的图像值向量进行加权计算,得到自注意力特征图,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述视觉问答模型,确定所述样本问题的问题特征表示,包括:

5.根据权利要求1所述的方法,其特征在于,所述利用所述视觉问答模型对所述自适应注意力特征图和所述问题特征表示进行跨模态特征融合,并根据跨模态融合结果确定所述样本问题对应的样本预测答案,包括:

6.根据权利...

【专利技术属性】
技术研发人员:钟珊应文豪毕安琪龚声蓉闫海英李菊周蓓
申请(专利权)人:常熟理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1