一种视觉问答方法、装置及存储介质制造方法及图纸

技术编号：36406916 阅读：12 留言：0更新日期：2023-01-18 10:15

本发明专利技术公开了一种视觉问答方法、装置及存储介质，其中方法包括：将图片和对应的问题文本作为输入，通过多模态预训练模型提取图片特征和问题文本特征；根据图片特征和问题文本特征挖掘隐式知识，对隐式知识进行显示建模，获得隐式知识特征；在知识库中检索外部知识，获得显式知识特征；将隐式特征知识和显式知识特征进行融合，获得融合知识特征，根据融合知识特征进行答案推理。本发明专利技术对隐含在模型内部以及数据集中的隐式知识进行显式建模，能够进一步挖掘和补充对预训练模型知识的利用，另外，引入了外部知识，可以结合补充的常识知识，辅助模型做进一步的推理，从而提高推理的准确率。本发明专利技术可广泛应用于视觉问答领域。本发明专利技术可广泛应用于视觉问答领域。本发明专利技术可广泛应用于视觉问答领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种视觉问答方法、装置及存储介质

[0001]本专利技术涉及视觉问答领域，尤其涉及一种视觉问答方法、装置及存储介质。

技术介绍

[0002]基于知识的视觉问答任务要求模型具有关联外部知识的能力，来实现开放式跨模态场景理解。而现有方法的局限性没有充分利用人工标注良好的知识库，仅根据输入的问题文本和图片来回答问题，缺乏显式的外部知识。其次，对于引入了外部知识的方法，大多从纯文本知识库里面检索相关的知识，而这些知识库仅包含了由一阶谓词或语言描述表示的事实，而缺乏用于视觉理解的复杂的高阶的多模态知识，没有充分挖掘蕴含在模型内部的隐式知识。

技术实现思路

[0003]为至少一定程度上解决现有技术中存在的技术问题之一，本专利技术的目的在于提供一种视觉问答方法、装置及存储介质。
[0004]本专利技术所采用的技术方案是：一种视觉问答方法，包括以下步骤：将图片和对应的问题文本作为输入，通过多模态预训练模型提取图片特征和问题文本特征；根据图片特征和问题文本特征挖掘隐式知识，对隐式知识进行显示建模，获得隐式知识特征；使用问题和视觉对象标签等作为检索关键词，在知识库中检索外部知识，获得显式知识特征；为了进一步减少显式知识的噪声带来的误差，分别从知识模态内部和跨模态层面上对显式知识进行降噪；采用Transformer模型将隐式特征知识和显式知识特征进行融合，获得融合知识特征，根据融合知识特征进行答案推理。
[0005]进一步地，所述对隐式知识进行显示建模，包括：采用三元组的形式对所述隐式知识进行表征，一个隐式...

【技术保护点】

【技术特征摘要】
1.一种视觉问答方法，其特征在于，包括以下步骤：将图片和对应的问题文本作为输入，通过多模态预训练模型提取图片特征和问题文本特征；根据图片特征和问题文本特征挖掘隐式知识，对隐式知识进行显示建模，获得隐式知识特征；使用问题和视觉对象标签作为检索关键词，在知识库中检索外部知识，获得显式知识特征；采用Transformer模型将隐式特征知识和显式知识特征进行融合，获得融合知识特征，根据融合知识特征进行答案推理。2.根据权利要求1所述的一种视觉问答方法，其特征在于，所述对隐式知识进行显示建模，包括：采用三元组的形式对所述隐式知识进行表征，一个隐式知识的三元组包括：头实体特征，关系特征和尾实体特征；其中，头实体特征定义为与问题最相关的视觉对象；尾实体特征定义为答案；关系特征定义为图片特征与问题文本特征融合之后的特征。3.根据权利要求2所述的一种视觉问答方法，其特征在于，所述头实体特征通过以下方式获得：对于输入的图像和问题文本，提取图片特征和问题文本特征；其中，代表视觉对象的个数，代表图片特征的维度；代表问题文本的单词个数，代表文本特征的维度；表示特征空间；将图片特征和问题文本特征，输入多模态预训练模型中学习视觉和文本两个模态内及模态之间的交互信息，以得到增强后的视觉表征和问题文本表征；对w个单词特征进行求平均，以得到问题句子的全局表征：计算每个视觉对象与问题句子的全局表征之间的相似度，根据相似度获取三元组的头实体特征。4.根据权利要求3所述的一种视觉问答方法，其特征在于，所述问题句子的全局表征的表达式如下：式中，为多模态预训练模型的输出文本表征，代表求平均；所述头实体特征的表达式如下：
式中，是问题句子的全局特征，为视觉对象特征矩阵，为视觉对象特征矩阵转置，为特征维度。5.根据权利要求3所述的一种视觉问答方法，其特征在于，所述关系特征通过以下方式获得：对N个视觉对象的特征求平均，得到视觉全局表征；对视觉全局表征和问题句子的全局特征表征进行相乘，得到多模态的关系特征。6.根据权利要求1所述的一种视觉问答方法，其特征在于，所述使用问题或者视觉对象标签作为检索关键词，在知识库中检索外部知识，获得显式知识特征，包括：分别从知识模态内部和跨模态层面上对显式知识进行降噪，以减少显式知识的噪声带来的误差；其中，在知识模态内部：在...

【专利技术属性】
技术研发人员：杜卿，杜雯靖，谭明奎，李利，
申请(专利权)人：广东广物互联网科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人