一种视觉问答方法、装置及存储介质制造方法及图纸

技术编号:36406916 阅读:12 留言:0更新日期:2023-01-18 10:15
本发明专利技术公开了一种视觉问答方法、装置及存储介质,其中方法包括:将图片和对应的问题文本作为输入,通过多模态预训练模型提取图片特征和问题文本特征;根据图片特征和问题文本特征挖掘隐式知识,对隐式知识进行显示建模,获得隐式知识特征;在知识库中检索外部知识,获得显式知识特征;将隐式特征知识和显式知识特征进行融合,获得融合知识特征,根据融合知识特征进行答案推理。本发明专利技术对隐含在模型内部以及数据集中的隐式知识进行显式建模,能够进一步挖掘和补充对预训练模型知识的利用,另外,引入了外部知识,可以结合补充的常识知识,辅助模型做进一步的推理,从而提高推理的准确率。本发明专利技术可广泛应用于视觉问答领域。本发明专利技术可广泛应用于视觉问答领域。本发明专利技术可广泛应用于视觉问答领域。

【技术实现步骤摘要】
一种视觉问答方法、装置及存储介质


[0001]本专利技术涉及视觉问答领域,尤其涉及一种视觉问答方法、装置及存储介质。

技术介绍

[0002]基于知识的视觉问答任务要求模型具有关联外部知识的能力,来实现开放式跨模态场景理解。而现有方法的局限性没有充分利用人工标注良好的知识库,仅根据输入的问题文本和图片来回答问题,缺乏显式的外部知识。其次,对于引入了外部知识的方法,大多从纯文本知识库里面检索相关的知识,而这些知识库仅包含了由一阶谓词或语言描述表示的事实,而缺乏用于视觉理解的复杂的高阶的多模态知识,没有充分挖掘蕴含在模型内部的隐式知识。

技术实现思路

[0003]为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种视觉问答方法、装置及存储介质。
[0004]本专利技术所采用的技术方案是:一种视觉问答方法,包括以下步骤:将图片和对应的问题文本作为输入,通过多模态预训练模型提取图片特征和问题文本特征;根据图片特征和问题文本特征挖掘隐式知识,对隐式知识进行显示建模,获得隐式知识特征;使用问题和视觉对象标签等作为检索关键词,在知识库中检索外部知识,获得显式知识特征;为了进一步减少显式知识的噪声带来的误差,分别从知识模态内部和跨模态层面上对显式知识进行降噪;采用Transformer模型将隐式特征知识和显式知识特征进行融合,获得融合知识特征,根据融合知识特征进行答案推理。
[0005]进一步地,所述对隐式知识进行显示建模,包括:采用三元组的形式对所述隐式知识进行表征,一个隐式知识的三元组包括:头实体特征,关系特征和尾实体特征;其中,头实体特征定义为与问题最相关的视觉对象;尾实体特征定义为答案;关系特征定义为图片特征与问题文本特征融合之后的特征。
[0006]进一步地,所述头实体特征通过以下方式获得:对于输入的图像和问题文本,提取图片特征和问题文本特征;其中,代表视觉对象的个数,代表图片特征的维度;代表问题文本的单词个数,代表文本特征的维度;表示特征空间;
将图片特征和问题文本特征,输入多模态预训练模型中学习视觉和文本两个模态内及模态之间的交互信息,以得到增强后的视觉表征和问题文本表征;对个单词特征进行求平均,以得到问题句子的全局表征:计算每个视觉对象与问题句子的全局表征之间的相似度,根据相似度获取三元组的头实体特征。
[0007]进一步地,所述问题句子的全局表征的表达式如下:式中,为多模态预训练模型的输出文本表征,代表求平均;所述头实体特征的表达式如下:式中,是得到的头实体特征特征,是问题句子的全局特征,为视觉对象特征矩阵,为视觉对象特征矩阵转置,为特征维度。
[0008]进一步地,所述关系特征通过以下方式获得:对N个视觉对象的特征求平均,得到视觉全局表征;对视觉全局表征和问题句子的全局特征表征进行相乘,得到多模态的关系特征。
[0009]进一步地,所述使用问题或者视觉对象标签作为检索关键词,在知识库中检索外部知识,获得显式知识特征,包括:分别从知识模态内部和跨模态层面上对显式知识进行降噪,以减少显式知识的噪声带来的误差;其中,在知识模态内部:为充分理解每条候选知识,并进一步挖掘候选知识内部的关联,在候选知识集合中进行注意力机制计算,采用可学习参数来表示知识内部的自注意力更新过程的学习,即:式中,表示更新后的外部知识特征,表示自注意力机制计算;在跨模态层面上:将知识和视觉进行自注意力更新,使得模型能够关注到与视觉内容相关的知识,以减少无关知识带来的负面影响;其中,采用注意力操作来更新视觉和知识特征:式中,表示自注意力更新过程的可学习参数,表示隐式知识的头实体特征。
[0010]进一步地,所述采用Transformer模型将隐式特征知识和显式知识特征进行融合,获得融合知识特征,包括:
将隐式知识的<头实体,关系>表征组合在一起,将头实体特征和关系特征进行求和,得到隐式知识特征;采用可学习的参数embedding,与所述隐式知识特征和显式知识特征进行拼接,得到输入向量;将输入向量输入Transformer模型进行融合,得到最终的融合知识特征。
[0011]进一步地,所述根据融合知识特征进行答案推理,包括:将融合知识特征和问题特征进行融合,输入到训练后的分类器中,得到最终答案类别;训练时,将所述分类器与隐式知识表征模型一起训练,训练采样的损失函数的表达式如下:达式如下:达式如下:达式如下:将记为,将记为::其中,表示隐式知识表征模型的损失函数,表示分类器的损失函数;是标注的正确答案,是从答案集合中随机负采样得到的错误答案,是与问题最不相关的视觉对象(负例头实体),r表示隐式关系,是负例隐式知识,表示计算正确答案与负例隐式知识的相似度;表示计算错误答案与正例隐式知识的相似度;表示计算正确答案与正例隐式知识的相似度;表示表示多模态知识融合表征;A表示候选答案矩阵,表示候选答案矩阵A的转置矩阵;表示计算预测概率操作,是标准答案的预测概率;表示最小间距,是可调整的超参数,通过控制超参数来使得匹配的知识与答案的相似度和不匹配的知识和答案相似度的差值至少大于。最终我们使用多模态知识进行推理得到答案。
[0012]本专利技术所采用的另一技术方案是:一种视觉问答装置,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
[0013]本专利技术所采用的另一技术方案是:一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
[0014]本专利技术的有益效果是:本专利技术对隐含在模型内部以及数据集中的隐式知识进行显式建模,能够进一步挖掘和补充对预训练模型知识的利用,另外,引入了外部知识,可以结合补充的常识知识,辅助模型做进一步的推理,从而提高推理的准确率。
附图说明
[0015]为了更清楚地说明本专利技术实施例或者现有技术中的技术方案,下面对本专利技术实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本专利技术的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
[0016]图1是本专利技术实施例中一种视觉问答方法的步骤流程图;图2是本专利技术实施例中一种基于多模态只是提取与融合的视觉问答方法的流程示意图。
具体实施方式
[0017]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
[0018]在本专利技术的描述中,需要理解的是,涉及到方位描本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉问答方法,其特征在于,包括以下步骤:将图片和对应的问题文本作为输入,通过多模态预训练模型提取图片特征和问题文本特征;根据图片特征和问题文本特征挖掘隐式知识,对隐式知识进行显示建模,获得隐式知识特征;使用问题和视觉对象标签作为检索关键词,在知识库中检索外部知识,获得显式知识特征;采用Transformer模型将隐式特征知识和显式知识特征进行融合,获得融合知识特征,根据融合知识特征进行答案推理。2.根据权利要求1所述的一种视觉问答方法,其特征在于,所述对隐式知识进行显示建模,包括:采用三元组的形式对所述隐式知识进行表征,一个隐式知识的三元组包括:头实体特征,关系特征和尾实体特征;其中,头实体特征定义为与问题最相关的视觉对象;尾实体特征定义为答案;关系特征定义为图片特征与问题文本特征融合之后的特征。3.根据权利要求2所述的一种视觉问答方法,其特征在于,所述头实体特征通过以下方式获得:对于输入的图像和问题文本,提取图片特征和问题文本特征;其中,代表视觉对象的个数,代表图片特征的维度;代表问题文本的单词个数,代表文本特征的维度;表示特征空间;将图片特征和问题文本特征,输入多模态预训练模型中学习视觉和文本两个模态内及模态之间的交互信息,以得到增强后的视觉表征和问题文本表征;对w个单词特征进行求平均,以得到问题句子的全局表征:计算每个视觉对象与问题句子的全局表征之间的相似度,根据相似度获取三元组的头实体特征。4.根据权利要求3所述的一种视觉问答方法,其特征在于,所述问题句子的全局表征的表达式如下:式中,为多模态预训练模型的输出文本表征,代表求平均;所述头实体特征的表达式如下:
式中,是问题句子的全局特征,为视觉对象特征矩阵,为视觉对象特征矩阵转置,为特征维度。5.根据权利要求3所述的一种视觉问答方法,其特征在于,所述关系特征通过以下方式获得:对N个视觉对象的特征求平均,得到视觉全局表征;对视觉全局表征和问题句子的全局特征表征进行相乘,得到多模态的关系特征。6.根据权利要求1所述的一种视觉问答方法,其特征在于,所述使用问题或者视觉对象标签作为检索关键词,在知识库中检索外部知识,获得显式知识特征,包括:分别从知识模态内部和跨模态层面上对显式知识进行降噪,以减少显式知识的噪声带来的误差;其中,在知识模态内部:在...

【专利技术属性】
技术研发人员:杜卿杜雯靖谭明奎李利
申请(专利权)人:广东广物互联网科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1