基于图注意力神经网络与视觉关系的视觉问答方法及装置制造方法及图纸

技术编号:36288986 阅读:63 留言:0更新日期:2023-01-13 10:01
本发明专利技术提供一种基于图注意力神经网络与视觉关系的视觉问答方法及装置,该方法包括:将目标图像输入至视觉问答模型中的特征提取层,得到所述目标图像的图像特征,并将目标问题文本输入至所述特征提取层,得到所述目标问题文本的文本特征;将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层,得到语义关系特征;将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层,得到视觉关系特征;将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层,得到所述目标问题文本对应的答案。本发明专利技术实现基于目标图像和目标问题文本,精准推理出目标问题文本对应的答案。精准推理出目标问题文本对应的答案。精准推理出目标问题文本对应的答案。

【技术实现步骤摘要】
基于图注意力神经网络与视觉关系的视觉问答方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种基于图注意力神经网络与视觉关系的视觉问答方法及装置。

技术介绍

[0002]随着近些年深度学习的快速发展,多种多样的问题和研究方向层出不穷;在深度学习领域大体可以分为两个主要研究方向:计算机视觉(Computer Vision,CV)和自然语言处理(Natural Language Processing,NLP),在这两个领域中,图像标注和文本问答各自代表着其中的一类研究方向,图像标注为深度学习模型通过对大量标注图像的学习对未知的新图像给予标注的任务,而文本问答则是模型对一条或一段等的自然语句给与特定问题进行回答的任务。视觉问答模型(Visual Question Answering,VQA)正是近些年随着计算机视觉和自然语言处理兴起而产生的新的交叉领域,该模型不仅要处理图片信息,而且要对给定的关于图片的问题给予给与一种合理的回答。
[0003]现有方法大多依赖于注意力机制来寻找图像中的关键信息,或者从图像中抽取一些实体或属性等图像信息,作为语义知识的补充。但是这些图像信息与问题文本之间的关联性较小,无法完整表征视觉问答特征,导致基于这些图像信息获取的视觉问答结果不准确。

技术实现思路

[0004]本专利技术提供一种基于图注意力神经网络与视觉关系的视觉问答方法及装置,用以解决现有技术中依赖于注意力机制来寻找图像中的关键信息,或者从图像中抽取一些实体或属性等图像信息,作为语义知识的补充,无法完整表征视觉问答特征,导致视觉问答结果不准确的缺陷,实现提供视觉问答结果的准确性。
[0005]本专利技术提供一种基于图注意力神经网络与视觉关系的视觉问答方法,包括:
[0006]将目标图像输入至视觉问答模型中的特征提取层,得到所述目标图像的图像特征,并将目标问题文本输入至所述特征提取层,得到所述目标问题文本的文本特征;
[0007]将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层,得到语义关系特征;
[0008]将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层,得到视觉关系特征;
[0009]将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层,得到所述目标问题文本对应的答案;
[0010]其中,所述视觉问答模型是基于样本图像、样本问题文本以及所述样本问题文本对应的答案进行训练得到的。
[0011]根据本专利技术提供的一种基于图注意力神经网络与视觉关系的视觉问答方法,所述将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层,得到
语义关系特征,包括:
[0012]将所述图像特征中的每一区域特征与所述文本特征进行拼接,得到所述每一区域特征对应的拼接结果;
[0013]将所述每一区域特征对应的拼接结果作为所述图注意力神经网络层的第一节点;
[0014]基于所述图注意力神经网络层,对多个所述第一节点之间的实体关系进行抽取,得到实体关系特征,并将所述实体关系特征与所述文本特征进行特征融合,得到所述语义关系特征。
[0015]根据本专利技术提供的一种基于图注意力神经网络与视觉关系的视觉问答方法,所述将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层,得到视觉关系特征,包括:
[0016]将所述语义关系特征输入至所述视觉关系网络层;
[0017]基于所述视觉关系网络层,抽取所述语义关系特征对应的多个候选关系特征,将每一候选关系特征与所述语义关系特征进行融合,得到所述每一候选关系特征对应的第一融合特征,根据所述每一候选关系特征对应的第一融合特征,获取所述视觉关系特征。
[0018]根据本专利技术提供的一种基于图注意力神经网络与视觉关系的视觉问答方法,所述根据所述每一候选关系特征对应的第一融合特征,获取所述视觉关系特征,包括:
[0019]将所述每一候选关系特征对应的第一融合特征与所述每一候选关系特征进行融合;
[0020]根据融合结果,获取所述视觉关系特征。
[0021]根据本专利技术提供的一种基于图注意力神经网络与视觉关系的视觉问答方法,所述根据所述每一候选关系特征对应的第一融合特征,获取所述视觉关系特征,包括:
[0022]将所述每一候选关系特征对应的第一融合特征作为所述视觉关系网络层中图注意力神经网络层的第二节点;
[0023]基于所述视觉关系网络层中的图注意力神经网络层,对多个所述第二节点之间的实体关系进行抽取,得到所述视觉关系特征。
[0024]根据本专利技术提供的一种基于图注意力神经网络与视觉关系的视觉问答方法,所述答案预测层包括注意力网络层和预测层;
[0025]所述将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层,得到所述目标问题文本对应的答案,包括:
[0026]根据所述语义关系特征,获取第一输入信息,根据所述视觉关系特征,获取第二输入信息;
[0027]将所述第一输入信息和所述第二输入信息输入至所述注意力网络层,得到第二融合特征;所述注意力网络层用于基于所述第一输入信息和所述第二输入信息,对所述语义关系特征和所述视觉关系特征进行多模态融合,输出所述第二融合特征;
[0028]将所述第二融合特征输入至所述预测层,得到所述目标问题文本对应的答案。
[0029]根据本专利技术提供的一种基于图注意力神经网络与视觉关系的视觉问答方法,所述将所述第一输入信息和所述第二输入信息输入至所述注意力网络层,得到第二融合特征,包括:
[0030]将所述第一输入信息分别输入至所述注意力网络层的第一输入端口和第二输入
端口,将所述第二输入信息输入至所述注意力网络层的第三输入端口,得到所述第二融合特征。
[0031]根据本专利技术提供的一种基于图注意力神经网络与视觉关系的视觉问答方法,所述将所述第一输入信息和所述第二输入信息输入至所述注意力网络层,得到第二融合特征,包括:
[0032]将所述第二输入信息分别输入至所述注意力网络层的第一输入端口和第二输入端口,将所述第一输入信息输入至所述注意力网络层的第三输入端口,得到所述第二融合特征。
[0033]根据本专利技术提供的一种基于图注意力神经网络与视觉关系的视觉问答方法,所述注意力网络层包括第一分支注意力网络层和第二分支注意力网络层;
[0034]所述将所述第一输入信息和所述第二输入信息输入至所述注意力网络层,得到第二融合特征,包括:
[0035]将所述第一输入信息输入至所述第一分支注意力网络层的第一输入端口和第二输入端口,将所述第二输入信息输入至所述第一分支注意力网络层的第三输入端口,得到第三融合特征;
[0036]将所述第二输入信息输入至所述第二分支注意力网络层的第一输入端口和第二输入端口,将所述第一输入信息输入至所述第二分支注意力网络层的第三输入端口,得到第四融合特征;...

【技术保护点】

【技术特征摘要】
1.一种基于图注意力神经网络与视觉关系的视觉问答方法,其特征在于,包括:将目标图像输入至视觉问答模型中的特征提取层,得到所述目标图像的图像特征,并将目标问题文本输入至所述特征提取层,得到所述目标问题文本的文本特征;将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层,得到语义关系特征;将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层,得到视觉关系特征;将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层,得到所述目标问题文本对应的答案;其中,所述视觉问答模型是基于样本图像、样本问题文本以及所述样本问题文本对应的答案进行训练得到的。2.根据权利要求1所述的基于图注意力神经网络与视觉关系的视觉问答方法,其特征在于,所述将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层,得到语义关系特征,包括:将所述图像特征中的每一区域特征与所述文本特征进行拼接,得到所述每一区域特征对应的拼接结果;将所述每一区域特征对应的拼接结果作为所述图注意力神经网络层的第一节点;基于所述图注意力神经网络层,对多个所述第一节点之间的实体关系进行抽取,得到实体关系特征,并将所述实体关系特征与所述文本特征进行特征融合,得到所述语义关系特征。3.根据权利要求1所述的基于图注意力神经网络与视觉关系的视觉问答方法,其特征在于,所述将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层,得到视觉关系特征,包括:将所述语义关系特征输入至所述视觉关系网络层;基于所述视觉关系网络层,抽取所述语义关系特征对应的多个候选关系特征,将每一候选关系特征与所述语义关系特征进行融合,得到所述每一候选关系特征对应的第一融合特征,根据所述每一候选关系特征对应的第一融合特征,获取所述视觉关系特征。4.根据权利要求3所述的基于图注意力神经网络与视觉关系的视觉问答方法,其特征在于,所述根据所述每一候选关系特征对应的第一融合特征,获取所述视觉关系特征,包括:将所述每一候选关系特征对应的第一融合特征与所述每一候选关系特征进行融合;根据融合结果,获取所述视觉关系特征。5.根据权利要求3所述的基于图注意力神经网络与视觉关系的视觉问答方法,其特征在于,所述根据所述每一候选关系特征对应的第一融合特征,获取所述视觉关系特征,包括:将所述每一候选关系特征对应的第一融合特征作为所述视觉关系网络层中图注意力神经网络层的第二节点;基于所述视觉关系网络层中的图注意力神经网络层,对多个所述第二节点之间的实体关系进行抽取,得到所述视觉关系特征。
6.根据权利要求1

5任一所述的基于图注意力神经网络与视觉关系的视觉问答方法,其特征在于,所述答案预测层包括注意力网络层和预测层;所述将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层,得到所述目标问题文本对应的答案,包括:根据所述语义关系特征,获取第一输入信息,根据所述视觉关系特征,获取第二输入信息;将所述第一输入信息和所述第二输入信息输入至所述注意力网络层,得到第二融合特征;所述注意力网络层用于基于所述第一输入信息和所述...

【专利技术属性】
技术研发人员:金连超
申请(专利权)人:中银金融科技苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1