当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于模块路由网络模型的视觉问答方法技术

技术编号:32520762 阅读:14 留言:0更新日期:2022-03-05 11:10
本发明专利技术提供的基于模块路由网络的视觉问答方法,用于解决根据模块路由网络模型对自然语言问题文本以及输入问题照片处理并生成问题答案,其特征在于,模块路由网络模型具有文本网络、路由网络以及包含视觉网络,包括以下步骤:步骤1,将自然语言问题文本输入文本网络提取问题特征;步骤2,根据由路由路径至少基于问题特征生成的路由路径激活视觉网络中相应的模块成为激活模块,并将问题照片输入视觉网络由激活模块从问题照片中提取图像特征形成相应的最终特征;步骤3,将最终特征输入回答器生成问题答案。则本发明专利技术的方法在多个层次中将文本和视觉两个模态融合,回答复杂问题时无需专家知识和监督信息,能广泛应用于需多个模态相结合的情况。相结合的情况。相结合的情况。

【技术实现步骤摘要】
一种基于模块路由网络模型的视觉问答方法


[0001]本专利技术涉及一种基于模块路由网络模型的视觉问答方法,属于人工智能领域,用于解决视觉问答任务。

技术介绍

[0002]在历史上,计算机视觉和自然语言处理一直都作为独立的研究方向各自不断发展着。随着神经网络的复兴,这两个领域一直在诞生着新的研究任务,其中,更是有了一些连接两个领域的任务被提出,本专利技术所涉及的就是其中一种视觉问答任务[1]。
[0003]视觉问答,即给定图像和问题对,模型需要基于图像的内容对问题作出回答。相较于图像识别、检测和分割等经典的计算机视觉任务,根据本专利技术提供的一种基于模块路由网络模型的视觉问答方法能将视觉和文本两个模态融合得更加充分,因此本专利技术提供的基于模块路由网络模型对图像具备一定的“理解”,能够更好地回答问题。
[0004]视觉问答面临着两个核心问题,一是如何更好地融合视觉和文本两个模态,二是如何让模型具备一定的视觉推理能力以回答更加复杂的问题的能力。
[0005]为了解决第一个问题,由于现有工作[2,3]大多基于这样一种模式:先分别用卷积神经网络和循环神经网络提取图像和问题的特征,然后再对这两个特征进行特征层面的融合。然而由于融合的对象也就是分别提取好的特征本身就处于高语义层次上了(因为一个被广泛认可的观点就是神经网络越往后所提取的特征语义层次就越高),所以融合只发生在高语义层次上,没能在多个语义层次上进行融合。
[0006]为了解决第二个问题,目前主流的方法是基于神经模块网络[4-8],该方法认为问题是具有组成性的,所以问题的回答可以拆分为一系列子问题的回答。因此,该方法首先需要分解问题,然后为每个子问题设计专属的模块,最后利用神经网络从问题中学习到一种组织这些模块的布局方式,然后根据布局方式组织模块并形成一个模型,最后利用该模型处理输入图片。然而无论是分解问题还是设计模块都需要专家知识,并且该系列方法大多数时候需要额外的昂贵的监督信息,这两个缺点使得其泛化性和通用性受到一定的影响。
[0007]综上,卷积神经网络和循环神经网络提取的图像特征和问题特征无法在多个语义层次上进行融合以及神经模块网络固有的复杂处理方式导致其在泛化性和通用性受到影响。
[0008][1]ANTOLS,AGRAWALA,LUJ,etal.Vqa:Visualquestionanswering[C]//ICCV.2015.
[0009][2]BEN-YOUNES H,CADENE R,CORD M,et al.Mutan:Multimodal tucker fusion for visual question answering[C]//ICCV.2017.
[0010][3]YANG Z,HE X,GAO J,et al.Stacked attention networks for image question answering[C]//CVPR.2016:21-29.
[0011][4]ANDREAS J,ROHRBACH M,DARRELL T,etal.Neural module networks[C]// CVPR.2016.
[0012][5]JOHNSON J,HARIHARAN B,VAN DER MAATEN L,et al.Inferring and executing programs for visual reasoning[C]//ICCV.2017.
[0013][6]HU R,ANDREAS J,ROHRBACH M,et al.Learning to reason:End-to-end module networks for visual question answering[C]//ICCV.2017.
[0014][7]MASCHARKA D,TRAN P,SOKLASKI R,et al.Transparency by design: Closing the gap between performance and interpretability in visual reasoning[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. 2018:4942-4950.
[0015][8]MAO J,GAN C,KOHLI P,et al.The neuro-symbolic concept learner: Interpreting scenes,words,and sentences from natural supervision[J].arXiv preprint arXiv:1904.12584,2019.

技术实现思路

[0016]本专利技术为解决上述问题而进行的,基于模块路由网络模型提供一种能够在多个语义层次上进行融合视觉和文本两个模态,并且能够推理复杂问题的基于模块路由网络的视觉问答方法,具体采用以下技术方案:
[0017]本专利技术提供的基于模块路由网络的视觉问答方法,用于解决根据模块路由网络模型对自然语言问题文本以及相关的输入问题照片进行处理并生成问题答案,其特征在于,模块路由网络模型具有文本网络、路由网络以及包含L个模块层的视觉网络,每个模块层包含多个模块,包括以下步骤:步骤1,将自然语言问题文本输入文本网络提取问题特征;步骤2,根据由路由路径至少基于问题特征生成的路由路径激活视觉网络中相应的模块成为激活模块,并将问题照片输入视觉网络由激活模块从问题照片中提取图像特征形成相应的最终特征;步骤3,将最终特征输入预定的回答器生成问题答案。
[0018]根据本专利技术提供的基于模块路由网络的视觉问答方法,还可以具有这样的技术特征,步骤2包括的子步骤如下:步骤2-11,将问题特征输入路由网络生成对应所有模块层的路由路径;步骤2-12,根据路由路径激活视觉网络的所有模块层中相应的模块作为激活模块;步骤2-13,将问题图片输入视觉网络并依次通过各个模块中的激活模块进行提取最终特征。
[0019]本专利技术提供的基于模块路由网络的视觉问答方法,还可以具有这样的技术特征,其特征在于,其中,步骤2

包括的子步骤如下:步骤2-21,将问题特征输入路由网络生成对应于第一个模块层的路由路径,将第一个模块层作为当前模块层;步骤2-22,根据路由路径激活当前模块层中相应的模块作为激活模块;步骤2-23,将问题图片输入视觉网络由当前模块层中的激活模块从问题照片中提取图像特征作为当前图像特征;步骤2-24,将图像特征以及问题特征输入路由网络生成对应于下一个模块层的路由路径,并将下一个模块层作为新的当前模块层;步骤2-25,将当前图像特征输入当前模块层并由该当前模块层中的激活模块提取图像特征作为新的当前图像特征;步骤2-26,重复步骤2-24到2-25,直到由最后一层的激活模块得到最终特征。
[0020]本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模块路由网络模型的视觉问答方法,用于根据模块路由网络模型对自然语言问题文本以及相关的输入问题照片进行处理并生成问题答案,其特征在于,所述模块路由网络模型具有文本网络、路由网络以及包含L个模块层的视觉网络,每个所述模块层包含多个模块,包括以下步骤:步骤1,将所述自然语言问题文本输入文本网络提取问题特征;步骤2,根据由所述路由网络至少基于所述问题特征生成的所述路由路径激活所述视觉网络中相应的所述模块成为激活模块,并将所述问题照片输入所述视觉网络由所述激活模块从所述问题照片中提取图像特征形成相应的最终特征;步骤3,将所述最终特征输入预定的回答器生成所述问题答案。2.根据权利要求1所述的基于模块路由网络的视觉问答方法,其特征在于:其中,所述步骤2包括如下子步骤:步骤2-11,将所述问题特征输入所述路由网络生成对应所有所述模块层的所述路由路径;步骤2-12,根据所述路由路径激活所述视觉网络的所有所述模块层中相应的所述模块作为激活模块;步骤2-13,将所述问题图片输入所述视觉网络并依次通过各个所述模块中的所述激活模块进行提取所述最终特征。3.根据权利要求1所述的基于模块路由网络的视觉问答方法,其特征在于:其中,所述步骤S2包括如下子步骤:步骤2-21,将所述问题特征输入所述路由网络生成对应于第一个所述模块层的所述路由路径,将第一个所述模块层作为当前所述模块层;步骤2-22,根据所述路由路径激活当前所述模块层中相应的所述模块作为激活模块;步骤2-23,将所述问题图片输入所述视觉网络由当前所述模块层中的所述激活模块从所述问题照片中提取所述图像特征作为当前图像特征;步骤2-24,将所述图像特征以及所述问题特征输入所述路由网络生成对应于下一个所述模块层的所述路由路径,并将下一个所述模块层作为新的当前模块层;步骤2-25,将所述当前图像特征输入所述当前模块层并由该当前模块层中的所述激活模块提取所述图像特征作为新的当前图像特征;步骤...

【专利技术属性】
技术研发人员:吴彦泽薛向阳李斌
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1