一种基于模块路由网络模型的视觉问答方法技术

技术编号：32520762 阅读：14 留言：0更新日期：2022-03-05 11:10

本发明专利技术提供的基于模块路由网络的视觉问答方法，用于解决根据模块路由网络模型对自然语言问题文本以及输入问题照片处理并生成问题答案，其特征在于，模块路由网络模型具有文本网络、路由网络以及包含视觉网络，包括以下步骤：步骤1，将自然语言问题文本输入文本网络提取问题特征；步骤2，根据由路由路径至少基于问题特征生成的路由路径激活视觉网络中相应的模块成为激活模块，并将问题照片输入视觉网络由激活模块从问题照片中提取图像特征形成相应的最终特征；步骤3，将最终特征输入回答器生成问题答案。则本发明专利技术的方法在多个层次中将文本和视觉两个模态融合，回答复杂问题时无需专家知识和监督信息，能广泛应用于需多个模态相结合的情况。相结合的情况。相结合的情况。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于模块路由网络模型的视觉问答方法

[0001]本专利技术涉及一种基于模块路由网络模型的视觉问答方法，属于人工智能领域，用于解决视觉问答任务。

技术介绍

[0002]在历史上，计算机视觉和自然语言处理一直都作为独立的研究方向各自不断发展着。随着神经网络的复兴，这两个领域一直在诞生着新的研究任务，其中，更是有了一些连接两个领域的任务被提出，本专利技术所涉及的就是其中一种视觉问答任务[1]。
[0003]视觉问答，即给定图像和问题对，模型需要基于图像的内容对问题作出回答。相较于图像识别、检测和分割等经典的计算机视觉任务，根据本专利技术提供的一种基于模块路由网络模型的视觉问答方法能将视觉和文本两个模态融合得更加充分，因此本专利技术提供的基于模块路由网络模型对图像具备一定的“理解”，能够更好地回答问题。
[0004]视觉问答面临着两个核心问题，一是如何更好地融合视觉和文本两个模态，二是如何让模型具备一定的视觉推理能力以回答更加复杂的问题的能力。
[0005]为了解决第一个问题，由于现有工作[2,3]大多基于这样一种模式：先分别用卷积神经网络和循环神经网络提取图像和问题的特征，然后再对这两个特征进行特征层面的融合。然而由于融合的对象也就是分别提取好的特征本身就处于高语义层次上了(因为一个被广泛认可的观点就是神经网络越往后所提取的特征语义层次就越高)，所以融合只发生在高语义层次上，没能在多个语义层次上进行融合。
[0006]为了解决第二个问题，目前主流的方法是基于神经模块网络[4-8]，该方法...

【技术保护点】

【技术特征摘要】
1.一种基于模块路由网络模型的视觉问答方法，用于根据模块路由网络模型对自然语言问题文本以及相关的输入问题照片进行处理并生成问题答案，其特征在于，所述模块路由网络模型具有文本网络、路由网络以及包含L个模块层的视觉网络，每个所述模块层包含多个模块，包括以下步骤：步骤1，将所述自然语言问题文本输入文本网络提取问题特征；步骤2，根据由所述路由网络至少基于所述问题特征生成的所述路由路径激活所述视觉网络中相应的所述模块成为激活模块，并将所述问题照片输入所述视觉网络由所述激活模块从所述问题照片中提取图像特征形成相应的最终特征；步骤3，将所述最终特征输入预定的回答器生成所述问题答案。2.根据权利要求1所述的基于模块路由网络的视觉问答方法，其特征在于：其中，所述步骤2包括如下子步骤：步骤2-11，将所述问题特征输入所述路由网络生成对应所有所述模块层的所述路由路径；步骤2-12，根据所述路由路径激活所述视觉网络的所有所述模块层中相应的所述模块作为激活模块；步骤2-13，将所述问题图片输入所述视觉网络并依次通过各个所述模块中的所述激活模块进行提取所述最终特征。3.根据权利要求1所述的基于模块路由网络的视觉问答方法，其特征在于：其中，所述步骤S2包括如下子步骤：步骤2-21，将所述问题特征输入所述路由网络生成对应于第一个所述模块层的所述路由路径，将第一个所述模块层作为当前所述模块层；步骤2-22，根据所述路由路径激活当前所述模块层中相应的所述模块作为激活模块；步骤2-23，将所述问题图片输入所述视觉网络由当前所述模块层中的所述激活模块从所述问题照片中提取所述图像特征作为当前图像特征；步骤2-24，将所述图像特征以及所述问题特征输入所述路由网络生成对应于下一个所述模块层的所述路由路径，并将下一个所述模块层作为新的当前模块层；步骤2-25，将所述当前图像特征输入所述当前模块层并由该当前模块层中的所述激活模块提取所述图像特征作为新的当前图像特征；步骤...

【专利技术属性】
技术研发人员：吴彦泽，薛向阳，李斌，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人