一种基于认知双通道的认知推理的视觉问答方法技术

技术编号：34766659 阅读：26 留言：0更新日期：2022-08-31 19:18

本发明专利技术涉及是计算机多模态信息处理领域和认知科学领域，主要涉及一种基于认知双通道的认知推理的视觉问答方法。主要包括以下步骤：步骤1，构建认知内容，提取问题关键字，图像目标区域的标签内容，作为检索大型知识库的索引，通过检索内容构建任务知识库；步骤2，先验认知计算，通过多模态预训练模型，训练视觉文本内容表征；步骤3，构建任务的推理时空特性，通过对问句进行句法分析、词性分析，构建了问题关键字词之间的拓扑图，运用步骤2中的视觉表征内容计算图像内部区域的关联度，构建图像内容空间图结构；步骤4，锁定与问答内容相关的图像内容，根据步骤2中的联合表征的视觉向量、文本向量，计算每个文本向量关注的图像内容，构建问答关联图像内容；步骤5，层次认知的推理，联合步骤1中构建的知识内容与步骤2的先验计算，对问答内容重新编码，根据重编码的表示内容与步骤3分析的时空特性相结合，构建问答指令集合，通过问答指令进行问答推理，获取视觉问答的结果。本发明专利技术提高了开放域视觉问答模型的准确率，在推理过程中根据外部知识内容不断修正对问答内容的认知理解，使得视觉问答过程具有鲁棒性和可解释性。程具有鲁棒性和可解释性。程具有鲁棒性和可解释性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于认知双通道的认知推理的视觉问答方法

[0001]本专利技术涉及计算机多模态信息处理领域和认知科学领域，特别涉及一种基于认知双通道的认知推理的视觉问答方法。

技术介绍

[0002]在普通视觉问答任务中，通过对多模态的信息表示的学习取得不错的成绩，但是忽视了问答过程的推理性，导致了问答过程缺乏可解释性，同时，当遇到复杂的视觉问答任务，即问答关系超出了所给定的条件，需要借助先验知识才或是基于普遍事实才能够回答问题，这种视觉问答就会出现很大的偏差，造成答非所问的情况。而在认知科学的双通道理论中，人类脑的认知系统中存在两个系统：System1和System2。System1是一个直觉系统，它可以通过人对相关信息的一个直觉匹配寻找答案，是迅速、简单的。而System2是一个分析系统，它通过一定的推理、逻辑找到答案。双通道的认知思想，对于System1能够通过任务表示的方式，对任务进行快速理解，对于复杂的视觉问答任务，在1的认识的基础上，通过2进行分析推理，从而保留了计算机对任务的理解，又能够实现计算机对任务的推理过程。
[0003]基于表示学习的方法能够使得计算机对任务内容很好的理解，通过任务的内容的联合表示，无法处理与任务无关的信息，同时表示的内容只能局限于给定条件本身，无法理解其中内容之外的关联关系。基于检索的方法，能够搜寻到大量的语料信息作为问答的证据，能够解决内容限定所带来表示的局限性，但是通过检索的语料其一是增加了计算成本，同时无关语料的引入，会使得原始计算的特征表示与正确答案之间的距离偏离，影响最终的...

【技术保护点】

【技术特征摘要】
1.一种基于认知双通道的认知推理的视觉问答方法，用于解决开放域的视觉问答方法，动态学习问答方式，提高问答的准确率和可解释性，其特征在于，包括以下步骤：步骤S1，提取问题关键字和图像目标区域标签，基于所述关键字、所述目标区域标签构建索引集合；步骤S2，基于所述索引集合，检索并构建视觉问答任务相关的知识库，获取认知内容；步骤S3，通过多模态预训练的跨模态模型，计算并训练文字模态、图像模态的跨模态表示模型；步骤S4，通过在所述视觉问答任务中对所述跨模态表示模型进行微调，从而获得初级的认知模型，并利用所述认知模型计算各类表示向量；步骤S5，通过对问句进行句法分析、词性分析，构建所述问题关键字之间的拓扑结构，并利用所述问题关键字的词性更新所述拓扑结构，从而获得问题推理时间特性；步骤S6，基于所述视觉问答任务，计算所述图像目标区域空间特性；步骤S7，基于所述图像目标区域空间特性，获取所述图像目标区域的语义匹配的关联度矩阵，并构建跨模态间的任务关联图结构；步骤S8，基于所述认知内容和所述各类表示向量，对所述视觉问答内容重新编码，获取重编码表示内容；步骤S9，基于所述重编码表示内容、所述问题推理时间特性、所述图像目标区域空间特性，构建问答指令合集，并通过所述问答指令合集进行问答推理，从而获取所述视觉问答的结果。2.根据权利要求1所述的基于认知双通道的认知推理的视觉问答方法，其特征在于：其中，步骤S1中所述构建索引集合对于输入的问题先进行分词处理，获取问题单词、短语，再针对所述输入的问题输入对应的图像，并对所述图像进行所述目标区域划分，对所述目标区域进行分类，从而构建所述索引集合。3.根据权利要求1所述的基于认知双通道的认知推理的视觉问答方法，其特征在于：其中，步骤S2中所述构建视觉问答任务相关的知识库是先基于词性之间存在关系、跨模态的符号表示来构建源节点和目标节点，再利用Dijkstra算法，求出从所述源节点到所述目标节点的所有最短路径集，再基于问答内容的共通性，合并所述最短路径集，从而构建所述视觉问答任务相关的知识库。4.根据权利要求1所述的基于认知双通道的认知推理的视觉问答方法，其特征在于：其中，所述各类表示向量至少包括文本模态向量、图像模态向量、线性映射向量；步骤S6中计算所述空间特性包括以下子步骤：步骤S6
‑
1，通过联合表示所述文本模态向量和所述图像模态向量，计算所述线性映射向量JoinR
k
，公式如下：JoinR
k
＝f([R
k
|S]),k∈Ω，式中，f为线性映射函数，R
k
为所述输入图像上的第K个所述目标区域的特征表示向量，S表示所述初级认知模型计算的语句特征向量；步骤S6
‑
2，通过矩阵的乘法计算所述目...

【专利技术属性】
技术研发人员：张文强，张开磊，王昊奋，刘威辰，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人