当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于认知双通道的认知推理的视觉问答方法技术

技术编号:34766659 阅读:14 留言:0更新日期:2022-08-31 19:18
本发明专利技术涉及是计算机多模态信息处理领域和认知科学领域,主要涉及一种基于认知双通道的认知推理的视觉问答方法。主要包括以下步骤:步骤1,构建认知内容,提取问题关键字,图像目标区域的标签内容,作为检索大型知识库的索引,通过检索内容构建任务知识库;步骤2,先验认知计算,通过多模态预训练模型,训练视觉文本内容表征;步骤3,构建任务的推理时空特性,通过对问句进行句法分析、词性分析,构建了问题关键字词之间的拓扑图,运用步骤2中的视觉表征内容计算图像内部区域的关联度,构建图像内容空间图结构;步骤4,锁定与问答内容相关的图像内容,根据步骤2中的联合表征的视觉向量、文本向量,计算每个文本向量关注的图像内容,构建问答关联图像内容;步骤5,层次认知的推理,联合步骤1中构建的知识内容与步骤2的先验计算,对问答内容重新编码,根据重编码的表示内容与步骤3分析的时空特性相结合,构建问答指令集合,通过问答指令进行问答推理,获取视觉问答的结果。本发明专利技术提高了开放域视觉问答模型的准确率,在推理过程中根据外部知识内容不断修正对问答内容的认知理解,使得视觉问答过程具有鲁棒性和可解释性。程具有鲁棒性和可解释性。程具有鲁棒性和可解释性。

【技术实现步骤摘要】
一种基于认知双通道的认知推理的视觉问答方法


[0001]本专利技术涉及计算机多模态信息处理领域和认知科学领域,特别涉及一种基于认知双通道的认知推理的视觉问答方法。

技术介绍

[0002]在普通视觉问答任务中,通过对多模态的信息表示的学习取得不错的成绩,但是忽视了问答过程的推理性,导致了问答过程缺乏可解释性,同时,当遇到复杂的视觉问答任务,即问答关系超出了所给定的条件,需要借助先验知识才或是基于普遍事实才能够回答问题,这种视觉问答就会出现很大的偏差,造成答非所问的情况。而在认知科学的双通道理论中,人类脑的认知系统中存在两个系统:System1和System2。System1是一个直觉系统,它可以通过人对相关信息的一个直觉匹配寻找答案,是迅速、简单的。而System2是一个分析系统,它通过一定的推理、逻辑找到答案。双通道的认知思想,对于System1能够通过任务表示的方式,对任务进行快速理解,对于复杂的视觉问答任务,在1的认识的基础上,通过2进行分析推理,从而保留了计算机对任务的理解,又能够实现计算机对任务的推理过程。
[0003]基于表示学习的方法能够使得计算机对任务内容很好的理解,通过任务的内容的联合表示,无法处理与任务无关的信息,同时表示的内容只能局限于给定条件本身,无法理解其中内容之外的关联关系。基于检索的方法,能够搜寻到大量的语料信息作为问答的证据,能够解决内容限定所带来表示的局限性,但是通过检索的语料其一是增加了计算成本,同时无关语料的引入,会使得原始计算的特征表示与正确答案之间的距离偏离,影响最终的计算结果。

技术实现思路

[0004]本专利技术是为解决上述问题而进行的,目的在于提供一种基于认知双通道的认知推理的视觉问答算法,用于解决开放域的视觉问答方法,动态学习问答方式,提高问答的准确率和可解释性,本专利技术采用了如下技术方案:
[0005]本专利技术提供了一种基于认知双通道的认知推理的视觉问答方法,其特征在于,包括以下步骤:步骤S1,提取问题关键字和图像目标区域标签,基于所述关键字、所述目标区域标签构建索引集合;步骤S2,基于所述索引集合,检索并构建视觉问答任务相关的知识库,获取认知内容;步骤S3,通过多模态预训练的跨模态模型,计算并训练文字模态、图像模态的跨模态表示模型;步骤S4,通过在所述视觉问答任务中对所述跨模态表示模型进行微调,从而获得初级的认知模型,并利用所述认知模型计算各类表示向量;步骤S5,通过对问句进行句法分析、词性分析,构建所述问题关键字之间的拓扑结构,并利用所述问题关键字的词性更新所述拓扑结构,从而获得问题推理时间特性;步骤S6,基于所述视觉问答任务,计算所述图像目标区域空间特性;步骤S7,基于所述图像目标区域空间特性,获取所述图像目标区域的语义匹配的关联度矩阵,并构建跨模态间的任务关联图结构;步骤S8,基于所述认知内容和所述各类表示向量,对所述视觉问答内容重新编码,获取重编码表示内容;步骤
S9,基于所述重编码表示内容、所述问题推理时间特性、所述图像目标区域空间特性,构建问答指令合集,并通过所述问答指令合集进行问答推理,从而获取所述视觉问答的结果。
[0006]本专利技术提供的基于认知双通道的认知推理的视觉问答方法,还可以具有这样的技术特征,其中,步骤S1中所述构建索引集合对于输入的问题先进行分词处理,获取问题单词、短语,再针对所述输入的问题输入对应的图像,并对所述图像进行所述目标区域划分,对所述目标区域进行分类,从而构建所述索引集合。
[0007]本专利技术提供的基于认知双通道的认知推理的视觉问答方法,还可以具有这样的技术特征,其中,步骤S2中所述构建视觉问答任务相关的知识库是先基于词性之间存在关系、跨模态的符号表示来构建源节点和目标节点,再利用算法,求出从所述源节点到所述目标节点的所有最短路径集,再基于问答内容的共通性,合并所述最短路径集,从而构建所述视觉问答任务相关的知识库。
[0008]本专利技术提供的基于认知双通道的认知推理的视觉问答方法,还可以具有这样的技术特征,其中,所述各类表示向量至少包括文本模态向量、图像模态向量、线性映射向量;步骤S6中计算所述空间特性包括以下子步骤:步骤S6

1,通过联合表示所述文本模态向量和所述图像模态向量,计算所述线性映射向量,公式如下:JoinR
k
=f([R
k
|S]),k∈Ω,式中,f为线性映射函数,R
k
为所述输入图像上的第K个所述目标区域的特征表示向量,S表示所述初级认知模型计算的语句特征向量;步骤S6

2,通过矩阵的乘法计算所述目标区域内的关联度矩阵,公式如下:Relation=JoinR
×
JoinR
T
;步骤S6

3,根据所述目标区域的直角坐标系,计算对应的极坐标(r,θ)作为其物理空间关系:
[0009]本专利技术提供的基于认知双通道的认知推理的视觉问答方法,还可以具有这样的技术特征,其中,步骤S7还包括如下子步骤:步骤S7

1,计算所述跨模态任务的总体相似度Sam
SF
,表达式如下:,表达式如下:式中,S是问题语义向量,F是图像i表示向量;步骤S7

2,利用均值池化方法计算所述关键字特征表示向量EP
k
,公式如下:步骤S7

3,基于注意力的问询机制,从而计算所述关联度矩阵。
[0010]本专利技术提供的基于认知双通道的认知推理的视觉问答方法,还可以具有这样的技术特征,其中,所述关联度矩阵包括问答任务与所述图像目标区域的权重矩阵、所述关键字与所述图像目标区域的内容的关注度分数矩阵,步骤S7

3还包括:步骤A1,通过对所述问句表示向量与所述图像表示特征进行拼接,用于任务表示:T=σ[S,F][0011]式中,σ是激活函数;步骤A2,计算所述权重矩阵并通过平滑的方法处理所述权重矩阵,公式如下:W
tr
=g(S,R);步骤A3,计算所述关键字所述线性映射向量K、Q、V,并设置学习参数W
q
、W
v
:K=R
r
×
W
tr
,Q=Key
r
×
W
q
,V=Key
r
×
W
v
式中,K表示图像对所述关键字的问询向量,Q表示的是所述关键字对于所述图像目标区域的问询向量,V表示所述关键字的映射的值向量;步骤A4,计算每一个所述关注度分数矩阵Att:步骤A5,计算每一个所述关注度分数矩阵与所述问答任务本身离散程度,公式如下:
式中n为向量的维度;步骤A6,基于所述总体相似度Sam
SF
,选取TopN(Scorre)。
[0012]本专利技术提供的基于认知双通道的认知推理的视觉问答方法,还可以具有这样的技术特征,其中,步骤S8所述视觉问答内容重新编码包括:计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于认知双通道的认知推理的视觉问答方法,用于解决开放域的视觉问答方法,动态学习问答方式,提高问答的准确率和可解释性,其特征在于,包括以下步骤:步骤S1,提取问题关键字和图像目标区域标签,基于所述关键字、所述目标区域标签构建索引集合;步骤S2,基于所述索引集合,检索并构建视觉问答任务相关的知识库,获取认知内容;步骤S3,通过多模态预训练的跨模态模型,计算并训练文字模态、图像模态的跨模态表示模型;步骤S4,通过在所述视觉问答任务中对所述跨模态表示模型进行微调,从而获得初级的认知模型,并利用所述认知模型计算各类表示向量;步骤S5,通过对问句进行句法分析、词性分析,构建所述问题关键字之间的拓扑结构,并利用所述问题关键字的词性更新所述拓扑结构,从而获得问题推理时间特性;步骤S6,基于所述视觉问答任务,计算所述图像目标区域空间特性;步骤S7,基于所述图像目标区域空间特性,获取所述图像目标区域的语义匹配的关联度矩阵,并构建跨模态间的任务关联图结构;步骤S8,基于所述认知内容和所述各类表示向量,对所述视觉问答内容重新编码,获取重编码表示内容;步骤S9,基于所述重编码表示内容、所述问题推理时间特性、所述图像目标区域空间特性,构建问答指令合集,并通过所述问答指令合集进行问答推理,从而获取所述视觉问答的结果。2.根据权利要求1所述的基于认知双通道的认知推理的视觉问答方法,其特征在于:其中,步骤S1中所述构建索引集合对于输入的问题先进行分词处理,获取问题单词、短语,再针对所述输入的问题输入对应的图像,并对所述图像进行所述目标区域划分,对所述目标区域进行分类,从而构建所述索引集合。3.根据权利要求1所述的基于认知双通道的认知推理的视觉问答方法,其特征在于:其中,步骤S2中所述构建视觉问答任务相关的知识库是先基于词性之间存在关系、跨模态的符号表示来构建源节点和目标节点,再利用Dijkstra算法,求出从所述源节点到所述目标节点的所有最短路径集,再基于问答内容的共通性,合并所述最短路径集,从而构建所述视觉问答任务相关的知识库。4.根据权利要求1所述的基于认知双通道的认知推理的视觉问答方法,其特征在于:其中,所述各类表示向量至少包括文本模态向量、图像模态向量、线性映射向量;步骤S6中计算所述空间特性包括以下子步骤:步骤S6

1,通过联合表示所述文本模态向量和所述图像模态向量,计算所述线性映射向量JoinR
k
,公式如下:JoinR
k
=f([R
k
|S]),k∈Ω,式中,f为线性映射函数,R
k
为所述输入图像上的第K个所述目标区域的特征表示向量,S表示所述初级认知模型计算的语句特征向量;步骤S6

2,通过矩阵的乘法计算所述目...

【专利技术属性】
技术研发人员:张文强张开磊王昊奋刘威辰
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1