一种基于先验知识和对象敏感的视频问答方法技术

技术编号:34641788 阅读:19 留言:0更新日期:2022-08-24 15:17
本发明专利技术公开了一种基于先验知识和对象敏感的视频问答方法,首先提出了一种新的先验知识探索方式,即先验知识探索网络PKE,它以信息检索的方式引入了先验知识,以促进视频问答模型的推理能力;同时,PKE还可以通过将检索到的句子作为推理的证据来提供额外的可解释性。本发明专利技术还提出了一种新的对象敏感表示学习范式,即对象敏感表征网络ORL,它探索了跨空间和时间域的语义丰富的对象表示;该范式充分考虑了结构化的视觉信息,更符合人类注意机制的本质。本发明专利技术解决了传统基于注意力的视频问答方法难以模拟人类认知推理、忽略结构化视觉信息导致的视频分析推理能力差、答案预测不准确等问题。问题。问题。

【技术实现步骤摘要】
一种基于先验知识和对象敏感的视频问答方法


[0001]本专利技术属于图像处理
,具体涉及一种基于先验知识和对象敏感的视频问答方法的设计。

技术介绍

[0002]近年来,随着深度神经网络的快速发展和图像文本等多媒体数据的爆炸式增长,图像描述、图文匹配等多模态技术已经日趋成熟,并被广泛应用于各个领域。但是,相较于静态的图像数据,视频数据因其存在大量时间线索和具备丰富外观和运动信息等特点,使得基于视频的多模态技术存在难以处理密集的时序信息,缺乏语义推理能力等问题,而未能得到广泛的支持和应用。
[0003]其中,视频问答任务是一种功能性较强,应用前景广泛的视频多模态技术,它利用用户提出的一段文本问题,对视频内容进行表征学习和逻辑推理,通过进一步完成文本和视觉模态信息之间的语义对齐,最终给出正确的答案。由于视频问答技术满足了“用户提问,模型回答”的人机交互范式,因此该研究有助于在线教育、情景分析、视觉障碍辅助等领域的发展。
[0004]近年来,学习视频问答技术的一种主流解决方案是注意力机制,它旨在发现那些关键的视觉内容,以提高答案的预测准确度,例如位置自注意力、层级注意力、基于图网络的注意力等。视频问答的性能已经通过各种功能的注意力机制得到了显著的提高,然而,基于注意力的方法存在两个问题。首先,这些方法局限于探索视频和问题本身的信息,而未考虑先验性的知识信息,这与人类认知过程的本质并不一致。具体地,当被问及视频内容相关的问题时,人类会习惯性地从大脑中检索积累的经验性信息,作为推理过程中的指导;然而目前的视频问答方法并未涉及这一论点,造成模型认知能力不足,生成答案过于简单等问题。其次,基于注意力的方法主要关注那些问题引导下重要的视频外观或动作特征,而未能捕捉到帧内部各种对象区域的特定信息,导致这些方法忽略了结构化视频信息,对视频中的物体不敏感。实际上,与对象相关的问题广泛分布在视频问答数据集当中。在回答与物体相关的问题时,人类通常会关注视频中那些显著性物体区域,而不是视频整体。

技术实现思路

[0005]本专利技术的目的是为了解决传统基于注意力的视频问答方法难以模拟人类认知推理、忽略结构化视觉信息导致视频分析推理能力差的问题,提出了一种基于先验知识和对象敏感的视频问答方法。
[0006]本专利技术的技术方案为:一种基于先验知识和对象敏感的视频问答方法,包括以下步骤:
[0007]S1、在先验知识探索网络PKE中构建一个先验知识检索器,基于当前输入先验知识探索网络PKE的视频和问题,从文本语料库中搜索与视频和问题相关的描述性语句作为先验知识。
[0008]S2、在问题的引导下,采用注意力机制,将先验知识与问题进行加权融合,得到知识感知的表征向量。
[0009]S3、将知识感知的表征向量和视频特征输入对象敏感表征网络ORL中,进行跨空间域和跨时间域的对象表示学习,得到对象敏感的表征向量。
[0010]S4、采用非线性映射,将知识感知的表征向量和对象敏感的表征向量进行融合,并送入分类器中得到候选答案的概率分布,计算分类损失。
[0011]进一步地,步骤S1包括以下分步骤:
[0012]S11、将视频外观特征视频运动特征问题向量q和文本语料库输入先验知识探索网络PKE中;其中表示视频外观特征V
a
中第l个特征向量,L表示视频外观特征V
a
中的特征向量总数,表示视频运动特征V
m
中第j个特征向量,C表示视频运动特征V
m
中的特征向量总数,L≥C。
[0013]S12、在先验知识探索网络PKE中采用自注意力机制的方法,分别对视频外观特征V
a
和视频运动特征V
m
进行聚合操作,剔除其中包含的冗余信息,得到增强后的全局外观特征和全局运动特征
[0014][0015][0016][0017][0018]其中Agg(
·
)表示聚合操作,α
l
表示的注意力分数,α
j
表示的注意力分数,W1为可学习的参数。
[0019]S13、在先验知识探索网络PKE中构建一个先验知识检索器,将全局外观特征全局运动特征和问题向量q进行相加取均值,得到检索键值x:
[0020][0021]S14、计算检索键值x与文本语料库中所有句子的余弦相似度:
[0022]sim(s,x)=s
T
x
[0023]其中sim(
·
)表示余弦相似度,s表示文本语料库中的一个句子向量,T表示向量转置。
[0024]S15、对检索键值x与文本语料库中所有句子的余弦相似度进行排序,得到topk个与检索键值x最相似的句子向量Z={z1,...,z
topk
},并将其作为先验知识。
[0025]进一步地,步骤S2具体为:
[0026]在先验知识探索网络PKE中,基于问题引导的注意力模块,利用乘法注意力机制将先验知识Z与问题向量q进行加权融合,得到知识感知的表征向量
[0027][0028][0029][0030]其中FC(
·
)表示全连接层,[;]为特征拼接操作,表示将topk个句子向量进行加权求和后得到的全局知识表征,β
i
为句子向量z
i
的注意力分数,为哈达玛乘积,W2,W3,W4均为可学习参数。
[0031]进一步地,步骤S3包括以下分步骤:
[0032]S31、将知识感知的表征向量视频外观特征V
a
和视频运动特征V
m
输入对象敏感表征网络ORL中。
[0033]S32、在对象敏感表征网络ORL中,通过知识引导的聚合模块使用注意力机制将知识感知的表征向量别与视频外观特征V
a
和视频运动特征V
m
进行模态交互,得到知识感知的外观特征和知识感知的动作特征
[0034][0035][0036][0037][0038][0039][0040]其中ATT(
·
)表示模态交互,表示知识感知的外观特征中第l个特征向量,表示每一帧外观特征对先验知识的权重值,表示知识感知的动作特征中第j个特征向量,表示每一帧运动特征对先验知识的权重值,W5,W6,W7均为可学习参数。
[0041]S33、在对象敏感表征网络ORL中,通过物体敏感的注意力模块将原始对象特征分别与知识感知的外观特征和知识感知的动作特征进行模态交互,得到基于外观的对象特征和基于运动的对象特征
[0042][0043][0044]其中o
l
表示始对象特征O的第l个特征向量,U(
·
)表示物体敏感的注意力机制。
[0045]S34、在对象敏感表征网络ORL中,通过知识引导的注意力模块将知识感知的表征向量分别与基于外观的对象特征和基于运动的对象特征进行融合,再分别与全局外观特征和全局本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于先验知识和对象敏感的视频问答方法,其特征在于,包括以下步骤:S1、在先验知识探索网络PKE中构建一个先验知识检索器,基于当前输入先验知识探索网络PKE的视频和问题,从文本语料库中搜索与视频和问题相关的描述性语句作为先验知识;S2、在问题的引导下,采用注意力机制,将先验知识与问题进行加权融合,得到知识感知的表征向量;S3、将知识感知的表征向量和视频特征输入对象敏感表征网络ORL中,进行跨空间域和跨时间域的对象表示学习,得到对象敏感的表征向量;S4、采用非线性映射,将知识感知的表征向量和对象敏感的表征向量进行融合,并送入分类器中得到候选答案的概率分布,计算分类损失。2.根据权利要求1所述的视频问答方法,其特征在于,所述步骤S1包括以下分步骤:S11、将视频外观特征视频运动特征问题向量q和文本语料库输入先验知识探索网络PKE中;其中表示视频外观特征V
a
中第l个特征向量,L表示视频外观特征V
a
中的特征向量总数,表示视频运动特征V
m
中第j个特征向量,C表示视频运动特征V
m
中的特征向量总数,L≥C;S12、在先验知识探索网络PKE中采用自注意力机制的方法,分别对视频外观特征V
a
和视频运动特征V
m
进行聚合操作,剔除其中包含的冗余信息,得到增强后的全局外观特征和全局运动特征全局运动特征全局运动特征全局运动特征全局运动特征其中Agg(
·
)表示聚合操作,α
l
表示的注意力分数,α
j
表示的注意力分数,W1为可学习的参数;S13、在先验知识探索网络PKE中构建一个先验知识检索器,将全局外观特征全局运动特征和问题向量q进行相加取均值,得到检索键值x:S14、计算检索键值x与文本语料库中所有句子的余弦相似度:sim(s,x)=s
T
x其中sim(
·
)表示余弦相似度,s表示文本语料库中的一个句子向量,T表示向量转置;S15、对检索键值x与文本语料库中所有句子的余弦相似度进行排序,得到topk个与检索键值x最相似的句子向量Z={z1,...,z
topk
},并将其作为先验知识。3.根据权利要求2所述的视频问答方法,其特征在于,所述步骤S2具体为:
在先验知识探索网络PKE中,基于问题引导的注意力模块,利用乘法注意力机制将先验知识Z与问题向量q进行加权融合,得到知识感知的表征向量知识Z与问题向量q进行加权融合,得到知识感知的表征向...

【专利技术属性】
技术研发人员:许辉曾鹏鹏张浩楠赵磊宋井宽
申请(专利权)人:四川省人工智能研究院宜宾
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1