【技术实现步骤摘要】
一种基于先验知识和对象敏感的视频问答方法
[0001]本专利技术属于图像处理
,具体涉及一种基于先验知识和对象敏感的视频问答方法的设计。
技术介绍
[0002]近年来,随着深度神经网络的快速发展和图像文本等多媒体数据的爆炸式增长,图像描述、图文匹配等多模态技术已经日趋成熟,并被广泛应用于各个领域。但是,相较于静态的图像数据,视频数据因其存在大量时间线索和具备丰富外观和运动信息等特点,使得基于视频的多模态技术存在难以处理密集的时序信息,缺乏语义推理能力等问题,而未能得到广泛的支持和应用。
[0003]其中,视频问答任务是一种功能性较强,应用前景广泛的视频多模态技术,它利用用户提出的一段文本问题,对视频内容进行表征学习和逻辑推理,通过进一步完成文本和视觉模态信息之间的语义对齐,最终给出正确的答案。由于视频问答技术满足了“用户提问,模型回答”的人机交互范式,因此该研究有助于在线教育、情景分析、视觉障碍辅助等领域的发展。
[0004]近年来,学习视频问答技术的一种主流解决方案是注意力机制,它旨在发现那些关键的视觉内容,以提高答案的预测准确度,例如位置自注意力、层级注意力、基于图网络的注意力等。视频问答的性能已经通过各种功能的注意力机制得到了显著的提高,然而,基于注意力的方法存在两个问题。首先,这些方法局限于探索视频和问题本身的信息,而未考虑先验性的知识信息,这与人类认知过程的本质并不一致。具体地,当被问及视频内容相关的问题时,人类会习惯性地从大脑中检索积累的经验性信息,作为推理过程中的指导;然而目前的视 ...
【技术保护点】
【技术特征摘要】
1.一种基于先验知识和对象敏感的视频问答方法,其特征在于,包括以下步骤:S1、在先验知识探索网络PKE中构建一个先验知识检索器,基于当前输入先验知识探索网络PKE的视频和问题,从文本语料库中搜索与视频和问题相关的描述性语句作为先验知识;S2、在问题的引导下,采用注意力机制,将先验知识与问题进行加权融合,得到知识感知的表征向量;S3、将知识感知的表征向量和视频特征输入对象敏感表征网络ORL中,进行跨空间域和跨时间域的对象表示学习,得到对象敏感的表征向量;S4、采用非线性映射,将知识感知的表征向量和对象敏感的表征向量进行融合,并送入分类器中得到候选答案的概率分布,计算分类损失。2.根据权利要求1所述的视频问答方法,其特征在于,所述步骤S1包括以下分步骤:S11、将视频外观特征视频运动特征问题向量q和文本语料库输入先验知识探索网络PKE中;其中表示视频外观特征V
a
中第l个特征向量,L表示视频外观特征V
a
中的特征向量总数,表示视频运动特征V
m
中第j个特征向量,C表示视频运动特征V
m
中的特征向量总数,L≥C;S12、在先验知识探索网络PKE中采用自注意力机制的方法,分别对视频外观特征V
a
和视频运动特征V
m
进行聚合操作,剔除其中包含的冗余信息,得到增强后的全局外观特征和全局运动特征全局运动特征全局运动特征全局运动特征全局运动特征其中Agg(
·
)表示聚合操作,α
l
表示的注意力分数,α
j
表示的注意力分数,W1为可学习的参数;S13、在先验知识探索网络PKE中构建一个先验知识检索器,将全局外观特征全局运动特征和问题向量q进行相加取均值,得到检索键值x:S14、计算检索键值x与文本语料库中所有句子的余弦相似度:sim(s,x)=s
T
x其中sim(
·
)表示余弦相似度,s表示文本语料库中的一个句子向量,T表示向量转置;S15、对检索键值x与文本语料库中所有句子的余弦相似度进行排序,得到topk个与检索键值x最相似的句子向量Z={z1,...,z
topk
},并将其作为先验知识。3.根据权利要求2所述的视频问答方法,其特征在于,所述步骤S2具体为:
在先验知识探索网络PKE中,基于问题引导的注意力模块,利用乘法注意力机制将先验知识Z与问题向量q进行加权融合,得到知识感知的表征向量知识Z与问题向量q进行加权融合,得到知识感知的表征向...
【专利技术属性】
技术研发人员:许辉,曾鹏鹏,张浩楠,赵磊,宋井宽,
申请(专利权)人:四川省人工智能研究院宜宾,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。