基于多模态渐进式注意力模型解决视频问答任务的方法技术

技术编号:30965182 阅读:17 留言:0更新日期:2021-11-25 20:33
本发明专利技术的实施方式提供了一种基于多模态渐进式注意力模型解决视频问答任务的方法。该方法包括:一、针对视频问答任务中的多种模态信息,分别提取多种模态特征;二、利用问题对提取到的多种模态特征进行初步关注并计算相应的权重得分,再利用问题对重要模态特征进行迭代关注以定位到与问题最相关的模态特征;三、利用多模态融合算法实现特征的跨模态融合,再利用问题对视频的多模态融合表示进行关注,找出与问题相关的重要视频特征;四、将模型的部分有效输出结果进行融合,用于答案生成。相比现有的视频问答解决方案,本发明专利技术能够更精准地定位到与问题相关的视频帧或视频画面区域。本发明专利技术在视频问答任务中取得的效果相比于传统的方法更好。的方法更好。的方法更好。

【技术实现步骤摘要】
基于多模态渐进式注意力模型解决视频问答任务的方法


[0001]本专利技术的实施方式涉及视频问答
,更具体地,本专利技术的实施 方式涉及一种基于多模态渐进式注意力模型解决视频问答任务的方法。

技术介绍

[0002]近年来,视频问答是一个极具挑战性的新生领域,备受研究者的关注。 该任务要求模型能够理解视频和问题之间的语义信息,并根据该语义信息 生成答案。由于开放式问题需要模型自动地生成自然语言答案,因此开放 式问题是现阶段视频问答任务中较为困难的问题类型。
[0003]在问答任务中,视频信息相比于图像信息更具复杂性。视频是一个具 有强时间动态性的图像序列,并且存在大量与问题无关的冗余帧,从而影 响视频表示与问题的相关性,导致模型无法精准地定位到与问题相关的视 频信息,实验表明将注意力模型应用到视频问答任务中可以有效解决该问 题,并显著提高了模型的准确率。
[0004]目前大多视频问答任务在实现过程中仅提取视频的帧特征及剪辑特 征,完全忽略了视频的音频特征,因此并没有最大化地利用视频的所有有 效信息。并且由于不同模态特征之间存在多种信息交叉且各自的表现方式 不同,若仅利用点乘、级联等基础运算进行特征融合,不足以建模两个模 态间的复杂关系。针对以上问题,本方法将利用多模态渐进式注意力模型 以逐阶段的定位方式精准地定位到与问题相关的视频帧或与问题相关的 视频画面区域。

技术实现思路

[0005]在本上下文中,本专利技术的实施方式期望提供一种基于多模态渐进式注 意力模型解决视频问答任务的方法,以克服现有技术对于视频问答任务无 法提供较为准确答案的问题。
[0006]在本专利技术实施方式的第一方面中,提供了一种基于多模态渐进式注意 力模型解决视频问答任务的方法,包括:步骤S1、获得待处理的视频和问 题;步骤S2、提取所述视频的帧特征、剪辑特征和音频特征,作为该视频 的多个模态特征,并提取所述问题的文本特征;步骤S3、分别利用问题对 所述视频的多个模态特征进行关注,得到具有问题指导的多个模态表示, 再利用问题分别计算各模态的权重得分,并在所述多个模态中选择权重得 分最高的模态表示作为关键模态;步骤S4、根据得到的模态表示和权重得 分,基于多模态融合算法将多个模态表示融合以得到所述视频的视频融合 表示;步骤S5、利用问题对视频的视频融合表示进行关注,得到具有问题 指导的视频融合表示;步骤S6、利用问题对关键模态的特征进行多步关注, 以多轮迭代的方式定位到与问题更相关的关键模态特征;步骤S7、至少基 于所述问题特征、所述具有问题指导的视频融合表示以及所述多步关注和 所述多轮迭代的结果,获得预测答案。
[0007]进一步地,步骤S2中提取所述视频的帧特征、剪辑特征和音频特征 的步骤包括:
步骤S21、利用预训练ResNet模型提取所述视频的帧特征 v
f
={f1,f2,...,f
N1
},其中,f
i
表示视频中第i个帧的帧特征, i=1,2,3,

,N1,N1表示帧数,d表示帧特征的维度;步骤S22、利用预训 练TSN网络提取所述视频的剪辑特征v
c
={c1,c2,

,c
N2
},其中, c
j
表示视频中第j个剪辑的剪辑特征,j=1,2,3,

,N2,N2表示剪 辑个数,剪辑特征的维度与帧特征维度相同;步骤S23、根据梅尔倒谱系 数将所述视频中的音频转换为声谱图以作为预训练GoogLeNet模型的输 入,再利用预训练GoogLeNet模型提取视频的音频特征v
a
={a1,a2,...,a
N3
},其中,a
k
表示视频中第k个音频的音频特征, k=1,2,3,

,N3,N3表示音频个数,音频特征的维度与帧特征维度相同;
[0008]步骤S2中提取问题特征的步骤包括:步骤S24、对问题中所有的词 进行独热编码表示,得到问题表示q={q1,q2,...,q
T
},其中,q
t
为问题中第t 个词的独热编码表示,t=1,2,3,

,T,T表示问题的长度;步骤S25、利用 预训练词嵌入模型GloVe得到词嵌入矩阵其中,|N
vocab
|表示数 据集的词汇数量,数值300表示每个词向量的特征维度;步骤S26、通过 词嵌入矩阵E将问题q嵌入到低维的连续向量空间,得到词嵌入向量 x
t
=E*q
t
,t=1,2,...,T;步骤S27、利用LSTM编码词嵌入向量得到问题的文 本特征LSTM
q
(
·
)表示处理词嵌入向量的长短期记忆网络。
[0009]进一步地,步骤S3中得到的多个具有问题指导的模态表示包括具有 问题指导的帧表示,所述具有问题指导的帧表示通过如下步骤获得:S31、 利用兼容性函数对问题特征和帧特征v
f
=(f1,f2,...,f
N1
)进行维度缩放,即将 所述问题特征和帧特征从高维特征空间映射到同一低维特征空间以进行 相似度计算,得到对应的帧向量组e
f
,每个帧向量的具体计算如下式所示:
[0010][0011]其中,使用的兼容性函数是缩放点乘函数,表示所得 帧向量组,表示帧向量组中的第i个帧向量,f
i
表示视频中第i个帧的帧 特征,i=1,2,3,

,N1,d表示预设的缩放因子;S32、利用对齐函数将所述 帧向量组e
f
中每个帧向量均转化成对应的帧注意力权重得分以得到 问题特征和帧特征相似度的归一化结果,每个帧向量对应的帧注意力权重 得分的具体计算如下式所示:
[0012][0013]其中,使用的归一化函数是softmax函数,exp(
·
)表示以自然底数e为 底的质数运算函数;S33、利用生成上下文函数将每个帧特征f
i
与其对应 的帧注意力权重得分进
行加权求和计算,以得到具有问题指导的帧表示 p
f
,如下式所示:其中,W1表示可训练的权重矩阵, b1表示可训练的偏置向量。
[0014]进一步地,步骤S3中得到的多个具有问题指导的模态表示包括具有 问题指导的剪辑表示,所述有问题指导的剪辑表示通过如下步骤获得: S34、利用兼容性函数对问题特征和剪辑特征v
c
=(c1,c2,...,c
N2
)进行维度缩 放,即将所述问题特征和剪辑特征从高维特征空间映射到同一低维特征空 间以进行相似度计算,得到对应的剪辑向量组e
c
,每个剪辑向量的具体计 算如下式所示:
[0015][0016]其中,使用的兼容性函数是缩放点乘函数,表示所得剪 辑向量组,表示剪辑向量组中的第j个剪辑向量,c
...

【技术保护点】

【技术特征摘要】
1.基于多模态渐进式注意力模型解决视频问答任务的方法,包括:步骤S1、获得待处理的视频和问题;步骤S2、提取所述视频的帧特征、剪辑特征和音频特征,作为该视频的多个模态特征,并提取所述问题的文本特征;步骤S3、分别利用问题对所述视频的多个模态特征进行关注,得到具有问题指导的多个模态表示,再利用问题分别计算各模态的权重得分,并在所述多个模态中选择权重得分最高的模态表示作为关键模态;步骤S4、根据得到的模态表示和权重得分,基于多模态融合算法将多个模态表示融合以得到所述视频的视频融合表示;步骤S5、利用问题对视频的视频融合表示进行关注,得到具有问题指导的视频融合表示;步骤S6、利用问题对关键模态的特征进行多步关注,以多轮迭代的方式定位到与问题更相关的关键模态特征;步骤S7、至少基于所述问题特征、所述具有问题指导的视频融合表示以及所述多步关注和所述多轮迭代的结果,获得预测答案。2.根据权利要求1所述的基于多模态渐进式注意力模型解决视频问答任务的方法,其特征在于,步骤S2中提取所述视频的帧特征、剪辑特征和音频特征的步骤包括:步骤S21、利用预训练ResNet模型提取所述视频的帧特征v
f
={f1,f2,...,f
N1
},其中,f
i
表示视频中第i个帧的帧特征,i=1,2,3,

,N1,N1表示帧数,d表示帧特征的维度;步骤S22、利用预训练TSN网络提取所述视频的剪辑特征v
c
={c1,c2,...,c
N2
},其中,c
j
表示视频中第j个剪辑的剪辑特征,N2表示剪辑个数,剪辑特征的维度与帧特征维度相同;步骤S23、根据梅尔倒谱系数将所述视频中的音频转换为声谱图以作为预训练GoogLeNet模型的输入,再利用预训练GoogLeNet模型提取视频的音频特征v
a
={a1,a2,...,a
N3
},其中,a
k
表示视频中第k个音频的音频特征,N3表示音频个数,音频特征的维度与帧特征维度相同;步骤S2中提取问题特征的步骤包括:步骤S24、对问题中所有词进行独热编码表示,得到问题表示q={q1,q2,...,q
T
},其中,q
t
为问题中第t个词的独热编码表示,t=1,2,...,T,T表示问题的长度;步骤S25、利用预训练词嵌入模型GloVe得到词嵌入矩阵其中,|N
vocab
|表示数据集的词汇数量,数值300表示每个词向量的特征维度;步骤S26、通过词嵌入矩阵E将问题q嵌入到低维的连续向量空间,得到词嵌入向量x
t
=E*q
t
,t=1,2,...,T;步骤S27、利用LSTM编码词嵌入向量得到问题的文本特征LSTM
q
(
·
)表示处理词嵌入向量的长短期记忆网络。3.根据权利要求1或2所述的基于多模态渐进式注意力模型解决视频问答任务的方法,
其特征在于,步骤S3中得到的多个具有问题指导的模态表示包括具有问题指导的帧表示,所述具有问题指导的帧表示通过如下步骤获得:S31、利用兼容性函数对问题特征和帧特征v
f
=(f1,f2,...,f
N1
)进行维度缩放,即将所述问题特征和帧特征从高维特征空间映射到同一低维特征空间以进行相似度计算,得到对应的帧向量组e
f
,每个帧向量的具体计算如下式所示:其中,使用的兼容性函数是缩放点乘函数,表示所得帧向量组,表示帧向量组中的第i个帧向量,f
i
表示视频中第i个帧的帧特征,i=1,2,3,

,N1,d表示预设的缩放因子;S32、利用对齐函数将所述帧向量组e
f
中每个帧向量均转化成对应的帧注意力权重得分以得到问题特征和帧特征相似度的归一化结果,每个帧向量对应的帧注意力权重得分的具体计算如下式所示:其中,使用的归一化函数是softmax函数,exp(
·
)表示以自然底数e为底的质数运算函数;S33、利用生成上下文函数将每个帧特征f
i
与其对应的帧注意力权重得分进行加权求和计算,以得到具有问题指导的帧表示p
f
,如下式所示:其中,W1表示可训练的权重矩阵,b1表示可训练的偏置向量。4.根据权利要求1

3中任一项所述的基于多模态渐进式注意力模型解决视频问答任务的方法,其特征在于,步骤S3中得到的多个具有问题指导的模态表示包括具有问题指导的剪辑表示,所述有问题指导的剪辑表示通过如下步骤获得:S34、利用兼容性函数对问题特征和剪辑特征v
c
=(c1,c2,...,c
N2
)进行维度缩放,即将所述问题特征和剪辑特征从高维特征空间映射到同一低维特征空间以进行相似度计算,得到对应的剪辑向量组e
c
,每个剪辑向量的具体计算如下式所示:其中,使用的兼容性函数是缩放点乘函数,表示所得剪辑向量组,表示剪辑向量组中的第j个剪辑向量,c
j
表示视频中第j个剪辑的剪辑特征,j=1,2,3,

,N2,d表示预设的缩放因子;S35、利用对齐函数分别将所述剪辑向量组e
c
中每个剪辑向量转化成剪辑注意力权重
得分以得到问题特征和剪辑特征相似度的归一化结果,每个剪辑向量对应的剪辑注意力权重得分的具体计算如下式所示:其中,使用的归一化函数是softmax函数,exp(
·
)表示以自然底数e为底的质数运算函数;S36、利用生成上下文函数将每个剪辑特征c
j
与其对应的剪辑注意力权重得分进行加权求和计算,以得到具有问题指导的剪辑表示p
c
,如下式所示:其中,W2表示可训练的权重矩阵,b2表示可训练的偏置向量。5.根据权利要求1

4中任一项所述的基于多模态渐进式注意力模型解决视频问答任务的方法,其特征在于,步骤S3中得到的多个具有问题指导的模态表示包括具有问题指导的音频表示,所述具有问题指导的音频表示通过如下步骤获得:S37、利用兼容性函数对问题特征和音频特征v
a
=(a1,a2,...,a
N3
)进行维度缩放,即将所述问题特征和音频特征从高维特征空间映射到同一低维特征空间以进行相似度计算,得到对应的音频向量组e
a
,每个音频向量的具体计算如下式所示:其中,使用的兼容性函数是缩放点乘函数,表示所得音频向量组,表示音频向量组中的第k个音频向量,a
...

【专利技术属性】
技术研发人员:孙广路刘昕雨梁丽丽李天麟
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1