一种基于并行解码的端到端密集视频字幕生成方法技术

技术编号:39408202 阅读:9 留言:0更新日期:2023-11-19 16:00
本发明专利技术公开了一种基于并行解码的端到端密集视频字幕生成方法,提出的语义上下文化网络使用语言信息将视觉内容上下文化,改进了之前的仅依靠视觉内容来编码视觉特征。通过并行预测头同时执行事件个数预测、事件定位和字幕生成,略去了先前模型利用先验阈值进行事件提案划分的步骤,从而在保证字幕生成准确性的条件下大大降低了计算复杂度。此外,通过表示组织器组织编码的视频特征和多栈交叉注意,缓解了现有并行体系架构方法在分支点处的瓶颈问题。题。题。

【技术实现步骤摘要】
一种基于并行解码的端到端密集视频字幕生成方法


[0001]本专利技术属于计算机视觉、自然语言处理等领域,具体涉及一种基于并行解码的端到端密集视频字幕生成方法。

技术介绍

[0002]在如今的大数据时代,人类生活的方方面面都离不开形态各异的多媒体数据。这些多媒体数据充斥着各大社交网站、视频网站以及交通、教学、医疗等各个领域,主要包括文本、图像、音频、视频等。其中,视频是一个丰富而复杂的信息来源,在很多情况下,视频都是增强人类互动和交流的首选手段。因此,对于视频的理解是促进人类信息交换以及文明进步的重要动力,而视频描述则是不可或缺的组成部分。对于内容较为复杂的视频,生成简单的单句描述难以对其进行较为完整的表达,尤其是在面向真实场景的应用中,需为其生成更为全面而详细的多句描述,因此密集视频字幕生成任务应运而生。密集视频字幕是对于给定的内容更为复杂、变化更为丰富的视频,使用模型算法为其中的多个语义片段分别生成语句描述。
[0003]现有的工作通常采用“事件提案

字幕生成”的串联式两阶段方案,该方案的性能高度依赖于生成的事件提案的质量,将字幕生成视为下游任务,限制了两个子任务的相互促进。

技术实现思路

[0004]本专利技术的目的在于克服上述不足,提供一种基于并行解码的端到端密集视频字幕生成方法,能够确保生成的视频字幕准确性的前提下使两个子任务深度关联和相互促进。
[0005]本专利技术的一种基于并行解码的端到端密集视频字幕生成方法,该方法包括以下步骤:
[0006]将视觉内容置于语义上下文化网络学习的共享高级语义空间中;
[0007]利用描述符转换器对语义上下文化网络激活的神经元时序信号进行时间信息编码;
[0008]将时间信息编码作为指导,引入一个表示组织器,在视频的时空上下文中组织关键的编码视频特征,作为事件个数预测、事件定位和字幕生成的中间信息;
[0009]使用三个并行头进行事件个数预测、事件定位以及字幕生成,最终生成视频字幕。
[0010]语义上下文化网络的具体方法如下:
[0011]语义上下文化网络来学习在视频的视觉内容和字幕语义空间上联合定义的表示,将视频视觉内容映射到视频字幕中语义概念的定量表示。为了表示语义概念,使用预先训练的Sent2Vec模型,分别针对推特、维基百科句子和多伦多图书语料库。该模型为词汇表V中的每个单词w学习一个源嵌入εw,嵌入维数为H。句子嵌入计算为用元语法和n元语法学习组成词的嵌入的平均值;
[0012]用K聚类对计算出的嵌入进行聚类以形成语义码本,其中聚类的质心对应于视频
字幕中的抽象流行概念。使用聚类的指数作为语义上下文化网络的监督训练的代理标签。语义上下文化网络被设计成以非线性方式学习与视频相关联的语义,并且在部署时将视觉表示映射到代理标签。
[0013]描述符转换器的具体方法如下:
[0014]短时傅立叶变换无需训练即可捕获时间序列数据的时间动态,并允许模型同时实现竞争性能。在应用神经流时间长度、层次结构和系数分布方面的不同设置中使用傅立叶变换,将视觉流转换为描述符向量,捕捉其时间动态。馈送δ帧序列的时间序列激活来构造描述符向量。
[0015]表示组织器的具体方法如下:
[0016]表示组织器在视频的时空上下文中组织关键的编码视频特征,并使用它们作为事件定位和句子生成的中间信息。表示组织器的目标是提取视频中显著时间区域的表示,同时隐含地产生所有潜在事件。具体地,给定视频V,表示组织器输出考虑整个视频故事的多个表示H
o
。随后,每个表示充当事件的核心信息,从而产生高质量的事件定位和字幕。
[0017]事件个数预测采用事件个数预测头,具体方法如下:
[0018]将编码的视频特征的最显着信息压缩为全局特征向量,然后运用全连接层预测一个固定大小的向量r
len
,其中每一个值代表着事件个数为该值的概率;
[0019]预测事件数由N
set
=argmax(r
len
)获得,通过从N个事件查询中选择具有准确边界和良好标题的顶部N
set
事件来获得最终输出。
[0020]事件定位采用事件提案定位头,具体方法如下:
[0021]事件提案定位头旨在对每个编码的视频特征生成框预测以及进行二分类,框预测的作用是为每个编码的视频特征预测其起始位置;二分类则为每个编码的视频特征预测其前景置信度,这两部分预测都是由多层感知器实现的;
[0022]之后,得到一组元组来表示检测到的事件,其中表示事件提案的起止时间,是事件查询的定位置信度。
[0023]字幕生成采用字幕生成头,具体方法如下:
[0024]基于变压器解码器,引用多个隐藏状态的多栈交叉注意模块,将视觉隐藏状态H
v
和有组织的表示H
o
输入到交叉注意模块中,通过堆叠将多头注意力模块顺序地应用于两个或更多的隐藏状态。
[0025]与现有技术相比,本专利技术提出了一个并行解码的密集视频字幕生成方法,通过并行预测头同时执行事件个数预测、事件定位和字幕生成,略去了先前模型利用先验阈值进行事件提案划分的步骤,从而在保证字幕生成准确性的条件下大大降低了计算复杂度。提出的语义上下文化网络使用语言信息将视觉内容上下文化,改进了之前的仅依靠视觉内容来编码视觉特征。此外,通过表示组织器组织编码的视频特征和多栈交叉注意,缓解了现有并行体系架构方法在分支点处的瓶颈问题。
附图说明
[0026]图1是本专利技术中语义上下文化网络的流程图;
[0027]图2是本专利技术中表示组织器的流程图;
[0028]图3是本专利技术的一种基于并行解码的端到端密集视频字幕的流程图。
具体实施方式
[0029]下面结合附图对本专利技术做进一步说明。
[0030]参见图1,语义上下文化网络的实现方法:
[0031]语义上下文化网络来学习在视频的视觉内容和字幕语义空间上联合定义的表示,将视频视觉内容映射到视频字幕中语义概念的定量表示。为了表示语义概念,使用预先训练的Sent2Vec模型,分别针对推特、维基百科句子和多伦多图书语料库。该模型为词汇表V中的每个单词w学习一个源嵌入εω,嵌入维数为H。句子嵌入计算为用元语法和n元语法(即n=2,3,4)学习组成词的嵌入的平均值。形式上,给定标题的嵌入ε
c
被建模为:
[0032][0033]其中L(s)是n元语法的列表,包括字幕中存在的元语法,β∈R
H
×
|V|
表示对给定字幕进行编码的二进制向量。单词嵌入的简单算术组合(例如求和、均值)是当前最流行的用于获得字幕文献中n元语法或句子矢量表示的方法。但本文中使用Sent2Vec,因为该算法的特征在于其低计算复杂度,同时在广泛的评估任务上表现出良好的性能。
[0034]用K聚类对计算出的嵌入进行聚类以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于并行解码的端到端密集视频字幕生成方法,其特征在于,包括以下步骤:将视觉内容置于语义上下文化网络学习的共享高级语义空间中;利用描述符转换器对语义上下文化网络激活的神经元时序信号进行时间信息编码;将时间信息编码作为指导,引入一个表示组织器,在视频的时空上下文中组织关键的编码视频特征,作为事件个数预测、事件定位和字幕生成的中间信息;使用三个并行头进行事件个数预测、事件定位以及字幕生成,最终生成视频字幕。2.根据权利要求1所述的一种基于并行解码的端到端密集视频字幕生成方法,其特征在于,将视觉内容置于语义上下文化网络学习的共享高级语义空间中,语义上下文化网络的具体方法如下:学习在视频的视觉内容和字幕语义空间上联合定义的表示,将视频视觉内容映射到视频字幕中语义概念的定量表示,为了表示语义概念,使用预先训练的Sent2Vec模型,分别针对推特、维基百科句子和多伦多图书语料库,该模型为词汇表V中的每个单词w学习一个源嵌入εω,嵌入维数为H,句子嵌入计算为用元语法和n元语法学习组成词的嵌入的平均值;用K聚类对计算出的嵌入进行聚类以形成语义码本,其中聚类的质心对应于视频字幕中的抽象流行概念,使用聚类的指数作为语义上下文化网络的监督训练的代理标签,语义上下文化网络被设计成以非线性方式学习与视频相关联的语义,并且在部署时将视觉表示映射到代理标签。3.根据权利要求1所述的一种基于并行解码的端到端密集视频字幕生成方法,其特征在于,利用描述符转换器对语义上下文化网络激活的神经元时序信号进行时间信息编码的具体方法如下:短时傅立叶变换无需训练即可捕获时间序列数据的时间动态,并允许模型同时实现竞争性能,在应用神经流时间长度、层次结构和系数分布方面的不同设置中使用傅立叶变换,将视觉流转换为描述符向量,捕捉其时间动态,馈送δ帧序列的时间序列激活来构造描述符向量。4.根据权利要求1所述的一种基于并行解码的端到端密集视频字幕生成方法,其特征在于,将时间信息编码作为指导,引入一个表示组织器...

【专利技术属性】
技术研发人员:杨微微刘斌
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1