当前位置: 首页 > 专利查询>复旦大学专利>正文

基于自优化机制的全卷积视频描述生成方法技术

技术编号:25051924 阅读:28 留言:0更新日期:2020-07-29 05:39
本发明专利技术具体为面向视频的跨模态视频描述生成方法。本发明专利技术包括三个主要算法部分,即视频内容理解、显著视觉信息获取、自然语言描述生成。本发明专利技术使用新型卷积神经网络为基本模型对视频数据集生产自然语言描述,而未使用传统的循环神经网络,并根据堆叠结构的特性设计全新的注意力机制,计算当前词汇与视觉表示的相关度,同时获取每个时刻最关键的视觉信息。和传统视频描述生成方法相比,本方法所关注的视觉信息更为精确,生成的自然语言描述更加准确且符合日常表达方式。这对考虑视频与文本之间的多模态信息而进行视频理解和表达具有重要意义,能够提高模型对视觉信息的理解能力,增强用户体验,在跨媒体信息理解领域具有广泛应用价值。

【技术实现步骤摘要】
基于自优化机制的全卷积视频描述生成方法
本专利技术属于跨媒体生成学习
,具体涉及基于自优化机制的全卷积视频描述生成方法。技术背景随着通信和存储技术的发展,网络中视频数据不断增多。视频因其相比于图像和文字包含更大的信息量并更利于理解,这使得视频在很多时候成为一种更好的信息载体。虽然理解视频对于人类十分容易,但对于计算机完成这项工作十分困难。视频描述生成(VideoCaptioning)是一项非常重要的视觉理解任务,即为所提供的视频生成自然语言描述来描述视频的主要信息,以便通过自然语言描述可以十分简洁地了解视频所包含的语义信息。视频描述生成任务实现从视觉信息到文本信息的映射,随着视频信息的不断增加,该任务具有非常广阔的应用场景,如安防领域的异常描述、短视频评论生成、直播弹幕生成、盲人辅助、跨媒体检索与问答等。相比于图像相关任务,视频描述生成任务具有更大的挑战性,因为视频所包含的信息大部分是重复的冗余信息,包含非常重要的时序信息,且总体上当前视频的质量比图像更低,这些都给视频理解任务带来不小的难度。为更好地理解视频信息,模型不仅需要准确识别出视频中的显著对象、对象的属性、以及对象之间的关系,还需考虑对象自身随时序的变化和不同时间、不同对象之间的关系等等,最后将这些识别出来的信息进行整合,生成一个有意义的自然语言描述句子。用于生成视频描述的方法大致可以分成两类,即基于语言模板的描述生成和基于序列化学习的描述生成。基于语言模板的方法需要人为预先设定一些语言规则和模板,然后根据模型在视频中所学习到的对象在模板中进行填充,并得到最终的描述。但该方法由于大部分规则都是人为设定,导致最大的问题就是生成的句子不准确并句子形式比较固定,未能很好地发挥出深度学习的能力。当前大部分工作使用的都是基于序列化学习的描述生成。由于近年来深度学习技术的不断进步,卷积神经网络在视觉信息理解任务上和循环神经网络在序列化任务上都取得十分优异的效果,因此序列化学习的描述生成通常使用编码器-解码器的模型架构。在编码器部分,模型使用卷积神经网络来处理视觉信息并将最终的输出传递给解码器;在解码器部分,根据编码器传递来的视觉信息依靠循环神经网络长时记忆的特性,生成最终的视频描述。当前的序列化学习模型都是基于上述结构,该结构中最重要的一个环节就是作为序列化处理和生成的循环神经网络。但由于这些结构对于循环神经网络的依赖,导致其都有着循环神经网络的缺点。随着循环神经网络应用的不断加深,也发现诸多循环神经网络在视频描述生成任务中的问题。循环神经网络对序列化任务有着很好的效果,但其计算单元十分复杂,由于时序展开导致梯度在循环神经网络中的传递路径很长,且由于循环网络的计算单元十分复杂并在每个时刻需要前一时刻的输出作为当前输入,导致循环神经网络在训练时无法并行。上述这些问题都使得对于循环神经网络的训练变得十分困难并需要大量时间,这使得研究人员寻找不使用循环网络的模型结构来解决序列化问题,并已取得较大突破。为解决在视频描述生成的任务中所存在的上述缺陷,最终生成更加精确的语言描述,需要解决以下关键问题:(1)抛弃循环神经网络后,应该怎样构建语义模型,使得新提出的架构能够在减小训练难度的同时保证充分考虑时序信息的作用,最终生成出更加优良的语言描述;(2)在对传统的编码器-解码器的结构进行修改后,怎样设计出新的注意力权重计算机制来匹配新的模型结构,使得模型可以在每个时刻关注于当前和输入词汇最匹配的视觉信息。为此,非常有必要借鉴当前相关领域的前沿技术,同时从各个方面考虑以上问题,更加全面地分析与计算视觉信息和语义信息之间的相关度,生成更加精准的语义描述。本专利技术就是由此激发,从局部到整体,设计包含三个主要算法的一种新颖的技术框架,使用卷积神经网络作为语义模型和相关的视觉/语义特征提取方法,提出全新的视频描述模型,针对视频生成更好的语义内容表达。
技术实现思路
本专利技术的目的在于提出一种针对于视频的基于自优化机制的全卷积视频描述生成方法,以提升所生成语言描述的质量。本专利技术的具体步骤包含:步骤1、从多媒体数据集中采集所需要的视频数据,得到视频和所标注的视频描述;步骤2、对视频进行采样,提取视频帧的视觉特征与对应描述的语义特征,并分别对视觉特征与语义特征进行处理,得到背后隐藏的视觉特征与语义特征;步骤3、采用跨模态相关性分析算法,分析得到图像视觉特征和语义特征的相关性,并将这两种特征向量映射到同维度下的同构子空间中,构建同一向量空间的特征;步骤4、使用堆叠的卷积神经网络作为语义模型,接收词汇表示和经过注意力机制选择的视觉辅助信息,在每个时刻对可能生成的词汇进行排序,并选择概率最大的词汇作为下一个时刻的输入,最终生成对于视频的自然语言描述;步骤5、根据堆叠模型和视频包含的视觉信息,随着层数的堆叠,不断使模型关注不同层级中更为细致的视觉信息,从多个角度解析视觉信息,以实现自优化的注意力机制;步骤6、根据堆叠模型和提出的自优化注意力机制,高层的模型使用低层已经学习到的信息,使得高层模型找到更加准确的区域,以实现继承注意力机制。优选地,所述步骤1对于一段视频通常有多个自然语言描述与之对应,整理出在整个数据集中不常出现或者无用的标注词,整理的步骤如下:步骤1.1:统计数据集标注中所有单词在数据集中出现的频率;步骤1.2:过滤掉单词中带有数字的无意义单词;步骤1.3:对于每个图像标注中在整个数据集出现频率较少的单词,将其认为是图像中次要的信息,并予以删除。优选地,在步骤2进一步包含以下步骤:步骤2.1、将视频的视觉表示根据每个视频的全局表示和局部表示,区分为两个层级,包含:视频帧全局信息、视频帧帧内区域局部信息;步骤2.2、根据深度卷积网络的不同层级分为深层表示和浅层表示,深层表示包含更多全局信息,浅层表示包含更多细节信息。优选地,步骤3跨模态相关性分析算法的具体操作过程为,将步骤2中得到的视频视觉特征向量拼成一个视觉特征矩阵将语义特征向量拼成一个语义特征矩阵在使用不同层级的特征时n代表数据集内的n个样本视频或是一个视频内的n个视频帧;令为视觉特征空间的向量矩阵,为语义特征空间的向量矩阵,通过求取视觉特征矩阵和语义特征矩阵的最大相关性得到其相应的空间向量矩阵;再通过线性加权方式对视觉特征与语义特征组合后,得到最终的跨模态相关性特征矩阵。优选地,在步骤4中,使用堆叠的一维卷积模型作为语义模型;每一层的卷积网络根据卷积核的大小接收k个词向量作为输入,并输出包含所有输入信息的向量;随着堆叠层数的增加,高层卷积的输出将包含输入句子的所有信息,并最终生成当前时刻的词汇。优选地,所述步骤5中,对于视频所包含的视觉信息,将其分为视频帧层级和帧内区域层级;其中低层的堆叠模型关注视频帧层级信息,在高层的堆叠模型关注帧内区域层级信息;所述视频帧层级的信息关注于时间信息和全局视觉信息,帧内区域层级的信息关注于空间和局部视觉信息;...

【技术保护点】
1.一种基于自优化机制的全卷积视频描述生成方法,其特征在于,具体步骤包含:/n步骤1、从多媒体数据集中采集所需要的视频数据,得到视频和所标注的视频描述;/n步骤2、对视频进行采样,提取视频帧的视觉特征与对应描述的语义特征,并分别对视觉特征与语义特征进行处理,得到背后隐藏的视觉特征与语义特征;/n步骤3、采用跨模态相关性分析算法,分析得到图像视觉特征和语义特征的相关性,并将这两种特征向量映射到同维度下的同构子空间中,构建同一向量空间的特征;/n步骤4、使用堆叠的卷积神经网络作为语义模型,接收词汇表示和经过注意力机制选择的视觉辅助信息,在每个时刻对可能生成的词汇进行排序,并选择概率最大的词汇作为下一个时刻的输入,最终生成对于视频的自然语言描述;/n步骤5、根据堆叠模型和视频包含的视觉信息,随着层数的堆叠,不断使模型关注不同层级中更为细致的视觉信息,从多个角度解析视觉信息,以实现自优化的注意力机制;/n步骤6、根据堆叠模型和提出的自优化注意力机制,高层的模型使用低层已经学习到的信息,使得高层模型找到更加准确的区域,以实现继承注意力机制。/n

【技术特征摘要】
1.一种基于自优化机制的全卷积视频描述生成方法,其特征在于,具体步骤包含:
步骤1、从多媒体数据集中采集所需要的视频数据,得到视频和所标注的视频描述;
步骤2、对视频进行采样,提取视频帧的视觉特征与对应描述的语义特征,并分别对视觉特征与语义特征进行处理,得到背后隐藏的视觉特征与语义特征;
步骤3、采用跨模态相关性分析算法,分析得到图像视觉特征和语义特征的相关性,并将这两种特征向量映射到同维度下的同构子空间中,构建同一向量空间的特征;
步骤4、使用堆叠的卷积神经网络作为语义模型,接收词汇表示和经过注意力机制选择的视觉辅助信息,在每个时刻对可能生成的词汇进行排序,并选择概率最大的词汇作为下一个时刻的输入,最终生成对于视频的自然语言描述;
步骤5、根据堆叠模型和视频包含的视觉信息,随着层数的堆叠,不断使模型关注不同层级中更为细致的视觉信息,从多个角度解析视觉信息,以实现自优化的注意力机制;
步骤6、根据堆叠模型和提出的自优化注意力机制,高层的模型使用低层已经学习到的信息,使得高层模型找到更加准确的区域,以实现继承注意力机制。


2.根据权利要求1所述的基于自优化机制的全卷积视频描述生成方法,其特征在于,所述步骤1对于一段视频通常有多个自然语言描述与之对应,整理出在整个数据集中不常出现或者无用的标注词,整理的步骤如下:
步骤1.1:统计数据集标注中所有单词在数据集中出现的频率;
步骤1.2:过滤掉单词中带有数字的无意义单词;
步骤1.3:对于每个图像标注中在整个数据集出现频率较少的单词,将其认为是图像中次要的信息,并予以删除。


3.根据权利要求1所述的基于自优化机制的全卷积视频描述生成方法,其特征在于,在步骤2进一步包含以下步骤:
步骤2.1、将视频的视觉表示根据每个视频的全局表示和局部表示,区分为两个层级,包含:视频帧全局信息、视频帧帧内区域局部信息;
步骤2.2、根据深度卷积网络的不同层级分为深层表示和浅层表示,深层表示包含更多全局信息,浅层表示包含更多细节信息。


4.根据权利要求3所述的基于自优化机制的全卷积视频描述生成方法,其特征在于,步骤3跨模态相关性分析算法的具体操作过程为,将步骤2中得到的视频视觉特征向量拼成一个视觉特征矩阵将语义特征向量拼成一个语义特征矩阵在使用不同层级的特征时n代表数据集内的n个样本视频或是一个视频内的n个视频帧;
令为视觉特征空间的向量矩阵,为语义特征空间的向量矩阵,通过求取视觉特征矩阵和语义特征矩阵的最大相关性得到其相应的空间向量矩阵;再通过线性加权方式对视觉特征与语义特征组合...

【专利技术属性】
技术研发人员:张玥杰房琨城周练张涛
申请(专利权)人:复旦大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1