基于自优化机制的全卷积视频描述生成方法技术

技术编号：25051924 阅读：39 留言：0更新日期：2020-07-29 05:39

本发明专利技术具体为面向视频的跨模态视频描述生成方法。本发明专利技术包括三个主要算法部分，即视频内容理解、显著视觉信息获取、自然语言描述生成。本发明专利技术使用新型卷积神经网络为基本模型对视频数据集生产自然语言描述，而未使用传统的循环神经网络，并根据堆叠结构的特性设计全新的注意力机制，计算当前词汇与视觉表示的相关度，同时获取每个时刻最关键的视觉信息。和传统视频描述生成方法相比，本方法所关注的视觉信息更为精确，生成的自然语言描述更加准确且符合日常表达方式。这对考虑视频与文本之间的多模态信息而进行视频理解和表达具有重要意义，能够提高模型对视觉信息的理解能力，增强用户体验，在跨媒体信息理解领域具有广泛应用价值。

全部详细技术资料下载

【技术实现步骤摘要】
基于自优化机制的全卷积视频描述生成方法
本专利技术属于跨媒体生成学习
，具体涉及基于自优化机制的全卷积视频描述生成方法。技术背景随着通信和存储技术的发展，网络中视频数据不断增多。视频因其相比于图像和文字包含更大的信息量并更利于理解，这使得视频在很多时候成为一种更好的信息载体。虽然理解视频对于人类十分容易，但对于计算机完成这项工作十分困难。视频描述生成(VideoCaptioning)是一项非常重要的视觉理解任务，即为所提供的视频生成自然语言描述来描述视频的主要信息，以便通过自然语言描述可以十分简洁地了解视频所包含的语义信息。视频描述生成任务实现从视觉信息到文本信息的映射，随着视频信息的不断增加，该任务具有非常广阔的应用场景，如安防领域的异常描述、短视频评论生成、直播弹幕生成、盲人辅助、跨媒体检索与问答等。相比于图像相关任务，视频描述生成任务具有更大的挑战性，因为视频所包含的信息大部分是重复的冗余信息，包含非常重要的时序信息，且总体上当前视频的质量比图像更低，这些都给视频理解任务带来不小的难度。为更好地理解视频信息，模型不仅需要准确识别出视频中的显著对象、对象的属性、以及对象之间的关系，还需考虑对象自身随时序的变化和不同时间、不同对象之间的关系等等，最后将这些识别出来的信息进行整合，生成一个有意义的自然语言描述句子。用于生成视频描述的方法大致可以分成两类，即基于语言模板的描述生成和基于序列化学习的描述生成。基于语言模板的方法需要人为预先设定一些语言规则和模板，然后根据模型在视频中所学习到的对象在模板中

【技术保护点】
1.一种基于自优化机制的全卷积视频描述生成方法，其特征在于，具体步骤包含：/n步骤1、从多媒体数据集中采集所需要的视频数据，得到视频和所标注的视频描述；/n步骤2、对视频进行采样，提取视频帧的视觉特征与对应描述的语义特征，并分别对视觉特征与语义特征进行处理，得到背后隐藏的视觉特征与语义特征；/n步骤3、采用跨模态相关性分析算法，分析得到图像视觉特征和语义特征的相关性，并将这两种特征向量映射到同维度下的同构子空间中，构建同一向量空间的特征；/n步骤4、使用堆叠的卷积神经网络作为语义模型，接收词汇表示和经过注意力机制选择的视觉辅助信息，在每个时刻对可能生成的词汇进行排序，并选择概率最大的词汇作为下一个时刻的输入，最终生成对于视频的自然语言描述；/n步骤5、根据堆叠模型和视频包含的视觉信息，随着层数的堆叠，不断使模型关注不同层级中更为细致的视觉信息，从多个角度解析视觉信息，以实现自优化的注意力机制；/n步骤6、根据堆叠模型和提出的自优化注意力机制，高层的模型使用低层已经学习到的信息，使得高层模型找到更加准确的区域，以实现继承注意力机制。/n

【技术特征摘要】
1.一种基于自优化机制的全卷积视频描述生成方法，其特征在于，具体步骤包含：
步骤1、从多媒体数据集中采集所需要的视频数据，得到视频和所标注的视频描述；
步骤2、对视频进行采样，提取视频帧的视觉特征与对应描述的语义特征，并分别对视觉特征与语义特征进行处理，得到背后隐藏的视觉特征与语义特征；
步骤3、采用跨模态相关性分析算法，分析得到图像视觉特征和语义特征的相关性，并将这两种特征向量映射到同维度下的同构子空间中，构建同一向量空间的特征；
步骤4、使用堆叠的卷积神经网络作为语义模型，接收词汇表示和经过注意力机制选择的视觉辅助信息，在每个时刻对可能生成的词汇进行排序，并选择概率最大的词汇作为下一个时刻的输入，最终生成对于视频的自然语言描述；
步骤5、根据堆叠模型和视频包含的视觉信息，随着层数的堆叠，不断使模型关注不同层级中更为细致的视觉信息，从多个角度解析视觉信息，以实现自优化的注意力机制；
步骤6、根据堆叠模型和提出的自优化注意力机制，高层的模型使用低层已经学习到的信息，使得高层模型找到更加准确的区域，以实现继承注意力机制。

2.根据权利要求1所述的基于自优化机制的全卷积视频描述生成方法，其特征在于，所述步骤1对于一段视频通常有多个自然语言描述与之对应，整理出在整个数据集中不常出现或者无用的标注词，整理的步骤如下：
步骤1.1：统计数据集标注中所有单词在数据集中出现的频率；
步骤1.2：过滤掉单词中带有数字的无意义单词；
步骤1.3：对于每个图像标注中在整个数据集出现频率较少的单词，将其认为是图像中次要的信息，并予以删除。

3.根据权利要求1所述的基于自优化机制的全卷积视频描述生成方法，其特征在于，在步骤2进一步包含以下步骤：
步骤2.1、将视频的视觉表示根据每个视频的全局表示和局部表示，区分为两个层级，包含：视频帧全局信息、视频帧帧内区域局部信息；
步骤2.2、根据深度卷积网络的不同层级分为深层表示和浅层表示，深层表示包含更多全局信息，浅层表示包含更多细节信息。

4.根据权利要求3所述的基于自优化机制的全卷积视频描述生成方法，其特征在于，步骤3跨模态相关性分析算法的具体操作过程为,将步骤2中得到的视频视觉特征向量拼成一个视觉特征矩阵将语义特征向量拼成一个语义特征矩阵在使用不同层级的特征时n代表数据集内的n个样本视频或是一个视频内的n个视频帧；
令为视觉特征空间的向量矩阵，为语义特征空间的向量矩阵，通过求取视觉特征矩阵和语义特征矩阵的最大相关性得到其相应的空间向量矩阵；再通过线性加权方式对视觉特征与语义特征组合...

【专利技术属性】
技术研发人员：张玥杰，房琨城，周练，张涛，
申请(专利权)人：复旦大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人