当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于跨模态重要性感知的多视频摘要方法技术

技术编号:22238959 阅读:41 留言:0更新日期:2019-10-09 18:46
一种基于跨模态重要性感知的多视频摘要方法:将视频以帧的形式输入到卷积神经网络中,得到视频帧特征矩阵;将视频描述的文本信息进行处理,得到文本信息的特征矩阵;视频帧特征矩阵通过计算得到帧间视觉相似度矩阵;文本信息的特征矩阵通过计算得到文本间相似度矩阵;文本间相似度矩阵再通过计算得到帧间文本相似度矩阵;将帧间视觉相似度矩阵和帧间文本相似度矩阵计算融合得到联合相似度矩阵;将联合相似度矩阵与视频帧特征矩阵计算得到联合关注视频帧特征矩阵;对稀疏自编码器的隐藏层进行相似度的度量,再通过损失函数训练,生成并输出对应的多视频摘要。本发明专利技术实现了视觉和文本跨模态的重要性感知,可以充分的利用事件类别关系的信息进行多视频摘要。

A Multi-Video Summarization Method Based on Cross-modal Importance Perception

【技术实现步骤摘要】
一种基于跨模态重要性感知的多视频摘要方法
本专利技术涉及一种多视频摘要方法。特别是涉及一种基于跨模态重要性感知的多视频摘要方法。
技术介绍
随着深度学习和硬件设备的不断发展,人工智能技术的应用在越来越多的领域取得了很好的结果,例如计算机视觉。特别的,深度学习在多视频摘要的领域中的运用越来越受到重视。在基于深度学习的多视频摘要领域中,稀疏自编码器的使用较为主流。而在深度学习的神经网络模型中,卷积神经网络常用于视频帧特征的提取,而在卷积神经网络中,Vgg-16、Vgg-19和ResNet-50等较为常用。另外,在处理文本特征的方面,经常使用Word2vec的方法初始化文本特征并经过TF-IDF的词频算法进行处理。
技术实现思路
本专利技术所要解决的技术问题是,提供一种能够实现视觉和文本跨模态的重要性感知,可以充分的利用事件类别关系的信息进行多视频摘要的基于跨模态重要性感知的多视频摘要方法。本专利技术所采用的技术方案是:一种基于跨模态重要性感知的多视频摘要方法,包括如下步骤:1)将视频以帧的形式输入到卷积神经网络中,得到视频帧特征矩阵;2)将视频描述的文本信息使用Word2vec和TF-IDF进行处理,得到文本信息的特征矩阵;3)将视频帧特征矩阵通过如下公式计算得到帧间视觉相似度矩阵:其中,和分别表示第a个、第b个和第c个视频帧,Cosin表示余弦相似度函数;并将帧间视觉相似度矩阵主对角线上的值设为0;4)将文本信息的特征矩阵通过如下公式计算得到文本间相似度矩阵:其中,和分别表示第d个、第e个和第f个文本信息特征,Cosin表示余弦相似度函数;并将文本间相似度矩阵主对角线上的值设为0;将文本间相似度矩阵再通过如下公式计算得到帧间文本相似度矩阵:其中,和分别表示第a个视频帧和第b个视频帧,和分别表示第a个视频帧所在视频对应的文本信息和第b个视频帧所在视频对应的文本信息,表示第a个视频帧所在视频和第b个视频帧所在视频的文本间相似度;5)将帧间视觉相似度矩阵和帧间文本相似度矩阵通过如下公式计算融合得到联合相似度矩阵Ci:其中,表示按元素相乘;6)根据如下公式,将联合相似度矩阵Ci与的视频帧特征矩阵Ii进行计算得到联合关注视频帧特征矩阵CIi:CIi=Ci·Ii(5);7)将联合关注视频帧特征矩阵CIi作为监督信息,对稀疏自编码器的隐藏层进行相似度的度量,最终稀疏自编码器在损失函数的训练下,不断地反馈并调节稀疏自编码器的参数,在训练完成后,根据输入的视频,稀疏自编码器生成并输出对应的多视频摘要。步骤1)是按照视频的事件类型依次将视频帧输入到卷积神经网络中得到视频帧特征矩阵,其中,一共有n个事件类型,第i个事件含有yi个视频,视频帧特征矩阵含有xi个长度为L的视频帧特征向量vi。步骤2)使用Word2vec获取视频描述的文本信息的特征并用TF-IDF的词频算法对文本信息进行预处理,其中,一共有n个事件类型,第i个事件含有yi个视频的文本特征向量ti,并构成文本信息的特征矩阵步骤4)所述的文本间相似度矩阵的计算,是将第i个事件所有的文本特征向量代入公式(2)得到相似度,将计算得到的相似度组成yi×yi的文本间相似度矩阵Ti。步骤4)所述的帧间文本相似度矩阵的计算,是使用公式(3)遍历第i个事件中所有视频帧所在视频的序号,用n(·)表示,其中相同的序号表明属于同一个视频,赋值为1,不相同的序号表明不属于同一个视频,则将该视频帧对应视频的文本间相似度与1相加,并将计算结果组成xi×xi的帧间文本相似度矩阵。步骤7)所述的稀疏自编码器由两层全连接层构成的编码器和解码器以及一层隐藏层构成。本专利技术的一种基于跨模态重要性感知的多视频摘要方法,通过利用另一种模态信息,即视频的文本描述信息,实现了视觉和文本跨模态的重要性感知,可以充分的利用事件类别关系的信息进行多视频摘要。1、新颖性:首次提出了将视频文本描述信息与图像信息结合的方式,得到了一种跨模态的特征作为监督信息,进行重要性感知对多视频摘要进行约束。2、有效性:本专利技术提出的基于跨模态的重要性感知可以利用视频的文本信息,有效的找寻视频间事件类别的潜在关系。3、实用性:与找寻和输入视频相关的网络图像相比,本专利技术使用的视频文本信息获取方式和途径简单,成本更低,所以更具备实用性。进一步改善了多视频摘要技术,使视频存储数据量太大,视频查找费时费力带来的诸多问题可以得到解决。附图说明图1是本专利技术一种基于跨模态重要性感知的多视频摘要方法的流程图;图2是本专利技术中稀疏自编码器结构示意图。具体实施方式下面结合实施例和附图对本专利技术的一种基于跨模态重要性感知的多视频摘要方法做出详细说明。本专利技术的一种基于跨模态重要性感知的多视频摘要方法,涉及计算机视觉,机器学习,人工智能领域,特别是涉及深度学习中视频摘要的领域。具体的,在视频摘要的领域中又划分为单视频和多视频摘要。多视频摘要技术是对具有事件类别概念的多个视频进行关键帧的提取,从而达到压缩视频,提高存储效率以及方便查询的目的。如图1所示,本专利技术的一种基于跨模态重要性感知的多视频摘要方法,包括如下步骤:1)将视频以帧的形式输入到卷积神经网络(如Vgg-19、Vgg-16和ResNet-50)中,得到视频帧特征矩阵;是按照视频的事件类型依次将视频帧输入到卷积神经网络中得到视频帧特征矩阵,其中,一共有n个事件类型,第i个事件含有yi个视频,视频帧特征矩阵含有xi个长度为L的视频帧特征向量vi。2)将视频描述的文本信息使用Word2vec和TF-IDF进行处理,得到文本信息的特征矩阵;本专利技术使用Word2vec获取视频描述的文本信息的特征并用TF-IDF的词频算法对文本信息进行预处理,其中,一共有n个事件类型,第i个事件含有yi个视频的文本特征向量ti,并构成文本信息的特征矩阵3)将视频帧特征矩阵通过如下公式计算得到帧间视觉相似度矩阵:其中,和分别表示第a个、第b个和第c个视频帧,Cosin表示余弦相似度函数;并将帧间视觉相似度矩阵主对角线上的值设为0;4)将文本信息的特征矩阵通过如下公式计算得到文本间相似度矩阵:其中,和分别表示第d个、第e个和第f个文本信息特征,Cosin表示余弦相似度函数;并将文本间相似度矩阵主对角线上的值设为0;所述的文本间相似度矩阵的计算,是将第i个事件所有的文本特征向量代入公式(2)得到相似度,将计算得到的相似度组成yi×yi的文本间相似度矩阵Ti。将文本间相似度矩阵再通过如下公式计算得到帧间文本相似度矩阵:其中,和分别表示第a个视频帧和第b个视频帧,和分别表示第a个视频帧所在视频对应的文本信息和第b个视频帧所在视频对应的文本信息,表示第a个视频帧所在视频和第b个视频帧所在视频的文本间相似度;所述的帧间文本相似度矩阵的计算,是使用公式(3)遍历第i个事件中所有视频帧所在视频的序号,用n(·)表示,其中相同的序号表明属于同一个视频,赋值为1,不相同的序号表明不属于同一个视频,则将该视频帧对应视频的文本间相似度与1相加,并将计算结果组成xi×xi的帧间文本相似度矩阵。5)将帧间视觉相似度矩阵和帧间文本相似度矩阵通过如下公式计算融合得到联合相似度矩阵Ci:其中,表示按元素相乘;6)根据如下公式,将联合相似度矩阵Ci与的视频帧特征矩阵Ii进行计算本文档来自技高网...

【技术保护点】
1.一种基于跨模态重要性感知的多视频摘要方法,其特征在于,包括如下步骤:1)将视频以帧的形式输入到卷积神经网络中,得到视频帧特征矩阵;2)将视频描述的文本信息使用Word2vec和TF‑IDF进行处理,得到文本信息的特征矩阵;3)将视频帧特征矩阵通过如下公式计算得到帧间视觉相似度矩阵:

【技术特征摘要】
1.一种基于跨模态重要性感知的多视频摘要方法,其特征在于,包括如下步骤:1)将视频以帧的形式输入到卷积神经网络中,得到视频帧特征矩阵;2)将视频描述的文本信息使用Word2vec和TF-IDF进行处理,得到文本信息的特征矩阵;3)将视频帧特征矩阵通过如下公式计算得到帧间视觉相似度矩阵:其中,和分别表示第a个、第b个和第c个视频帧,Cosin表示余弦相似度函数;并将帧间视觉相似度矩阵主对角线上的值设为0;4)将文本信息的特征矩阵通过如下公式计算得到文本间相似度矩阵:其中,和分别表示第d个、第e个和第f个文本信息特征,Cosin表示余弦相似度函数;并将文本间相似度矩阵主对角线上的值设为0;将文本间相似度矩阵再通过如下公式计算得到帧间文本相似度矩阵:其中,和分别表示第a个视频帧和第b个视频帧,和分别表示第a个视频帧所在视频对应的文本信息和第b个视频帧所在视频对应的文本信息,表示第a个视频帧所在视频和第b个视频帧所在视频的文本间相似度;5)将帧间视觉相似度矩阵和帧间文本相似度矩阵通过如下公式计算融合得到联合相似度矩阵Ci:其中,表示按元素相乘;6)根据如下公式,将联合相似度矩阵Ci与的视频帧特征矩阵Ii进行计算得到联合关注视频帧特征矩阵CIi:CIi=Ci·Ii(5);7)将联合关注视频帧特征矩阵CIi作为监督信息,对稀疏自编码器的隐藏层进行相似度的度量,最终稀疏自编码器在损失函数的训练下,不断地反馈并调节稀疏自编码器的参数,在训练完成后,根据输入的视频,稀疏自编码器生成并输出对应的多...

【专利技术属性】
技术研发人员:冀中赵玉晓庞彦伟
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1