【技术实现步骤摘要】
基于双向卷积长短期记忆网络的动态视频摘要算法及系统
[0001]本专利技术涉及视频处理
,具体地,涉及一种基于双向卷积长短期记忆网络的动态视频摘要算法及系统。
技术介绍
[0002]随着大数据时代的到来,数字信息技术的发展使得视频成为人们获取信息的重要方式,但是,视频数据的指数型增长也为人们带来了一些困扰。面对海量视频,人们观看视频需要耗费大量时间,无法高效地捕获感兴趣的内容,而且视频数据的存储和管理压力也越来越大。所以,如何高效地浏览、检索和管理视频资源成为近年来亟需解决的热点研究课题。
[0003]视频摘要技术应运而生,是解决上述问题的有效方法,它从冗长的原始视频中提取出关键帧或关键镜头,生成简明紧凑的视频摘要。在理想情况下,视频摘要应满足两个主要目标:首先,摘要应保留原始视频的代表性结构和多样性信息,并尽可能地减少冗余,可以在最短的时间内为用户提供最大的目标视频信息;其次,摘要应与人类理解保持一致,即摘要能概括原始视频的主要内容,保留人类认为重要的信息。
[0004]公开号为CN105357594B的专利文献公开了一种基于集群及H264的视频浓缩算法的海量视频摘要生成方法,包括如下步骤:选取原始视频,并对其进行切割,得到n个长度近似相等的片段,编码格式为H264,其中n为自然数;对切割后的各片段进行视频解码,根据运动估计以及背景图来获取前景目标,并通过基于稀疏光流的误报删除及漏检修复算法,对各片段的检测率进行完善,并更新背景图;将单个包含运动信息的片段视作浓缩单元,进行压缩,压缩完成后进行 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,包括如下步骤:步骤1:提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;步骤2:对视频帧进行时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;步骤3:回归重要性分数,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;步骤4:生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数。2.根据权利要求1所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,所述步骤2中,所述ConvLSTM为LSTM的扩展,所述ConvLSTM将CNN与LSTM在模型底层结合,形成时空序列的深度学习模块,在输入到状态和状态到状态的转换中均具有卷积结构。3.根据权利要求2所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,使用ConvLSTM对每一帧的特征图进行时空建模具体为:采用了所述ConvLSTM作为核心单元,同步对视频中的时空关系进行建模,输入视频帧中提取出的特征图序列{X1,X2,
…
,X
T
}到所述ConvLSTM中,其中X
t
为所述ConvLSTM中时间为t时刻的输入,T为视频帧的数量,t=1,2,
…
,T;所述ConvLSTM通过输入门、遗忘门和输出门实现信息的保存和控制,用i
t
表示输入门的输出,f
t
表示遗忘门的输出,o
t
表示输出门的输出;在t时刻时,输入门控制了X
t
中有多少信息保存到细胞状态C
t
,遗忘门控制了上一时刻的细胞状态C
t
‑1中有多少信息保留到当前时刻C
t
中,输出门控制了当前细胞状态C
t
中有多少信息输出到当前输出值H
t
中;输入的特征图序列经过所述ConvLSTM的运算得到隐藏层状态序列{H1,H2,
…
,H
T
},细胞状态序列{C1,C2,
…
,C
T
},其中,C
t
为t时刻的细胞状态,H
t
为t时刻的隐藏层状态。4.根据权利要求3所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,具体计算公式如下:其中,W
xi
,W
hi
,W
ci
,W
xf
,W
hf
,W
cf
,W
xc
,W
技术研发人员:滕国伟,乾竞元,高伟,王嶺,
申请(专利权)人:上海文广科技集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。