基于双向卷积长短期记忆网络的动态视频摘要算法及系统技术方案

技术编号:34771771 阅读:23 留言:0更新日期:2022-08-31 19:34
本发明专利技术提供了一种基于双向卷积长短期记忆网络的动态视频摘要算法及系统,包括如下步骤:使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征;使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数。本发明专利技术提出了端到端的基于双向卷积长短期记忆动态视频摘要网络,具有监督的编码器

【技术实现步骤摘要】
基于双向卷积长短期记忆网络的动态视频摘要算法及系统


[0001]本专利技术涉及视频处理
,具体地,涉及一种基于双向卷积长短期记忆网络的动态视频摘要算法及系统。

技术介绍

[0002]随着大数据时代的到来,数字信息技术的发展使得视频成为人们获取信息的重要方式,但是,视频数据的指数型增长也为人们带来了一些困扰。面对海量视频,人们观看视频需要耗费大量时间,无法高效地捕获感兴趣的内容,而且视频数据的存储和管理压力也越来越大。所以,如何高效地浏览、检索和管理视频资源成为近年来亟需解决的热点研究课题。
[0003]视频摘要技术应运而生,是解决上述问题的有效方法,它从冗长的原始视频中提取出关键帧或关键镜头,生成简明紧凑的视频摘要。在理想情况下,视频摘要应满足两个主要目标:首先,摘要应保留原始视频的代表性结构和多样性信息,并尽可能地减少冗余,可以在最短的时间内为用户提供最大的目标视频信息;其次,摘要应与人类理解保持一致,即摘要能概括原始视频的主要内容,保留人类认为重要的信息。
[0004]公开号为CN105357594B的专利文献公开了一种基于集群及H264的视频浓缩算法的海量视频摘要生成方法,包括如下步骤:选取原始视频,并对其进行切割,得到n个长度近似相等的片段,编码格式为H264,其中n为自然数;对切割后的各片段进行视频解码,根据运动估计以及背景图来获取前景目标,并通过基于稀疏光流的误报删除及漏检修复算法,对各片段的检测率进行完善,并更新背景图;将单个包含运动信息的片段视作浓缩单元,进行压缩,压缩完成后进行拼接,生成一段完整的视频摘要。但是该专利文献与本申请的技术方案不同。

技术实现思路

[0005]针对现有技术中的缺陷,本专利技术的目的是提供一种基于双向卷积长短期记忆网络的动态视频摘要算法及系统。
[0006]根据本专利技术提供的一种基于双向卷积长短期记忆网络的动态视频摘要算法,包括如下步骤:
[0007]步骤1:提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;
[0008]步骤2:对视频帧进行时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;
[0009]步骤3:回归重要性分数,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;
[0010]步骤4:生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数。
[0011]优选的,所述步骤2中,所述ConvLSTM为LSTM的扩展,所述ConvLSTM将CNN与LSTM在模型底层结合,形成时空序列的深度学习模块,在输入到状态和状态到状态的转换中均具有卷积结构。
[0012]优选的,使用ConvLSTM对每一帧的特征图进行时空建模具体为:
[0013]采用了所述ConvLSTM作为核心单元,同步对视频中的时空关系进行建模,输入视频帧中提取出的特征图序列{X1,X2,

,X
T
}到所述ConvLSTM中,其中X
t
为所述ConvLSTM中时间为t时刻的输入,T为视频帧的数量,t=1,2,

,T;
[0014]所述ConvLSTM通过输入门、遗忘门和输出门实现信息的保存和控制,用i
t
表示输入门的输出,f
t
表示遗忘门的输出,o
t
表示输出门的输出;
[0015]在t时刻时,输入门控制了X
t
中有多少信息保存到细胞状态C
t
,遗忘门控制了上一时刻的细胞状态C
t
‑1中有多少信息保留到当前时刻C
t
中,输出门控制了当前细胞状态C
t
中有多少信息输出到当前输出值H
t
中;
[0016]输入的特征图序列经过所述ConvLSTM的运算得到隐藏层状态序列{H1,H2,

,H
T
},细胞状态序列{C1,C2,

,C
T
},其中,C
t
为t时刻的细胞状态,H
t
为t时刻的隐藏层状态。
[0017]优选的,具体计算公式如下:
[0018][0019]其中,W
xi
,W
hi
,W
ci
,W
xf
,W
hf
,W
cf
,W
xc
,W
hc
,W
xo
,W
ho
和W
co
是所述ConvLSTM中待训练的权重参数,b
i
,b
f
,b
c
和b
o
是所述ConvLSTM中待训练的偏置项,tanh是双曲正切函数,σ是sigmoid函数,“*”代表卷积操作,
“☉”
代表哈达玛乘积。
[0020]优选的,所述步骤2中,所述ConvLSTM包括前向LSTM和后向LSTM;
[0021]所述前向LSTM在过去方向上建立长期依赖关系,所述后向LSTM在未来方向上建立长期依赖关系;
[0022]所述前向LSTM和所述后向LSTM在编码信息的过程中相互独立。
[0023]优选的,所述步骤3具体为:
[0024]将和拼接为双向隐藏状态向量并输入全连接层,然后,经过非线性映射层输出该帧t时刻的重要性分数y
t
,其中,为t时刻所述前向LSTM的输出,为t时刻所述后向LSTM的输出。
[0025]优选的,
[0026][0027]其中,W
u
为网络中待训练的参数权重,b
u
为待训练的偏置项,为前向LSTM的输出,为后向LSTM的输出,σ为sigmoid函数。
[0028]优选的,所述步骤4具体为:
[0029]采用核时间分割方法检测场景变化点,将原始视频分割为若干个不相交的镜头,
并根据帧级重要性分数计算镜头级重要性分数s
i
,然后,根据背包算法选择关键镜头,并限制摘要的长度不超过原视频的15%,最后,将算法选择的关键镜头按顺序拼接组成动态摘要视频。
[0030]优选的,
[0031][0032][0033]其中是第i个镜头中第f帧的重要性分数,l
i
是第i个镜头的总帧数,L为原始视频总长度,K为镜头个数,a
i
为选择系数,a
i
=1表示第i个镜头被选为关键镜头。
[0034]本专利技术还本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,包括如下步骤:步骤1:提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;步骤2:对视频帧进行时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;步骤3:回归重要性分数,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;步骤4:生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数。2.根据权利要求1所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,所述步骤2中,所述ConvLSTM为LSTM的扩展,所述ConvLSTM将CNN与LSTM在模型底层结合,形成时空序列的深度学习模块,在输入到状态和状态到状态的转换中均具有卷积结构。3.根据权利要求2所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,使用ConvLSTM对每一帧的特征图进行时空建模具体为:采用了所述ConvLSTM作为核心单元,同步对视频中的时空关系进行建模,输入视频帧中提取出的特征图序列{X1,X2,

,X
T
}到所述ConvLSTM中,其中X
t
为所述ConvLSTM中时间为t时刻的输入,T为视频帧的数量,t=1,2,

,T;所述ConvLSTM通过输入门、遗忘门和输出门实现信息的保存和控制,用i
t
表示输入门的输出,f
t
表示遗忘门的输出,o
t
表示输出门的输出;在t时刻时,输入门控制了X
t
中有多少信息保存到细胞状态C
t
,遗忘门控制了上一时刻的细胞状态C
t
‑1中有多少信息保留到当前时刻C
t
中,输出门控制了当前细胞状态C
t
中有多少信息输出到当前输出值H
t
中;输入的特征图序列经过所述ConvLSTM的运算得到隐藏层状态序列{H1,H2,

,H
T
},细胞状态序列{C1,C2,

,C
T
},其中,C
t
为t时刻的细胞状态,H
t
为t时刻的隐藏层状态。4.根据权利要求3所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,具体计算公式如下:其中,W
xi
,W
hi
,W
ci
,W
xf
,W
hf
,W
cf
,W
xc
,W

【专利技术属性】
技术研发人员:滕国伟乾竞元高伟王嶺
申请(专利权)人:上海文广科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1