【技术实现步骤摘要】
一种训练适用于视频监控设备的视频摘要方法
[0001]本专利技术涉及视频摘要
,尤其涉及一种训练适用于视频监控设备的视频摘要方法。
技术介绍
[0002]随着社交网络的发展,网络视频成为了人们获取信息重要方式。无论是学习还是工作,人们都被海量的视频包围着,寻找需要的视频往往要耗费大量的时间,那么如何在海量的视频中获取需要的视频呢?为此,视频摘要技术应运而生,它从冗长的视频中提取关键帧/关键片段,生成能够传达原始视频含义的简明概要。人们可以根据摘要快速了解视频内容,并决定是否详细观看。在理想情况下,视频摘要应该具有代表性和多样性,并且能够有效的传达原视视频的重要信息。
[0003]目前已经提出的关于视频摘要的方法主要有两类:一是基于人工标签的有监督方法,二是基于生成模型的无监督方法。基于人工标签的有监督视频摘要技术如iPTNet
[1]和FSCN
[2],它们通过深度神经网络建立视频帧之间的长期依赖关系,并且通过人工标签训练深度神经网络,使网络更关注于与人工标签更相近的部分,即使网络学习人工标签的思维。基于生成模型的无监督视频摘要技术如CSNet
[3]和GL
‑
RPE
[4],它们利用深度神经网络将视频帧嵌入到一个高维向量空间中,在向量空间中学习帧向量之间的依赖关系并计算它们的重要性,然后将加权后的结果送入生成模型,最后通过生成的视频与原始视频的相似度来衡量摘要性能。
[0004]基于人工标签的有监督视频摘要技术虽然能够生成传达原始视频含义的视频 ...
【技术保护点】
【技术特征摘要】
1.一种训练适用于视频监控设备的视频摘要方法,其特征在于:包括如下步骤:使用监控设备收集原始视频;采用帧采样策略对原始视频进行下采样处理,获取每个视频帧的特征向量,将特征向量输入至时序卷积网络建立帧之间的长期依赖关系;将获取的一系列视频帧的特征向量输入到深度摘要网络中,采用双向时序卷积和自注意力机制将视频两个方向的上下文信息进行整合,从而捕获视频帧之间的长期依赖关系;计算视频帧级重要性分数并加权原始特征序列;将加权后的视频特征输入至扩散模型中进行视频重建;采用重建损失函数、稀疏损失函数对深度摘要网络进行优化,采用负对数似然最小化函数对扩散模型进行优化;将原始视频输入特征提取模块获取视频帧的特征,通过深度摘要网络获取视频帧特征之间的长期依赖关系,分别计算视频帧级重要性分数,通过背包算法选取分数高的部分组合成视频摘要。2.根据权利要求1所述的一种训练适用于视频监控设备的视频摘要方法,其特征在于:所述原始视频包括SumMe数据集和TVSum数据集,其中数据集包括视频和对应的视频帧的重要性分数标签,所述重要性分数标签描述当前视频帧的重要性。3.根据权利要求1所述的一种训练适用于视频监控设备的视频摘要方法,其特征在于:设原始视频其中T表示视频中帧的数量,通过特征提取模块获取每一帧的特征具体方式为:通过帧采样策略,将原始视频下采样为2FPS,将下采样后的视频帧输入在ImageNet上预训练的GoogLeNet模型,并将其pool5层的输出作为视频中每一帧的视觉特征,为每一个视频帧得到特征向量,将获取的特征向量输入至时序卷积网络TCN建立帧之间的长期依赖关系。4.根据权利要求3所述的一种训练适用于视频监控设备的视频摘要方法,其特征在于:建立视频帧的之间的长期依赖关系具体采用如下方式:选取具有n层的Bi
‑
TCN网络,每个元素经过n层一维膨胀卷积和残差块处理后,将两个方向的上下文信息进行整合从而获得整个视频的全部信息,形成具有长期依赖关系的特征表示,将视频特征输入到具有n层的Bi
‑
TCN网络中,其输出表示为:f
(i)
=Bi
‑
TCN
i
(f
(i
‑
1)
,δ
i
,d
i
)其中f
(i)
与具有相同的特征维度,f
(i)
表示第i层Bi
‑
TCN输出的局部特征的长期依赖表示,初始化将原始视频特征输入到第一层双向时序卷积层,Bi
‑
TCN
i
表示第i层的双向时序卷积层,d
i
和δ
i
分别表示第i层的双向时序卷积层的膨胀因子和卷积核大小,将膨胀因子大小取值为2的指数,根据训练数据集的不同,调整I的大小,经过n层一维膨胀卷积处理后,f
(n)
为局部特征的长期依赖表示;使Self
‑
Attention模块补充视频帧之间的长期依赖关系,使用线性嵌入矩阵将Bi
‑
TCN网络输出的帧特征序列转换为Query,Key和Value,即
其中T表示视频帧的数量,...
【专利技术属性】
技术研发人员:李辉,金克,李浩然,陈荣,郭世凯,
申请(专利权)人:大连海事大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。