一种训练适用于视频监控设备的视频摘要方法技术

技术编号:38749361 阅读:12 留言:0更新日期:2023-09-09 11:16
本发明专利技术公开了一种训练适用于视频监控设备的视频摘要方法:包括如下步骤:使用监控设备收集原始视频;采用帧采样策略对原始视频进行下采样处理,获取每个视频帧的特征向量,将特征向量输入至时序卷积网络建立帧之间的长期依赖关系;将获取的一系列视频帧的特征向量输入到深度摘要网络中,采用双向时序卷积和自注意力机制将视频两个方向的上下文信息进行整合,从而捕获视频帧之间的长期依赖关系;将原始视频输入特征提取模块获取视频帧的特征,通过深度摘要网络获取视频帧特征之间的长期依赖关系,分别计算视频帧级重要性分数,通过背包算法选取分数高的部分组合成视频摘要。背包算法选取分数高的部分组合成视频摘要。背包算法选取分数高的部分组合成视频摘要。

【技术实现步骤摘要】
一种训练适用于视频监控设备的视频摘要方法


[0001]本专利技术涉及视频摘要
,尤其涉及一种训练适用于视频监控设备的视频摘要方法。

技术介绍

[0002]随着社交网络的发展,网络视频成为了人们获取信息重要方式。无论是学习还是工作,人们都被海量的视频包围着,寻找需要的视频往往要耗费大量的时间,那么如何在海量的视频中获取需要的视频呢?为此,视频摘要技术应运而生,它从冗长的视频中提取关键帧/关键片段,生成能够传达原始视频含义的简明概要。人们可以根据摘要快速了解视频内容,并决定是否详细观看。在理想情况下,视频摘要应该具有代表性和多样性,并且能够有效的传达原视视频的重要信息。
[0003]目前已经提出的关于视频摘要的方法主要有两类:一是基于人工标签的有监督方法,二是基于生成模型的无监督方法。基于人工标签的有监督视频摘要技术如iPTNet
[1]和FSCN
[2],它们通过深度神经网络建立视频帧之间的长期依赖关系,并且通过人工标签训练深度神经网络,使网络更关注于与人工标签更相近的部分,即使网络学习人工标签的思维。基于生成模型的无监督视频摘要技术如CSNet
[3]和GL

RPE
[4],它们利用深度神经网络将视频帧嵌入到一个高维向量空间中,在向量空间中学习帧向量之间的依赖关系并计算它们的重要性,然后将加权后的结果送入生成模型,最后通过生成的视频与原始视频的相似度来衡量摘要性能。
[0004]基于人工标签的有监督视频摘要技术虽然能够生成传达原始视频含义的视频摘要,但是它的泛化能力不够强大,在真实数据集上效果往往要低于训练集,这与推广应用的目的相违背。基于生成模型的无监督视频摘要技术在此基础上进行了改进,它利用生成模型如GAN和VAE,根据摘要生成新的视频,利用生成的视频与原始视频的相似度来衡量摘要的性能,但现有的基于生成模型的方法都存在问题训练不稳定、模式崩溃等问题。

技术实现思路

[0005]根据现有技术存在的问题,本专利技术公开了一种训练适用于视频监控设备的视频摘要方法,具体包括如下步骤:
[0006]S1:使用监控设备收集原始视频;
[0007]S2:采用帧采样策略对原始视频进行下采样处理,将下采样后的视频帧送入在ImageNet上预训练的GoogLeNet模型,并将其pool5层的输出作为视频中每一帧的视觉特征,为每个视频帧得到特征向量,将特征向量输入时序卷积网络建立帧之间的长期依赖关系;
[0008]S3:将获取的一系列视频帧的特征向量输入到深度摘要网络中,采用双向时序卷积和自注意力机制将视频两个方向的上下文信息进行整合,从而捕获视频帧之间的长期依赖关系;
[0009]S4:计算视频帧级重要性分数并加权原始特征序列;
[0010]S5:将加强后的视频特征输入至扩散模型中进行视频重建;
[0011]S6:采用重建损失函数、稀疏损失函数对深度摘要网络进行优化,采用负对数似然最小化函数对扩散模型进行优化;
[0012]S7:将原始视频输入特征提取模块获取视频帧的特征,通过深度摘要网络获取视频帧特征之间的长期依赖关系,分别计算出它们的帧级重要性分数,通过背包算法选取分数高的部分组合成视频摘要。
[0013]S1中主要采用如下方式:
[0014]使用SumMe和TVSum数据集,数据包含视频和对应的视频帧的重要性分数标签,重要性分数描述当前视频帧的重要性。
[0015]S2中主要采用如下方式,
[0016]给定一个原始视频其中T表示视频中帧的数量,通过特征提取模块获取每一帧的特征具体为:
[0017]通过帧采样策略,将原始视频下采样为2FPS,将下采样后的视频帧送入在ImageNet上预训练的GoogLeNet模型,并将其pool5层的输出作为视频中每一帧的视觉特征,为每一个视频帧得到1024维的特征向量,将这些特征送入时序卷积网络TCN建立帧之间的长期依赖关系。
[0018]所述将提取的视频帧特征输入深度摘要网络,建立视频帧的之间的长期依赖关系,包括:S3中具体采用如下方式:
[0019]S31:使用双向TCN(Bi

TCN)网络初步建立视频帧之间的长期依赖关系。具体来说,给定具有n层的Bi

TCN,每个元素经过n层一维膨胀卷积以及残差块处理后,将两个方向的上下文信息进行整合,即整合整个视频的全部信息,从而形成具有长期依赖关系的特征表示;将视频特征输入到具有n层的Bi

TCN中,其输出表示为:
[0020]f
(i)
=Bi

TCN
i
(f
(i

1)

i
,d
i
)
[0021]其中f
(i)
与具有相同的特征维度,即f
(i)
表示第i层Bi

TCN输出的局部特征的长期依赖表示。首先,我们初始化即我们将原始视频特征输入到第一层双向时序卷积层,Bi

TCN
i
表示第i层的双向时序卷积层,d
i
和δ
i
分别表示第i层的双向时序卷积层的膨胀因子和卷积核大小,一般来说即我们将膨胀因子大小取值为2的指数,根据训练数据集的不同,我们会调整I的大小。经过n层一维膨胀卷积处理后,最后,f
(n)
就是我们需要的局部特征的长期依赖表示。
[0022]S32:在通过S31步骤得到每帧局部特征的长期依赖表示后,我们还使Self

Attention模块用于进一步补充视频帧之间的长期依赖关系,使视频中重要部分的部分更加突出,从而提高所生成摘要的代表性。具体来说,在计算注意力之前,我们使用线性嵌入矩阵将Bi

TCN输出的帧特征序列转换为Query,Key和Value,即
[0023][0024]其中T表示视频帧的数量,d表示特征的维度,和表示线性嵌入矩阵,也是要学习的权重。
[0025]S33:在S32步骤计算出Query,Key和Value后,进行注意力操作,从而进一步增强视频帧之间的长期依赖关系
[0026]y=softmax(QK
T
)V
[0027]其中y表示注意力操作的输出,即增强后的Bi

TCN的长期依赖表示,softmax(QK
T
)表示计算的注意力图,它衡量视频帧之间依赖关系的强弱,softmax(
·
)表示softmax激活函数。
[0028]S34:在S33步骤得到增强后的视频帧的依赖关系后,还通过残差链接保证视频帧的时间顺序属性
[0029][0030]其中表示线性嵌入矩阵,+表示残差链接,Z表示具有时间顺序属性的视频帧之间的长期依赖表示。
[0031]S本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练适用于视频监控设备的视频摘要方法,其特征在于:包括如下步骤:使用监控设备收集原始视频;采用帧采样策略对原始视频进行下采样处理,获取每个视频帧的特征向量,将特征向量输入至时序卷积网络建立帧之间的长期依赖关系;将获取的一系列视频帧的特征向量输入到深度摘要网络中,采用双向时序卷积和自注意力机制将视频两个方向的上下文信息进行整合,从而捕获视频帧之间的长期依赖关系;计算视频帧级重要性分数并加权原始特征序列;将加权后的视频特征输入至扩散模型中进行视频重建;采用重建损失函数、稀疏损失函数对深度摘要网络进行优化,采用负对数似然最小化函数对扩散模型进行优化;将原始视频输入特征提取模块获取视频帧的特征,通过深度摘要网络获取视频帧特征之间的长期依赖关系,分别计算视频帧级重要性分数,通过背包算法选取分数高的部分组合成视频摘要。2.根据权利要求1所述的一种训练适用于视频监控设备的视频摘要方法,其特征在于:所述原始视频包括SumMe数据集和TVSum数据集,其中数据集包括视频和对应的视频帧的重要性分数标签,所述重要性分数标签描述当前视频帧的重要性。3.根据权利要求1所述的一种训练适用于视频监控设备的视频摘要方法,其特征在于:设原始视频其中T表示视频中帧的数量,通过特征提取模块获取每一帧的特征具体方式为:通过帧采样策略,将原始视频下采样为2FPS,将下采样后的视频帧输入在ImageNet上预训练的GoogLeNet模型,并将其pool5层的输出作为视频中每一帧的视觉特征,为每一个视频帧得到特征向量,将获取的特征向量输入至时序卷积网络TCN建立帧之间的长期依赖关系。4.根据权利要求3所述的一种训练适用于视频监控设备的视频摘要方法,其特征在于:建立视频帧的之间的长期依赖关系具体采用如下方式:选取具有n层的Bi

TCN网络,每个元素经过n层一维膨胀卷积和残差块处理后,将两个方向的上下文信息进行整合从而获得整个视频的全部信息,形成具有长期依赖关系的特征表示,将视频特征输入到具有n层的Bi

TCN网络中,其输出表示为:f
(i)
=Bi

TCN
i
(f
(i

1)

i
,d
i
)其中f
(i)
与具有相同的特征维度,f
(i)
表示第i层Bi

TCN输出的局部特征的长期依赖表示,初始化将原始视频特征输入到第一层双向时序卷积层,Bi

TCN
i
表示第i层的双向时序卷积层,d
i
和δ
i
分别表示第i层的双向时序卷积层的膨胀因子和卷积核大小,将膨胀因子大小取值为2的指数,根据训练数据集的不同,调整I的大小,经过n层一维膨胀卷积处理后,f
(n)
为局部特征的长期依赖表示;使Self

Attention模块补充视频帧之间的长期依赖关系,使用线性嵌入矩阵将Bi

TCN网络输出的帧特征序列转换为Query,Key和Value,即
其中T表示视频帧的数量,...

【专利技术属性】
技术研发人员:李辉金克李浩然陈荣郭世凯
申请(专利权)人:大连海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1