基于混合孪生掩码自动编码器的无监督视频摘要方法及系统技术方案

技术编号：41362807 阅读：5 留言：0更新日期：2024-05-20 10:11

本发明专利技术公开了一种基于混合孪生掩码自动编码器的无监督视频摘要方法及系统，本方法通过掩码后恢复镜头的方式，直接量化视频中每个镜头的重要性，提升镜头重要性评估的准确性，和人工摘要的拟合结果相比优于现有的其它先进算法，有效解决了以往基于生成对抗模型的无监督视频摘要方法训练不稳定的问题，使得生成的摘要结果更加稳定，且本方法模型训练不依赖于复杂的人工注释，和有监督方法相比具有更强的可行性，可以有效运用在视频分类、检索等领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于视频摘要生成，涉及一种基于混合孪生掩码自动编码器的无监督视频摘要方法及系统。

技术介绍

1、伴随着视频分享平台的发展和移动设备的普及，网络上流传的视频数量呈现了爆炸式的增长，如何快速的对海量的视频进行检索、理解和管理成为了迫切的需求。而视频摘要技术正是满足这一需求的关键技术，视频摘要技术是利用视频分析的相关技术，从原始的视频数据中选取具有代表性的部分生成紧凑的摘要，使得用户可以通过摘要快速理解原视频的主要内容。视频摘要方法主要包括两种形式：基于关键帧的静态视频摘要和基于关键镜头的动态视频摘要。

2、近年来，随着深度学习技术的兴起，使用深度学习的研究方法也在视频摘要研究上得到广泛应用。大多数的视频摘要方法总是首先使用kts算法将视频分割成镜头，然后预测每个镜头中的帧重要性分数，并将这些分数组合起来以确定镜头重要性分数。最后，使用0-1背包算法提取关键镜头作为视频摘要。然而，在没有充分利用视频的时间和空间上下文语义的情况下，将镜头重要性得分视为相应帧重要性得分的集合可能是不准确的。

3、此外，有监督方法通过使用原始视频和人工创建的摘要标注作为训练数据，来训练模型识别重要的帧或镜头。然而，为了构建具有高泛化能力的视频摘要模型，标记大量的人工注释和重要性分数是非常费时费力的操作，这限制了有监督方法的实际应用。弱监督方法通常通过引入更加简单易得的先验信息来促进模型训练，但先验信息的使用可能导致模型的偏置问题。此外，不同的用户对摘要有不同的偏好，注释者可能有不同的视角。无监督方法和自监督由于摆脱了对大规

技术实现思路

1、本专利技术的目的在于解决现有技术中的问题，提供一种基于混合孪生掩码自动编码器的无监督视频摘要方法及系统。

2、为达到上述目的，本专利技术采用以下技术方案予以实现：

3、一种基于混合孪生掩码自动编码器的无监督视频摘要方法，包括以下步骤：

4、对原始视频进行抽帧得到视频帧序列，对视频帧序列进行特征提取，得到原始帧特征序列，基于原始帧特征序列划分出镜头边界；

5、根据划分的镜头边界对镜头进行掩码，得到剩余未掩码的镜头子集，基于原始帧特征序列恢复未掩码的镜头子集中被掩码的镜头，获取被掩码镜头的恢复特征，计算恢复特征与原始帧特征序列的均方误差损失；

6、获取原始帧特征序列的镜头级特征，对镜头级特征进行重构并得到每个镜头的多样性系数，根据多样性系数获取多样性镜头，并获取多样性镜头的排斥损失；

7、基于均方误差损失和排斥损失计算每个镜头的重要性得分，根据镜头的重要性得分选取关键镜头，通过选取的关键镜头生成最终的视频摘要。

8、本专利技术的进一步改进在于：

9、未掩码的镜头子集中被掩码的镜头的恢复包括以下步骤：

10、通过孪生编码器对未掩码镜头子集和原始帧特征序列进行编码；

11、以编码后的原始帧特征序列为先验参考，通过解码器对未掩码的镜头子集中的掩码镜头进行恢复。

12、所述恢复特征与原始帧特征序列的均方误差损失通过公式(1)计算：

13、

14、其中，nf为掩码镜头子集s′包含的帧数，fr表示模型恢复的掩码镜头特征；fv表示提取的帧的特征。

15、获取多样性镜头包括以下步骤：

16、对编码的原始帧特征序列fp，通过平均化镜头内所有帧的特征得到镜头级特征；

17、对镜头级特征进行编码得到加权镜头特征

18、对镜头特征fs分别进行特征重构，并给出每个镜头的多样性系数；

19、镜头多样性系数筛选出若干镜头的重构特征计算其排斥损失。

20、所述多样性镜头的排斥损失通过公式(2)计算：

21、f′s＝top-v(φ(fs),y(fs),v＝round(m×∈))

22、

23、其中，top-v()函数表示选择多样性系数y(fs)中最大的v个镜头对应的重构镜头特征φ(fs)，∈是选择镜头的超参数。

24、所述生成最终的视频摘要包括以下步骤：

25、将每个镜头的重构分数和对应的多样性系数相乘得到镜头的最终的重要性得分，结合0-1背包算法，选择出关键镜头，生成最终的视频摘要。

26、所述镜头的重构分数通过公式(3)获取：

27、

28、其中，nl是每个镜头包含的帧数，镜头的多样性系数由分数回归层直接产生。

29、一种基于混合孪生掩码自动编码器的无监督视频摘要系统，包括：

30、原始视频处理模块，用于对原始视频进行抽帧得到视频帧序列，对视频帧序列进行特征提取，得到原始帧特征序列，基于原始帧特征序列划分出镜头边界；

31、均方误差损失计算模块，用于根据划分的镜头边界对镜头进行掩码，得到剩余未掩码的镜头子集，基于原始帧特征序列恢复未掩码的镜头子集中被掩码的镜头，获取被掩码镜头的恢复特征，计算恢复特征与原始帧特征序列的均方误差损失；

32、排斥损失计算模块，用于获取原始帧特征序列的镜头级特征，对镜头级特征进行重构并得到每个镜头的多样性系数，根据多样性系数获取多样性镜头，并获取多样性镜头的排斥损失；

33、视频摘要模块，用于基于均方误差损失和排斥损失计算每个镜头的重要性得分，根据镜头的重要性得分选取关键镜头，通过选取的关键镜头生成最终的视频摘要。

34、一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本专利技术任一项所述方法的步骤。

35、一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本专利技术任一项所述方法的步骤。

36、与现有技术相比，本专利技术具有以下有益效果：

37、本专利技术公开了一种基于混合孪生掩码自动编码器的无监督视频摘要方法，本方法通过掩码后恢复镜头的方式，直接量化视频中每个镜头的重要性，提升镜头重要性评估的准确性，和人工摘要的拟合结果相比优于现有的其它先进算法，有效解决了以往基于生成对抗模型的无监督视频摘要方法训练不稳定的问题，使得生成的摘要结果更加稳定，且本方法模型训练不依赖于复杂的人工注释，和有监督方法相比具有更强的可行性，可以有效运用在视频分类、检索等领域。

本文档来自技高网...

【技术保护点】

1.一种基于混合孪生掩码自动编码器的无监督视频摘要方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于混合孪生掩码自动编码器的无监督视频摘要方法，其特征在于，未掩码的镜头子集中被掩码的镜头的恢复包括以下步骤：

3.根据权利要求1所述的一种基于混合孪生掩码自动编码器的无监督视频摘要方法，其特征在于，所述恢复特征与原始帧特征序列的均方误差损失通过公式(1)计算：

4.根据权利要求1所述的一种基于混合孪生掩码自动编码器的无监督视频摘要方法，其特征在于，获取多样性镜头包括以下步骤：

5.根据权利要求1所述的一种基于混合孪生掩码自动编码器的无监督视频摘要方法，其特征在于，所述多样性镜头的排斥损失通过公式(2)计算：

6.根据权利要求1所述的一种基于混合孪生掩码自动编码器的无监督视频摘要方法，其特征在于，所述生成最终的视频摘要包括以下步骤：

7.根据权利要求6所述的一种基于混合孪生掩码自动编码器的无监督视频摘要方法，其特征在于，所述镜头的重构分数通过公式(3)获取：

8.一种基于混合孪生掩码自动

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于混合孪生掩码自动编码器的无监督视频摘要方法，其特征在于，包括以下步骤：

4.根据权利要求1所述的一种基于混合孪生掩码自动编码器的无监督视频摘要方法，其特征在于，获取多样性镜头包括以下步骤：

5.根据权利要求1所述的一种基于混合孪生掩码自动编码器的无监督视频摘要方法，其特征在于，所述多样性镜头的排斥损失通过公式(2)计算：

6.根据权利...

【专利技术属性】
技术研发人员：徐亦飞，吴在强，李向顺，尉萍萍，刘明圻，饶元，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人