一种视频掩码自编码方法及系统技术方案

技术编号：38105362 阅读：9 留言：0更新日期：2023-07-06 09:27

本发明专利技术涉及视频学习技术领域，提出一种视频掩码自编码方法及系统。该方法在预训练阶段基于双重掩码策略对编码器和解码器进行掩码，包括：使用立方嵌入处理输入视频生成视频块；基于管道掩码策略生成第一掩码图M

全部详细技术资料下载

【技术实现步骤摘要】
一种视频掩码自编码方法及系统

[0001]本专利技术总的来说涉及视频学习
具体而言，本专利技术涉及一种视频掩码自编码方法及系统。

技术介绍

[0002]大型基础模型在大规模数据上进行高效预训练是非常流行的学习通用表征能力的范式。这一范式在自然语言、音频、图像、视频、视觉语言等多种数据模态上都取得了成功。这些基础模型具有很强的泛化能力，在很多下游任务上都展现出强大的性能，推动了人工智能中很多领域的发展。
[0003]在视觉领域，已经有许多关于模型预训练的工作出现，其中使用MAE(Masked Autoencoder，掩码自编码器)方法预训练的Transformer(变换器)模型正在成为简单而有效的视觉学习器。鉴于语言模型的成功经验，学术界认为扩大模型规模和数据规模是改进这类视觉学习器性能的重要因素。然而在大规模的视觉模型上扩展MAE预训练的工作非常少。
[0004]实际上在视频领域，因为视频额外的时间维度，计算量非常大，还没有这样的工作出现。因此需要填补这一空白，研究扩展VideoMAE(Video Masked Autoencoder，视频掩码自编码器)到例如十亿参数级别的大规模，对其进行扩展并且提高它在多种视频下游任务上的性能上限。

技术实现思路

[0005]为至少部分解决现有技术中的上述问题，本专利技术提出一种视频掩码自编码方法，其中包括下列步骤：
[0006]在预训练阶段使用立方嵌入处理输入视频生成视频块；
[0007]基于管道掩码策略生成第一掩码图Mr/>e
，由编码器根据所述第一掩码图M
e
确定可见的视频块以及不可见的视频块，并且提取部分可见的视频块的特征；以及
[0008]基于运动单元掩码策略生成第二掩码图M
d
，由解码器根据所述第二掩码图M
d
重建部分不可见的视频块的特征。
[0009]在本专利技术一个实施例中规定，所述编码器使用视觉变换器模型，其中将所述视觉变换器模型的下列参数的一项或者多项进行扩展：
[0010]视频块尺寸、变换器层数、特征通道数、多层感知机扩展层数以及多头注意力头数。
[0011]在本专利技术一个实施例中规定，构造无标签多源视频数据集以进行预训练，其中构造无标签多源视频数据集包括提取下列数据集中的一项或者多项：
[0012]提取Kinetics数据集中的视频，其中合并Kinetics
‑
400/600/700数据集，去除重复的视频以及在Kinetics验证集中出现的视频；
[0013]提取SSv2数据集中的视频；
[0014]提取AVA数据集中的视频，其中使用AVA数据集电影视频中第15分钟到第30分钟的视频部分，并且按照300帧切分生成视频片段；
[0015]提取WebVid数据集中的视频；以及
[0016]从内部采集的不公开视频数据集中随机提取视频。
[0017]在本专利技术一个实施例中规定，通过所述无标签多源数据集进行第一阶段预训练，并且构造带标签的混合数据集，在所述标签的混合数据集上进行有监督的第二阶段预训练。
[0018]在本专利技术一个实施例中规定，构造带标签的混合数据集包括合并Kinetics
‑
400/600/700数据集的训练数据集和验证数据集，其中将Kinetics
‑
400/600/700数据集中相同的标签合并，并且去除重复的视频以及在验证集中出现的视频。
[0019]在本专利技术一个实施例中规定，所述视频掩码自编码方法还包括对预训练后的编码器进行微调，其中在所述编码器后增加线性头以进行动作分类，并且在所述带标签的混合数据集上进行监督微调。
[0020]在本专利技术一个实施例中规定，进行监督微调包括下列步骤：
[0021]由编码器提取输入视频的视频特征，并且将视频特征传送至线性头；
[0022]由所述线性头预测所述输入视频属于不同类别的概率；
[0023]使用交叉熵损失监督模型的参数更新；以及
[0024]当模型收敛后由编码器形成完成训练的视频基础模型。
[0025]本专利技术还提出一种视频掩码自编码系统，包括：
[0026]编码器；
[0027]解码器；
[0028]预训练模块，其被配置为基于双重掩码策略对编码器和解码器进行掩码，其中包括下列步骤：
[0029]使用立方嵌入处理输入视频生成视频块；
[0030]基于管道掩码策略生成第一掩码图M
e
，由编码器根据所述第一掩码图M
e
确定可见的视频块以及不可见的视频块，并且提取部分可见的视频块的特征；以及
[0031]基于运动单元掩码策略生成第二掩码图M
d
，由解码器根据所述第二掩码图M
d
重建部分不可见的视频块的特征；以及
[0032]监督微调模块，其被配置为对预训练后的编码器进行微调，其中在所述编码器后增加线性头以进行动作分类，并且在所述带标签的混合数据集上进行监督微调。
[0033]本专利技术还提出一种计算机可读存储介质，其上存储有机器可读指令，所述机器可读指令在被处理器执行时执行根据所述方法的步骤。
[0034]本专利技术还提出一种计算机系统，包括：
[0035]处理器，其被配置为执行机器可读指令；以及
[0036]存储器，其被存储有机器可读指令，所述机器可读指令在被处理器执行时执行根据所述方法的步骤。
[0037]本专利技术至少具有如下有益效果：本专利技术提出了一种视频掩码自编码方法及系统，其中基于双重掩码策略进行预训练，可以在保持模型性能的条件下，降低预训练开销，进而可以有效节省计算机的运算资源；本专利技术在模型尺寸和数据规模上进行了扩展，并且通过
渐进式训练的进行预训练，可以提升模型提取特征的能力、减小模型预训练时的过拟合风险、提升模型的泛化能力，进而可以在提升动作识别、时空检测、时序动作检测等下游任务的工作效率。
附图说明
[0038]为进一步阐明本专利技术的各实施例中具有的及其它的优点和特征，将参考附图来呈现本专利技术的各实施例的更具体的描述。可以理解，这些附图只描绘本专利技术的典型实施例，因此将不被认为是对其范围的限制。在附图中，为了清楚明了，相同或相应的部件将用相同或类似的标记表示。
[0039]图1示出了实现根据本专利技术的系统和/或方法的计算机系统。
[0040]图2示出了本专利技术一个实施例中一个使用双重掩码策略的视频掩码自编码系统流程框架图。
具体实施方式
[0041]应当指出，各附图中的各组件可能为了图解说明而被夸大地示出，而不一定是比例正确的。在各附图中，给相同或功能相同的组件配备了相同的附图标记。
[0042]在本专利技术中，除非特别指出，“布置在
…
上”、“布置在
…
上方”以及“布置在
…
之上”本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频掩码自编码方法，其特征在于，包括下列步骤：在预训练阶段使用立方嵌入处理输入视频以生成视频块；基于管道掩码策略生成第一掩码图M
e
，由编码器根据所述第一掩码图M
e
确定可见的视频块以及不可见的视频块，并且提取部分可见的视频块的特征；以及基于运动单元掩码策略生成第二掩码图M
d
，由解码器根据所述第二掩码图M
d
重建部分不可见的视频块的特征。2.根据权利要求1所述的视频掩码自编码方法，其特征在于，所述编码器使用视觉变换器模型，其中将所述视觉变换器模型的下列参数的一项或者多项进行扩展：视频块尺寸、变换器层数、特征通道数、多层感知机扩展层数以及多头注意力头数。3.根据权利要求1所述的视频掩码自编码方法，其特征在于，构造无标签多源视频数据集以进行预训练，其中构造无标签多源视频数据集包括提取下列数据集中的一项或者多项：提取Kinetics数据集中的视频，其中合并Kinetics
‑
400/600/700数据集，去除重复的视频以及在Kinetics验证集中出现的视频；提取SSv2数据集中的视频；提取AVA数据集中的视频，其中使用AVA数据集电影视频中第15分钟到第30分钟的视频部分，并且按照300帧切分生成视频片段；提取WebVid数据集中的视频；以及从内部采集的不公开视频数据集中随机提取视频。4.根据权利要求3所述的视频掩码自编码方法，其特征在于，通过所述无标签多源视频数据集进行第一阶段预训练，并且构造带标签的混合数据集，在所述标签的混合数据集上进行有监督的第二阶段预训练。5.根据权利要求4所述的视频掩码自编码方法，其特征在于，构造带标签的混合数据集包括合并Kinetics
‑
400/600/700数据集的训练数据集和验证数据集，其中将Kinetics<...

【专利技术属性】
技术研发人员：王利民，黄秉焜，赵治宇，童湛，何逸楠，王毅，王亚立，乔宇，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人