一种基于模态多样性的短视频自动标注方法技术

技术编号：43297255 阅读：18 留言：0更新日期：2024-11-12 16:14

本发明专利技术提供一种基于模态多样性的短视频自动标注方法，属于自动标注领域，包括：获取三种模态以描述短视频的整体表示；将三种模态两两组合形成三种模态组，分别将各模态组合输入多头注意力机制中，以得到增强的视觉特征f<subgt;v</subgt;、增强的轨迹特征f<subgt;t</subgt;和增强的音频特征f<subgt;a</subgt;，并获取一致性损失函数以实现对模态关系的制约；分别得到视觉特定表示、轨迹特定表示和音频特定表示，进而得到解纠缠损失函数；利用公式实现各模态的调制，得到调制量；根据一致性损失函数、解纠缠损失函数以及自动检索损失函数得到总损失函数，以总损失函数进行训练。本发明专利技术增强了模态的表示能力，提高了标注的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自动标注领域，具体涉及一种基于模态多样性的短视频自动标注方法。

技术介绍

1、近年来，随着多媒体技术的迅猛进步，短视频成为备受欢迎的传播形式，吸引了庞大的用户群体。然而，如何为用户提供更加精准的个性化服务，已成为短视频行业面临的一大挑战。目前，在短视频领域的研究方向主要为个性化推荐、流行度预测以及记忆度建模等。短视频的自动标注功能对于高效利用视频资源、方便检索、分类和管理具有重要意义。而由于短视频包含了多模态信息，这为多标签分类带来了挑战。其关键在于如何有效地整合这些多模态信息，以形成准确的多模态表示。过去的方法在追求多模态一致表示时，往往忽视了模态多样性的考量，这可能导致模态偏差的产生。模态偏差不仅会使表征偏离视频内容，还可能阻碍信息的融合。因此，如何克服这些问题，完成准确率更高的自动标注，成为当前研究的重点。

2、为了获得更加准确的多模态表示，研究者们从联合表征学习和协调表征学习两个角度进行了研究。联合表征学习致力于将不同模态的信息投影到共享的空间中，然后整合模态信息；协调表征学习则侧重于在保持各个模态表征独立性的同时，探索它们之间的潜在关系。这些研究为探索多标签分类的一致性和互补性提供了许多的有效方案。

3、在多标签分类中，类别相关性是一个主要的问题。早期的方法如二元关联、校准标签排名等，探究了两标签的关联关系。然而，这些浅层网络很难对复杂的标签关系进行建模。近年来，越来越多的基于图网络的多标签分类方法得到了发展。然而，在多模态场景下，多标签分类面临着更复杂的挑战——建模模态和多标签的潜在关系。

技术实现思路

1、本专利技术的目的是提出一种基于模态多样性的短视频自动标注方法，增强了模态的表示能力，提高了标注的准确性。

2、本专利技术通过以下技术方案实现：

3、一种基于模态多样性的短视频自动标注方法，包括如下步骤：

4、步骤s1、从短视频数据集获取三种模态以描述短视频的整体表示，三种模态分别为视觉特征、轨迹特征和音频特征；

5、步骤s2、将三种模态两两组合形成三种模态组，分别将各模态组合输入多头注意力机制中，以得到轨迹增强的视觉特征f v,t、音频增强的视觉特征f v,a、视觉增强的轨迹特征f t,v、音频增强的轨迹特征f t,a、视觉增强的音频特征f a,v和轨迹增强的音频特征f a,t，进而得到增强的视觉特征f v、增强的轨迹特征f t和增强的音频特征f a，并获取一致性损失函数以实现对模态关系的制约；

6、步骤s3、根据增强的视觉特征f v、增强的轨迹特征f t和增强的音频特征f a得到短视频的一致表示f o，并根据视频的一致表示分别得到视觉特定表示、轨迹特定表示和音频特定表示，进而得到解纠缠损失函数；

7、步骤s4、根据增强的视觉特征f v、增强的轨迹特征f t和增强的音频特征f a得到模态导向的表示f m，并根据模态导向的表示f m构建图以得到图卷积网络h m，利用公式实现各模态的调制，得到调制量，其中， m∈{ v,t,a}， γ m和 β m分别为调制参数；

8、步骤s5、将三个模态的调制量融合并获取类别嵌入矩阵h final，并获取自动检索损失函数，自动检索损失函数与预测标签表示相关，预测标签表示根据类别嵌入矩阵h final获取，根据一致性损失函数、解纠缠损失函数以及自动检索损失函数得到总损失函数，以总损失函数进行训练。

9、进一步的，所述步骤s1中，以设定的间隔，从短视频数据集获取样本集，从样本集中的每个样本中挑选出 l个关键帧的图像，将挑选出的图像输入预训练的imagenet-vgg-2048网络得到样本集的视觉特征；利用轨迹池深度卷积描述符来提取样本集的轨迹特征；利用2048d-mel频率倒谱系数提取样本集的音频特征。

10、进一步的，所述步骤s2中，分别根据公式、、得到增强的视觉特征f v、增强的轨迹特征f t和增强的音频特征f a。

11、进一步的，所述步骤s2中，设置全连接层，将增强的视觉特征f v、增强的轨迹特征f t和增强的音频特征f a输入全连接层，得到一致性损失函数，其中， n表示样本集中样本的数量，( v,t)、( v,a) ( t,a)表示三种模态组，fc(.)表示全连接层，表示求范数，表示样本集中第 i个样本的增强的视觉特征f v、增强的轨迹特征f t和增强的音频特征f a。

12、进一步的，所述步骤s3中，根据公式得到视频的一致表示，分别根据公式、、得到视觉特定表示、轨迹特定表示和音频特定表示，进而得到解纠缠损失函数，其中，avgpool表示平均池化，ω表示实域。

13、进一步的，所述步骤s4中，分别将增强的视觉特征f v、增强的轨迹特征f t和增强的音频特征f a输入对应的编码器得到模态导向的表示f m=e m(f m)，其中，e m(.)表示包含两层多层感知器的编码器。

14、进一步的，所述步骤s4，将模态导向的表示f m按行展开得到类别关联的z m，z m的每一行为类别表示本文档来自技高网...

【技术保护点】

1.一种基于模态多样性的短视频自动标注方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于模态多样性的短视频自动标注方法，其特征在于：所述步骤S1中，以设定的间隔，从短视频数据集获取样本集，从样本集中的每个样本中挑选出L个关键帧的图像，将挑选出的图像输入预训练的ImageNet-VGG-2048网络得到样本集的视觉特征；利用轨迹池深度卷积描述符来提取样本集的轨迹特征；利用2048D-Mel频率倒谱系数提取样本集的音频特征。

3.根据权利要求2所述的一种基于模态多样性的短视频自动标注方法，其特征在于：所述步骤S2中，分别根据公式、、得到增强的视觉特征fv、增强的轨迹特征ft和增强的音频特征fa。

4.根据权利要求3所述的一种基于模态多样性的短视频自动标注方法，其特征在于：所述步骤S2中，设置全连接层，将增强的视觉特征fv、增强的轨迹特征ft和增强的音频特征fa输入全连接层，得到一致性损失函数，其中，N表示样本集中样本的数量，(v,t)、(v,a) (t,a)表示三种模态组，FC(.)表示全连接层，表示求范数，表示样本集中第i个样本的

5.根据权利要求4所述的一种基于模态多样性的短视频自动标注方法，其特征在于：所述步骤S3中，根据公式得到视频的一致表示，分别根据公式、、得到视觉特定表示、轨迹特定表示和音频特定表示，进而得到解纠缠损失函数，其中，Avgpool表示平均池化，Ω表示实域。

6.根据权利要求5所述的一种基于模态多样性的短视频自动标注方法，其特征在于：所述步骤S4中，分别将增强的视觉特征fv、增强的轨迹特征ft和增强的音频特征fa输入对应的编码器得到模态导向的表示Fm=Em(fm)，其中，Em(.)表示包含两层多层感知器的编码器。

7.根据权利要求6所述的一种基于模态多样性的短视频自动标注方法，其特征在于：所述步骤S4，将模态导向的表示Fm按行展开得到类别关联的Zm，Zm的每一行为类别表示，以Zm为节点构建图结构，进而得到图卷积网络，其中，表示激活函数，Am表示Zm的邻接矩阵，Wm为权重矩阵。

8.根据权利要求7所述的一种基于模态多样性的短视频自动标注方法，其特征在于：所述步骤S4，分别根据公式和获取调制参数γm和βm，其中，和为参数生成器，包含一个线性层，包含一个多层感知器，ffuse=Concat(fv;ft;fa)为增强的视觉特征fv、增强的轨迹特征ft和增强的音频特征fa的融合结果。

9.根据权利要求8所述的一种基于模态多样性的短视频自动标注方法，其特征在于：所述步骤S5中，利用自注意力机制获取嵌入矩阵，其中，表示将三个模态的调制量融合，SA(.)表示自注意力函数。

10.根据权利要求9所述的一种基于模态多样性的短视频自动标注方法，其特征在于：所述步骤S5中，总损失函数表示为，其中，为自动检索损失函数，C为类别数量，yj为预测表示，sj为预测表示，该预测表示sj由将C个类别表示hj输入C个二元分类器得到，类别表示hj由类别嵌入矩阵Hfinal得到，为Sigmoid激活函数，λ1和λ2为一致性损失函数和解纠缠损失函数的权重。

...

【技术特征摘要】

1.一种基于模态多样性的短视频自动标注方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于模态多样性的短视频自动标注方法，其特征在于：所述步骤s1中，以设定的间隔，从短视频数据集获取样本集，从样本集中的每个样本中挑选出l个关键帧的图像，将挑选出的图像输入预训练的imagenet-vgg-2048网络得到样本集的视觉特征；利用轨迹池深度卷积描述符来提取样本集的轨迹特征；利用2048d-mel频率倒谱系数提取样本集的音频特征。

3.根据权利要求2所述的一种基于模态多样性的短视频自动标注方法，其特征在于：所述步骤s2中，分别根据公式、、得到增强的视觉特征fv、增强的轨迹特征ft和增强的音频特征fa。

4.根据权利要求3所述的一种基于模态多样性的短视频自动标注方法，其特征在于：所述步骤s2中，设置全连接层，将增强的视觉特征fv、增强的轨迹特征ft和增强的音频特征fa输入全连接层，得到一致性损失函数，其中，n表示样本集中样本的数量，(v,t)、(v,a) (t,a)表示三种模态组，fc(.)表示全连接层，表示求范数，表示样本集中第i个样本的增强的视觉特征fv、增强的轨迹特征ft和增强的音频特征fa。

5.根据权利要求4所述的一种基于模态多样性的短视频自动标注方法，其特征在于：所述步骤s3中，根据公式得到视频的一致表示，分别根据公式、、得到视觉特定表示、轨迹特定表示和音频特定表示，进而得到解纠缠损失函数，其中，avgpool表示平均池化，ω表示实域。

6.根据权利要求5所述的一种基于模态多样性的短视...

【专利技术属性】
技术研发人员：苏育挺，井配光，
申请(专利权)人：泉州桐兴科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人