一种基于多模态特征完备表示的短视频分类方法技术

技术编号：29403095 阅读：57 留言：0更新日期：2021-07-23 22:41

本发明专利技术公开了一种基于多模态特征完备表示的短视频分类方法，所述方法包括：对于短视频自身内容信息，提出以视觉模态特征为主，从模态缺失角度构建四个子空间并分别获得潜在的特征表示，对四个子空间的潜在特征表示进一步利用自动编解码网络进行融合以保证学习到更鲁棒且有效的公共潜在表示；对于标签信息，采用逆协方差估计和图注意网络探究标签间的相关性并更新标签表示，得到与短视频对应的标签向量表示；对公共潜在表示和标签向量表示提出基于多头注意的多头跨模态融合方案，用于获得短视频的标签预测分数；模型的整体损失函数由传统的多标签分类损失和自动编解码网络的重建损失组成，用来度量网络输出值与实际值之间的差距，并以此来指导网络找寻模型最优解。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态特征完备表示的短视频分类方法
本专利技术涉及短视频分类领域，尤其涉及一种基于多模态特征完备表示的短视频分类方法。
技术介绍
近年来，随着智能终端的普及以及社交网络的火热，越来越多的信息采用多媒体内容呈现，高清摄像头、大容量存储和高速网络连接为用户创造了极其便利的拍摄和分享条件，从而创造了海量的多媒体数据。短视频作为一种新型的用户生成内容，凭借其创作门槛低、碎片化内容以及较强的社交属性等独特优势在社交网络中受到了极大的欢迎。尤其是2011年以来，伴随着移动互联网终端的普及和网络的提速以及流量资费的降低，短视频迅速获得了包括各大内容平台、粉丝以及资本等多方的支持与青睐。有数据显示，全球移动视频流量已经占据移动数据总流量的一半以上，且持续高速增长。规模庞大的短视频数据很容易湮没用户需要的信息，使得用户难以找到其所期望的短视频信息内容，所以如何有效处理和利用这些信息变得至关重要。以深度学习为代表的人工智能技术已经成为当今最流行的技术之一，被广泛运用到计算机视觉等众多领域中。因此，将其引入到短视频的分类任务中不仅有利于推动计算机视觉以及多媒体领域相关课题的创新，对于用户体验的提升以及工业界的发展也具有很重要的应用价值和现实意义。
技术实现思路
本专利技术提供了一种基于多模态特征完备表示的短视频分类方法，解决了短视频多标签分类问题并对结果进行评估，详见下文描述：一种基于多模态特征完备表示的短视频分类方法，所述方法包括：对于短视频自身内容信息，提出以视觉模态...

【技术保护点】
1.一种基于多模态特征完备表示的短视频分类方法，其特征在于，所述方法包括：/n对于短视频自身内容信息，提出以视觉模态特征为主，从模态缺失角度构建四个子空间并分别获得潜在的特征表示，对四个子空间的潜在特征表示进一步利用自动编解码网络进行融合以保证学习到更鲁棒且有效的公共潜在表示；/n对于标签信息，采用逆协方差估计和图注意网络探究标签间的相关性并更新标签表示，得到与短视频对应的标签向量表示；/n对公共潜在表示和标签向量表示提出基于多头注意的多头跨模态融合方案，用于获得短视频的标签预测分数；/n模型的整体损失函数由传统的多标签分类损失和自动编解码网络的重建损失组成，用来度量网络输出值与实际值之间的差距，并以此来指导网络找寻模型最优解。/n

【技术特征摘要】
1.一种基于多模态特征完备表示的短视频分类方法，其特征在于，所述方法包括：
对于短视频自身内容信息，提出以视觉模态特征为主，从模态缺失角度构建四个子空间并分别获得潜在的特征表示，对四个子空间的潜在特征表示进一步利用自动编解码网络进行融合以保证学习到更鲁棒且有效的公共潜在表示；
对于标签信息，采用逆协方差估计和图注意网络探究标签间的相关性并更新标签表示，得到与短视频对应的标签向量表示；
对公共潜在表示和标签向量表示提出基于多头注意的多头跨模态融合方案，用于获得短视频的标签预测分数；
模型的整体损失函数由传统的多标签分类损失和自动编解码网络的重建损失组成，用来度量网络输出值与实际值之间的差距，并以此来指导网络找寻模型最优解。

2.根据权利要求1所述的一种基于多模态特征完备表示的短视频分类方法，其特征在于，所述两类视觉模态特征潜在表示为：独特的视觉模态潜在表示和不同模态信息互补下的视觉模态潜在表示。

3.根据权利要求2所述的一种基于多模态特征完备表示的短视频分类方法，其特征在于，所述独特的视觉模态潜在表示为：

其中，表示视觉特征的映射器，θv表示待学习的网络参数，表示视觉模态潜在表示hv的维度是dh；zv表示原始视觉模态特征。

4.根据权利要求3所述的一种基于多模态特征完备表示的短视频分类方法，其特征在于，所述不同模态信息互补下的视觉模态潜在表示为：
将原始视觉模态特征zv和视觉表示空间下的音频模态特征相加后送入特征融合映射器φa中，生成音频模态信息补充后的视觉模态潜在表示

其中，θa：待学习的特征融合映...

【专利技术属性】
技术研发人员：井佩光，张丽娟，苏育挺，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人