本发明专利技术公开了一种基于多模态特征完备表示的短视频分类方法,所述方法包括:对于短视频自身内容信息,提出以视觉模态特征为主,从模态缺失角度构建四个子空间并分别获得潜在的特征表示,对四个子空间的潜在特征表示进一步利用自动编解码网络进行融合以保证学习到更鲁棒且有效的公共潜在表示;对于标签信息,采用逆协方差估计和图注意网络探究标签间的相关性并更新标签表示,得到与短视频对应的标签向量表示;对公共潜在表示和标签向量表示提出基于多头注意的多头跨模态融合方案,用于获得短视频的标签预测分数;模型的整体损失函数由传统的多标签分类损失和自动编解码网络的重建损失组成,用来度量网络输出值与实际值之间的差距,并以此来指导网络找寻模型最优解。
【技术实现步骤摘要】
一种基于多模态特征完备表示的短视频分类方法
本专利技术涉及短视频分类领域,尤其涉及一种基于多模态特征完备表示的短视频分类方法。
技术介绍
近年来,随着智能终端的普及以及社交网络的火热,越来越多的信息采用多媒体内容呈现,高清摄像头、大容量存储和高速网络连接为用户创造了极其便利的拍摄和分享条件,从而创造了海量的多媒体数据。短视频作为一种新型的用户生成内容,凭借其创作门槛低、碎片化内容以及较强的社交属性等独特优势在社交网络中受到了极大的欢迎。尤其是2011年以来,伴随着移动互联网终端的普及和网络的提速以及流量资费的降低,短视频迅速获得了包括各大内容平台、粉丝以及资本等多方的支持与青睐。有数据显示,全球移动视频流量已经占据移动数据总流量的一半以上,且持续高速增长。规模庞大的短视频数据很容易湮没用户需要的信息,使得用户难以找到其所期望的短视频信息内容,所以如何有效处理和利用这些信息变得至关重要。以深度学习为代表的人工智能技术已经成为当今最流行的技术之一,被广泛运用到计算机视觉等众多领域中。因此,将其引入到短视频的分类任务中不仅有利于推动计算机视觉以及多媒体领域相关课题的创新,对于用户体验的提升以及工业界的发展也具有很重要的应用价值和现实意义。
技术实现思路
本专利技术提供了一种基于多模态特征完备表示的短视频分类方法,解决了短视频多标签分类问题并对结果进行评估,详见下文描述:一种基于多模态特征完备表示的短视频分类方法,所述方法包括:对于短视频自身内容信息,提出以视觉模态特征为主,从模态缺失角度构建四个子空间并分别获得潜在的特征表示,对四个子空间的潜在特征表示进一步利用自动编解码网络进行融合以保证学习到更鲁棒且有效的公共潜在表示;对于标签信息,采用逆协方差估计和图注意网络探究标签间的相关性并更新标签表示,得到与短视频对应的标签向量表示;对公共潜在表示和标签向量表示提出基于多头注意的多头跨模态融合方案,用于获得短视频的标签预测分数;模型的整体损失函数由传统的多标签分类损失和自动编解码网络的重建损失组成,用来度量网络输出值与实际值之间的差距,并以此来指导网络找寻模型最优解。其中,所述两类视觉模态特征潜在表示为:独特的视觉模态潜在表示和不同模态信息互补下的视觉模态潜在表示。进一步地,所述采用逆协方差估计和图注意网络探究标签间的相关性并更新标签表示,得到与短视频对应的标签向量表示具体为:引入逆协方差估计,对于给定的标签矩阵V,寻找逆协方差矩阵S-1来表征标签的成对关系,即定义图关系函数来初始化图结构S;将输入到该网络中的标签矩阵V转换成新的标签矩阵,并输入到图关系函数G(·)中,计算出新的标签矩阵下的图结构S′。其中,所述基于多头注意的多头跨模态融合方案为:利用短视频视觉特征公共潜在表示查询标签,计算相关性,对齐短视频视觉模态公共潜在表示和标签矩阵。本专利技术提供的技术方案的有益效果是:1、本专利技术探究了短视频中的多模态表示学习问题,提出一种以视觉模态信息为主、其他模态信息为辅的深度多模态统一表示学习方案,从模态缺失角度构建四个子空间学习模态间信息互补性,获得两类视觉模态特征的潜在表示,又考虑到视觉模态特征信息的一致性,对两类视觉模态特征的潜在表示利用自动编解码网络融合得到视觉模态特征的公共潜在表示。这一过程同时考虑到模态缺失问题和模态信息的互补性及一致性,充分利用了短视频的模态信息;2、本专利技术探究了短视频的标签信息空间,从逆协方差估计和图注意网络两个层面考虑,提供了标签相关性学习的一种新思路;3、本专利技术针对短视频“时长有限,信息不足”的劣势,建议从短视频的内容信息和标签信息两个角度分别学习视觉模态公共潜在表示和标签表示,并对这两种表示提出基于多头注意的多头跨模态融合策略获得最终标签预测分数。本专利技术充分利用短视频的各模态信息来学习对多标签分类任务有重大作用的视觉模态表示和标签表示,有利于提高短视频多标签分类任务的准确度。附图说明图1为基于多模态特征完备表示的短视频分类方法的整体网络框架图;图2为子空间学习框架图;图3为实验结果数据。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面对本专利技术实施方式作进一步地详细描述。实施例1本专利技术实施例提供了一种基于多模态特征完备表示的短视频分类方法,充分利用了短视频的内容信息和标签信息,参见图1,该方法包括以下步骤:101:对于内容信息,根据经验可知在短视频多标签分类任务中视觉模态的语义特征表示是至关重要的,因此提出基于视觉模态特征的表示学习,以视觉模态特征为主,从模态缺失角度构建四个子空间,学习模态间信息互补性,获得两类视觉模态特征的潜在表示。考虑到视觉模态特征信息的一致性,为得到更为紧凑的视觉模态特征表示,对四个子空间获得的两类视觉模态特征潜在表示利用自动编解码网络融合以学习视觉模态特征的公共潜在表示;102:对于标签信息,采用一种独特的凸形式(逆协方差估计)和图注意网络探究标签间的相关性并更新标签表示,得到与短视频对应的标签向量表示;该标签向量表示用来探索适合于短视频数据集的标签表示,与步骤101的视觉模态特征的公共潜在表示一同参与步骤103的多头跨模态融合网络中;103:对两种信息空间的表示即:步骤101获得的视觉模态特征的公共潜在表示和步骤102获得的标签表示提出基于多头注意的多头跨模态融合方案,用于获得短视频的标签预测分数;其中,该多头跨模态融合网络的输出可看作输入短视频的标签预测分数,直接用于分类损失函数中。104:整体损失函数由传统的多标签分类损失和自动编解码网络的重建损失组成,用来度量网络输出值与实际值之间的差距,并以此来指导网络找寻模型最优解。其中,方案性能用覆盖率、排名损失、平均精度、汉明损失和首标记错误五个评价指标来评估,确保实验结果的客观性。具体实现时,在步骤101之前,该方法还包括:输入短视频,分别用经典的深度学习网络提取视觉、声音、轨迹三模态特征。综上所述,本专利技术实施例通过利用多模态学习和标签学习相关理论,并结合深度学习网络的优势,获得输入短视频的标签预测分数,分类结果准确、有效。实施例2下面结合计算公式、实例对实施例1中的方案进行进一步地介绍,详见下文描述:201:模型输入一个完整的短视频,分别提取视觉、音频和轨迹三种模态特征;对于视觉模态,提取关键帧,并对所有视频关键帧运用经典的图像特征提取网络ResNet(残差网络),然后做平均(AvePooling)操作以获取视觉模态特征Xv的整体特征zv:其中,ResNet(·):残差网络,AvePooling(·):平均操作,Xv:短视频原始视觉特征,βv:待学习的网络参数,视觉模态特征zv的维度是dv。对于音频模态,绘制声音频谱图,对频谱图利用“CNN+LSTM(卷积神经网络+长短期记忆网络本文档来自技高网...
【技术保护点】
1.一种基于多模态特征完备表示的短视频分类方法,其特征在于,所述方法包括:/n对于短视频自身内容信息,提出以视觉模态特征为主,从模态缺失角度构建四个子空间并分别获得潜在的特征表示,对四个子空间的潜在特征表示进一步利用自动编解码网络进行融合以保证学习到更鲁棒且有效的公共潜在表示;/n对于标签信息,采用逆协方差估计和图注意网络探究标签间的相关性并更新标签表示,得到与短视频对应的标签向量表示;/n对公共潜在表示和标签向量表示提出基于多头注意的多头跨模态融合方案,用于获得短视频的标签预测分数;/n模型的整体损失函数由传统的多标签分类损失和自动编解码网络的重建损失组成,用来度量网络输出值与实际值之间的差距,并以此来指导网络找寻模型最优解。/n
【技术特征摘要】
1.一种基于多模态特征完备表示的短视频分类方法,其特征在于,所述方法包括:
对于短视频自身内容信息,提出以视觉模态特征为主,从模态缺失角度构建四个子空间并分别获得潜在的特征表示,对四个子空间的潜在特征表示进一步利用自动编解码网络进行融合以保证学习到更鲁棒且有效的公共潜在表示;
对于标签信息,采用逆协方差估计和图注意网络探究标签间的相关性并更新标签表示,得到与短视频对应的标签向量表示;
对公共潜在表示和标签向量表示提出基于多头注意的多头跨模态融合方案,用于获得短视频的标签预测分数;
模型的整体损失函数由传统的多标签分类损失和自动编解码网络的重建损失组成,用来度量网络输出值与实际值之间的差距,并以此来指导网络找寻模型最优解。
2.根据权利要求1所述的一种基于多模态特征完备表示的短视频分类方法,其特征在于,所述两类视觉模态特征潜在表示为:独特的视觉模态潜在表示和不同模态信息互补下的视觉模态潜在表示。
3.根据权利要求2所述的一种基于多模态特征完备表示的短视频分类方法,其特征在于,所述独特的视觉模态潜在表示为:
其中,表示视觉特征的映射器,θv表示待学习的网络参数,表示视觉模态潜在表示hv的维度是dh;zv表示原始视觉模态特征。
4.根据权利要求3所述的一种基于多模态特征完备表示的短视频分类方法,其特征在于,所述不同模态信息互补下的视觉模态潜在表示为:
将原始视觉模态特征zv和视觉表示空间下的音频模态特征相加后送入特征融合映射器φa中,生成音频模态信息补充后的视觉模态潜在表示
其中,θa:待学习的特征融合映...
【专利技术属性】
技术研发人员:井佩光,张丽娟,苏育挺,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。