视频理解方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39189066 阅读:17 留言:0更新日期:2023-10-27 08:36
本申请涉及计算机技术领域,公开了一种视频理解方法、装置、电子设备及存储介质,由于模型训练使用的训练样本集合包含由无标签视频帧构成的目标域视频子集,可以充分利用各视频媒体平台上的无监督视频数据,减少了标注训练样本所需的人力物力。训练过程中,通过对源域视频帧和目标域视频帧的至少一个媒体特征进行组合,获得减小源域视频帧和目标域视频帧之间差异的中间域视频帧特征,使源域学习到的知识能够准确地迁移到目标域,从而提高视频理解的准确性;并且,通过引入中间域视频帧特征,使得源域和目标域在特征空间维度不在区分彼此,得到更多过渡形态的中间域视频帧,丰富了样本空间,从而解决目标任务关联的标签样本不足的问题。问题。问题。

【技术实现步骤摘要】
视频理解方法、装置、电子设备及存储介质


[0001]本申请涉及计算机
,公开了一种视频理解方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来,随着海量视频发布在各视频媒体平台,视频理解变得尤为重要。视频理解实现了众多视频处理的基本功能,如视频分割、视频分类、视频信息提取、视频总结等;并且,视频理解的准确性,直接决定了下游任务(如:视频自动打标签、视频搜索、视频推荐等)的准确性。
[0003]随着深度学习在计算机视觉(Computer View,CV)和自然语言处理(Natural Language Processing,NLP)领域的快速发展,目前,视频理解的常用算法大多是基于多模态的有监督学习方法,相对于单个模态,基于多模态的视频理解算法更加依赖于带标签的数据。然而,对于某个特定领域的视频,带标签的数据比较匮乏。
[0004]为了解决标签数据匮乏的问题,可基于多模态的无监督学习方法进行视频理解,无监督学习方法通常依赖于源域和目标域两个数据集,其中,源域数据集包含有标签的训练样本,目标域数据集包含无标签的训练样本,这样,通过将源域学习到的知识迁移到目标域,实现源域和目标域的权重共享,进而解决标签数据缺失的问题。然而,由于源域数据集和目标域数据集中的训练样本间的差异较大,导致源域学习到的知识并不能准确的适用于目标域,从而降低了视频理解的准确性。

技术实现思路

[0005]本申请实施例提供了一种视频理解方法、装置、电子设备及存储介质,用于提高视频理解的准确性。
[0006]一方面,本申请实施例提供了一种视频理解方法,包括:
[0007]获取训练样本集合,所述训练样本集合包括:包含有标签视频帧的源域视频子集,以及包含无标签视频帧的目标域视频子集;
[0008]基于所述训练样本集合,对待训练的视频理解模型进行至少一次迭代训练,获得目标视频理解模型,其中,每次迭代过程执行以下操作:
[0009]基于所述训练样本集合获得多个视频帧对,每个视频帧对包含一个源域视频帧和一个目标域视频帧;
[0010]对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合,获得相应的中间域视频帧特征,其中,每个媒体特征表征相应视频帧的一种内容属性;
[0011]基于各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,确定视频理解损失值,并基于所述视频理解损失值,进行参数调整。
[0012]另一方面,本申请实施例提供了一种视频理解装置,包括:
[0013]样本获取模块,用于获取训练样本集合,所述训练样本集合包括:包含有标签视频帧的源域视频子集,以及包含无标签视频帧的目标域视频子集;
[0014]训练模块,用于基于所述训练样本集合,对待训练的视频理解模型进行至少一次迭代训练,获得目标视频理解模型,其中,所述训练模块包括:
[0015]样本对生成单元,用于基于所述训练样本集合获得多个视频帧对,每个视频帧对包含一个源域视频帧和一个目标域视频帧;
[0016]特征组合单元,用于对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合,获得相应的中间域视频帧特征,其中,每个媒体特征表征相应视频帧的一种内容属性;
[0017]损失值确定单元,用于基于各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,确定视频理解损失值,并基于所述视频理解损失值,进行参数调整。
[0018]可选的,所述特征组合单元具体用于:
[0019]分别提取所述源域视频帧和所述目标域视频帧的多个媒体特征;
[0020]从所述源域视频帧的多个媒体特征中,选择至少一个媒体特征;
[0021]针对选择的每个媒体特征,执行以下操作:按照相应视频帧的内容属性,将所述源域视频帧的媒体特征,和所述目标域视频帧的媒体特征进行组合,得到初始组合特征;
[0022]将所述初始组合特征与所述源域视频帧的其余媒体特征进行二次组合,得到相应的中间域视频帧特征,以及将所述初始组合特征与所述目标域视频帧的其余媒体特征进行二次组合,得到相应的中间域视频帧特征。
[0023]可选的,对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合后,获得的中间域视频帧特征的数量最多为2
N

2,其中,N为每个视频帧对中源域视频帧和目标域视频帧各自的媒体特征的总数量。
[0024]可选的,所述待训练的视频理解模型至少包括处理视频理解任务的目标任务分支网络、拉近源域视频帧和目标域视频帧之间特征差异的领域差异分支网络,以及混淆源域视频帧和目标域视频帧之间内容属性的领域判别分支网络。
[0025]可选的,所述损失值确定单元具体用于:
[0026]将所述各个视频帧对中源域视频帧的多个媒体特征,输入至所述目标任务分支网络,确定目标任务子损失值;
[0027]将所述各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,输入至所述领域差异分支网络,确定领域差异子损失值;
[0028]将所述各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,输入至所述领域判别分支网络,确定领域判别子损失值;
[0029]基于所述目标任务子损失值、所述领域判别子损失值和所述领域差异子损失值,确定视频理解损失值。
[0030]可选的,所述领域判别分支网络的领域类别数量为2+M,其中,M为中间域视频帧特征的数量。
[0031]可选的,所述多个媒体特征包括文本特征、图像特征和语音特征中的至少两种。
[0032]可选的,所述视频理解装置还包括:
[0033]视频获取模块,用于获取目标域关联的待处理视频;
[0034]特征提取模块,用于基于所述目标视频理解模型,提取所述待处理视频的多个媒体特征,并基于所述多个媒体特征,确定所述待处理视频的视频类别;
[0035]视频处理模块,用于基于所述视频类别,对所述待处理视频在所述目标域中进行归档。
[0036]可选的,所述视频理解装置还包括:
[0037]视频获取模块,用于获取目标域关联的待处理视频;
[0038]特征提取模块,用于基于所述目标视频理解模型,提取所述待处理视频的多个媒体特征,并基于所述多个媒体特征,确定所述待处理视频的视频标题;
[0039]视频处理模块,用于基于所述视频标题推荐所述目标域中的视频。
[0040]可选的,所述视频理解装置还包括:
[0041]视频获取模块,用于获取目标域关联的待处理视频;
[0042]特征提取模块,用于基于所述目标视频理解模型,提取所述待处理视频的多个媒体特征,并基于所述多个媒体特征,对所述待处理视频进行分段;
[0043]视频处理模块,用于基于分段后的视频段,生成所述目标域的短视频。
[0044]另一方面,本申请实施例提供了一种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频理解方法,其特征在于,包括:获取训练样本集合,所述训练样本集合包括:包含有标签视频帧的源域视频子集,以及包含无标签视频帧的目标域视频子集;基于所述训练样本集合,对待训练的视频理解模型进行至少一次迭代训练,获得目标视频理解模型,其中,每次迭代过程执行以下操作:基于所述训练样本集合获得多个视频帧对,每个视频帧对包含一个源域视频帧和一个目标域视频帧;对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合,获得相应的中间域视频帧特征,其中,每个媒体特征表征相应视频帧的一种内容属性;基于各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,确定视频理解损失值,并基于所述视频理解损失值,进行参数调整。2.如权利要求1所述的方法,其特征在于,所述对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合,获得相应的中间域视频帧特征,包括:分别提取所述源域视频帧和所述目标域视频帧的多个媒体特征;从所述源域视频帧的多个媒体特征中,选择至少一个媒体特征;针对选择的每个媒体特征,执行以下操作:按照相应视频帧的内容属性,将所述源域视频帧的媒体特征,和所述目标域视频帧的媒体特征进行组合,得到初始组合特征;将所述初始组合特征与所述源域视频帧的其余媒体特征进行二次组合,得到相应的中间域视频帧特征,以及将所述初始组合特征与所述目标域视频帧的其余媒体特征进行二次组合,得到相应的中间域视频帧特征。3.如权利要求2所述的方法,其特征在于,对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合后,获得的中间域视频帧特征的数量最多为2
N

2,其中,N为每个视频帧对中源域视频帧和目标域视频帧各自的媒体特征的总数量。4.如权利要求1所述的方法,其特征在于,所述待训练的视频理解模型至少包括处理视频理解任务的目标任务分支网络、拉近源域视频帧和目标域视频帧之间特征差异的领域差异分支网络,以及混淆源域视频帧和目标域视频帧之间内容属性的领域判别分支网络。5.如权利要求4所述的方法,其特征在于,所述基于各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,确定视频理解损失值,包括:将所述各个视频帧对中源域视频帧的多个媒体特征,输入至所述目标任务分支网络,确定目标任务子损失值;将所述各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,输入至所述领域差异分支网络,确定领域差异子损失值;将所述各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,输入至所述领域判别分支网络,确定领域判别子损失值;基于所述目标任务子损失值、所述领域判别子损失值和所述领域差异子损失值,确定视频理解损失值。6.如权利要求5所述的方法,其特征在于,所述领域判别分支网络的领域类...

【专利技术属性】
技术研发人员:刘烨
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1