本申请提供了一种视频分类模型训练方法、视频分类的方法和装置,涉及人工智能领域。该视频分类模型训练的方法,包括:从视频样本中获取文本数据和图像数据;根据文本数据和图像数据,获取单模态标签和多模态标签中的至少一种;其中,单模态标签包括使用文本信息或图像信息表示视频内容的标签,多模态标签包括使用文本信息和图像信息表示视频内容的标签;确定训练样本,该训练样本包括视频样本和样本标签,该样本标签包括单模态标签和多模态标签中的至少一种;根据训练样本对视频分类模型进行参数更新,得到已训练的视频分类模型。本申请实施例能够有助于提高视频标注的效率和质量。实施例能够有助于提高视频标注的效率和质量。实施例能够有助于提高视频标注的效率和质量。
【技术实现步骤摘要】
视频分类模型训练的方法、视频分类的方法和装置
[0001]本申请实施例涉及人工智能
,尤其涉及一种用于视频的文字分类方法、文字分类模型训练方法和装置。
技术介绍
[0002]随着互联网技术的快速发展,多媒体的应用越来越广泛,视频数量也急剧增长,用户可以通过各种多媒体平台浏览各种各样的视频。为了使用户可以从海量的视频中获取自己感兴趣的视频,通常会进行视频内容理解来识别视频中的关键信息。视频内容理解的一个重要环节是把视频中的信息提取为标签,从而利用标签去帮助用户对视频做搜索、帮助推荐系统用于推荐视频,还可以辅助内容的商业化。
[0003]通常通过人工标注视频的方式获取视频标签对分类模型进行训练,以使得模型可以准确地对视频进行分类识别。但是,传统的对视频进行人工标注的方式问题愈加明显。一方面,人工标注有效率瓶颈,如效率提升难度高,视频标注的操作时间与视频生成速度差距巨大,容易导致视频数量积压,很难保证时效性,影响业务效率。另一方面,人工标注的标签质量不稳定,如人工标注标签非常依赖编目人员对于视频内容、关键人物的理解深度,而且人工打标的质量和结果也具有随机性,很难保持一致。
技术实现思路
[0004]本申请提供一种视频分类模型训练方法、视频分类的方法和装置,能够有助于提高视频标注的效率和质量。
[0005]第一方面,本申请实施例提供一种视频分类模型训练的方法,包括:
[0006]从视频样本中获取文本数据和图像数据;
[0007]根据所述文本数据和所述图像数据,获取单模态标签和多模态标签中的至少一种;其中,所述单模态标签包括使用文本信息或图像信息表示视频内容的标签,所述多模态标签包括使用文本信息和图像信息表示视频内容的标签;
[0008]确定训练样本,所述训练样本包括所述视频样本和样本标签,所述样本标签包括所述单模态标签和所述多模态标签中的至少一种;
[0009]根据所述训练样本对所述视频分类模型进行参数更新,得到已训练的所述视频分类模型。
[0010]第二方面,本申请实施例提供一种视频分类的方法,包括:
[0011]获取待识别视频的图像特征、文本特征和语音特征;
[0012]将所述图像特征、所述文本特征和所述语音特征输入视频分类模型,得到所述待识别视频的类标签;其中,所述视频分类模型包括多头注意力模块和动态图形卷积网络;所述多头注意力模块用于输入所述图像特征、所述文本特征和所述语音特征,并得到融合特征;所述动态图形卷积网络用于输入所述融合特征,得到所述类标签;所述视频分类模型根据第一方面所述的方法训练得到。
[0013]第三方面,本申请实施例提供了一种视频分类模型训练的装置,包括:
[0014]获取单元,用于从视频样本中获取文本数据和图像数据;
[0015]所述获取单元还用于根据所述文本数据和所述图像数据,获取单模态标签和多模态标签中的至少一种;其中,所述单模态标签包括使用文本信息或图像信息表示视频内容的标签,所述多模态标签包括使用文本信息和图像信息表示视频内容的标签;
[0016]确定单元,用于确定训练样本,所述训练样本包括所述视频样本和样本标签,所述样本标签包括所述单模态标签和所述多模态标签中的至少一种;
[0017]训练单元,用于根据所述训练样本对所述视频分类模型进行参数更新,得到已训练的所述视频分类模型。
[0018]第四方面,本申请实施例提供了一种视频分类的装置,包括:
[0019]获取单元,用于获取待识别视频的图像特征、文本特征和语音特征;
[0020]视频分类模型,用于输入所述图像特征、所述文本特征和所述语音特征,得到所述待识别视频的类标签;其中,所述视频分类模型包括多头注意力模块和动态图形卷积网络;所述多头注意力模块用于输入所述图像特征、所述文本特征和所述语音特征,并得到融合特征;所述动态图形卷积网络用于输入所述融合特征,得到所述类标签;所述视频分类模型根据第一方面所述的方法训练得到。
[0021]第五方面,本申请实施例提供一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,执行如第一方面或第二方面中的方法。
[0022]第六方面,本申请实施例提供一种计算机可读存储介质,包括指令,当其在计算机上运行时使得计算机执行如第一方面或第二方面中的方法。
[0023]第七方面,本申请实施例提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行如第一方面或第二方面中的方法。
[0024]第八方面,本申请实施例提供一种计算机程序,计算机程序使得计算机执行如第一方面或第二方面中的方法。
[0025]通过上述技术方案,本申请实施例通过根据文本数据和图像数据获取单模态标签和多模态标签中的至少一种,得到不同模态的视频标签,由于不同模态的标签能够从视频的不同维度表征视频信息,因此通过不同维度的视频信息相互补充和协作,能够有利于全面完整地理解视频内容,提高视频标注的质量,进而使得视频分类模型能够准确地对视频进行分类识别。另外,本申请实施例能够融合多模态信息获取视频标签,而不需要对视频进行人工标注,从而能够有利于提高视频标注效率。
附图说明
[0026]图1为本申请实施例的方案的应用场景的一个示意图;
[0027]图2为根据本申请实施例的一种视频分类模型训练的方法的示意性流程图;
[0028]图3为根据本申请实施例的一种网络架构的示意图;
[0029]图4为根据本申请实施例的另一种网络架构的示意图;
[0030]图5为根据本申请实施例的图像数据的图像标签的具体例子;
[0031]图6为根据本申请实施例的另一种网络架构的示意图;
[0032]图7为根据本申请实施例的特征融合的一个具体例子;
[0033]图8为根据本申请实施例的Transformer网络的一个示意图;
[0034]图9为根据本申请实施例的视频切分的具体例子;
[0035]图10为根据本申请实施例的内容推荐的具体例子;
[0036]图11为根据本申请实施例的一种视频分类的方法的示意性流程图;
[0037]图12为根据本申请实施例的一种视频分类模型训练的装置的示意性框图;
[0038]图13为根据本身实施例的一种视频分类的装置的示意性框图;
[0039]图14为根据本申请实施例的电子设备的示意性框图。
具体实施方式
[0040]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。
[0041]应理解,在本申请实施例中,“与A对应的B”表示B与A相关联。在一种实现方式中,可以根据A确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
[0042]在本申请的描述中,除非另有说明,“至少一个”是指一个或多个,“多个”是指两本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种视频分类模型训练的方法,其特征在于,包括:从视频样本中获取文本数据和图像数据;根据所述文本数据和所述图像数据,获取单模态标签和多模态标签中的至少一种;其中,所述单模态标签包括使用文本信息或图像信息表示视频内容的标签,所述多模态标签包括使用文本信息和图像信息表示视频内容的标签;确定训练样本,所述训练样本包括所述视频样本和样本标签,所述样本标签包括所述单模态标签和所述多模态标签中的至少一种;根据所述训练样本对所述视频分类模型进行参数更新,得到已训练的所述视频分类模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述文本数据和所述图像数据,获取单模态标签和多模态标签中的至少一种,包括:根据所述文本数据获取关键词信息;利用所述关键词信息和知识图谱确定文本标签;其中所述单模态标签包括所述文本标签。3.根据权利要求1所述的方法,其特征在于,所述根据所述文本数据和所述图像数据,获取单模态标签和多模态标签中的至少一种,包括:根据所述图像数据获取实体信息;利用所述实体信息和知识图谱确定图像标签;其中所述单模态标签包括所述图像标签。4.根据权利要求3所述的方法,其特征在于,所述根据所述文本数据和所述图像数据,获取单模态标签和多模态标签中的至少一种,包括:根据所述文本数据,得到文本向量表示;根据所述图像数据,得到图像向量表示;将所述文本向量表示和所述图像向量表示输入神经网络模型,得到所述多模态标签。5.根据权利要求4所述的方法,其特征在于,所述神经网络模型包括Transformer网络。6.根据权利要求1所述的方法,其特征在于,所述文本数据包括视频标题、光学字符识别OCR数据和语音识别数据中的至少一种。7.根据权利要求2所述的方法,其特征在于,所述关键词信息包括实体关键词、抽象关键词和搜索关键词中的至少一种,所述文本标签包括所述关键词信息和所述关键词信息的不同粒度分类信息。8.根据权利要求3所述的方法,其特征在于,所述图像标签包括所述实体信息的分类信息和所述实体信息所属的垂类标签。9.根据权利要求1所述的方法,其特征在于,所述根据所述训练样本对所述视频分类模型进行参数更新,得到已训练的所述视频分类模型,包括:获取所述视频样本的图像特征、文本特征和语音特征;将所述图像特征、所述文本特征和所述语音特征输入多头注意力模块,得到融合特征;将所述融合特征输入动态图形卷积网络,得到所述视频样本的预测类标签;根据所述预测类标签和所述样本标签,确定损失函数;根据所述损失函数对所述多头注意...
【专利技术属性】
技术研发人员:汪俊明,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。