视频分类模型训练的方法、视频分类的方法和装置制造方法及图纸

技术编号：39275708 阅读：18 留言：0更新日期：2023-11-07 10:52

本申请提供了一种视频分类模型训练方法、视频分类的方法和装置，涉及人工智能领域。该视频分类模型训练的方法，包括：从视频样本中获取文本数据和图像数据；根据文本数据和图像数据，获取单模态标签和多模态标签中的至少一种；其中，单模态标签包括使用文本信息或图像信息表示视频内容的标签，多模态标签包括使用文本信息和图像信息表示视频内容的标签；确定训练样本，该训练样本包括视频样本和样本标签，该样本标签包括单模态标签和多模态标签中的至少一种；根据训练样本对视频分类模型进行参数更新，得到已训练的视频分类模型。本申请实施例能够有助于提高视频标注的效率和质量。实施例能够有助于提高视频标注的效率和质量。实施例能够有助于提高视频标注的效率和质量。

全部详细技术资料下载

【技术实现步骤摘要】
视频分类模型训练的方法、视频分类的方法和装置

[0001]本申请实施例涉及人工智能
，尤其涉及一种用于视频的文字分类方法、文字分类模型训练方法和装置。

技术介绍

[0002]随着互联网技术的快速发展，多媒体的应用越来越广泛，视频数量也急剧增长，用户可以通过各种多媒体平台浏览各种各样的视频。为了使用户可以从海量的视频中获取自己感兴趣的视频，通常会进行视频内容理解来识别视频中的关键信息。视频内容理解的一个重要环节是把视频中的信息提取为标签，从而利用标签去帮助用户对视频做搜索、帮助推荐系统用于推荐视频，还可以辅助内容的商业化。
[0003]通常通过人工标注视频的方式获取视频标签对分类模型进行训练，以使得模型可以准确地对视频进行分类识别。但是，传统的对视频进行人工标注的方式问题愈加明显。一方面，人工标注有效率瓶颈，如效率提升难度高，视频标注的操作时间与视频生成速度差距巨大，容易导致视频数量积压，很难保证时效性，影响业务效率。另一方面，人工标注的标签质量不稳定，如人工标注标签非常依赖编目人员对于视频内容、关键人物的理解深度，而且人工打标的质量和结果也具有随机性，很难保持一致。

技术实现思路

[0004]本申请提供一种视频分类模型训练方法、视频分类的方法和装置，能够有助于提高视频标注的效率和质量。
[0005]第一方面，本申请实施例提供一种视频分类模型训练的方法，包括：
[0006]从视频样本中获取文本数据和图像数据；
[0007]根据所述文本数据和所述图像数据，获取单模态标...

【技术保护点】

【技术特征摘要】
1.一种视频分类模型训练的方法，其特征在于，包括：从视频样本中获取文本数据和图像数据；根据所述文本数据和所述图像数据，获取单模态标签和多模态标签中的至少一种；其中，所述单模态标签包括使用文本信息或图像信息表示视频内容的标签，所述多模态标签包括使用文本信息和图像信息表示视频内容的标签；确定训练样本，所述训练样本包括所述视频样本和样本标签，所述样本标签包括所述单模态标签和所述多模态标签中的至少一种；根据所述训练样本对所述视频分类模型进行参数更新，得到已训练的所述视频分类模型。2.根据权利要求1所述的方法，其特征在于，所述根据所述文本数据和所述图像数据，获取单模态标签和多模态标签中的至少一种，包括：根据所述文本数据获取关键词信息；利用所述关键词信息和知识图谱确定文本标签；其中所述单模态标签包括所述文本标签。3.根据权利要求1所述的方法，其特征在于，所述根据所述文本数据和所述图像数据，获取单模态标签和多模态标签中的至少一种，包括：根据所述图像数据获取实体信息；利用所述实体信息和知识图谱确定图像标签；其中所述单模态标签包括所述图像标签。4.根据权利要求3所述的方法，其特征在于，所述根据所述文本数据和所述图像数据，获取单模态标签和多模态标签中的至少一种，包括：根据所述文本数据，得到文本向量表示；根据所述图像数据，得到图像向量表示；将所述文本向量表示和所述图像向量表示输入神经网络模型，得到所述多模态标签。5.根据权利要求4所述的方法，其特征在于，所述神经网络模型包括Transformer网络。6.根据权利要求1所述的方法，其特征在于，所述文本数据包括视频标题、光学字符识别OCR数据和语音识别数据中的至少一种。7.根据权利要求2所述的方法，其特征在于，所述关键词信息包括实体关键词、抽象关键词和搜索关键词中的至少一种，所述文本标签包括所述关键词信息和所述关键词信息的不同粒度分类信息。8.根据权利要求3所述的方法，其特征在于，所述图像标签包括所述实体信息的分类信息和所述实体信息所属的垂类标签。9.根据权利要求1所述的方法，其特征在于，所述根据所述训练样本对所述视频分类模型进行参数更新，得到已训练的所述视频分类模型，包括：获取所述视频样本的图像特征、文本特征和语音特征；将所述图像特征、所述文本特征和所述语音特征输入多头注意力模块，得到融合特征；将所述融合特征输入动态图形卷积网络，得到所述视频样本的预测类标签；根据所述预测类标签和所述样本标签，确定损失函数；根据所述损失函数对所述多头注意...

【专利技术属性】
技术研发人员：汪俊明，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人