多媒体表征提取模型的构建方法和多媒体数据处理方法技术

技术编号：39275425 阅读：9 留言：0更新日期：2023-11-07 10:52

本申请涉及一种多媒体表征提取模型的构建方法、多媒体数据处理方法、装置、设备、存储介质和程序产品。所述方法涉及人工智能，包括：根据加速多媒体数据对样本集对初始多媒体表征提取模型进行训练，在训练过程中，通过辅助投影器对初始多媒体表征提取模型提取的多媒体特征投影，输出多媒体特征投影数据，基于多媒体特征投影数据确定比对损失值，在根据比对损失值确定满足训练结束条件，获得训练好的多媒体表征提取模型，利用训练好的多媒体表征提取模型，对加速待处理多媒体数据对进行信号表征提取处理，获得多媒体信号表征数据。采用本方法提升了训练得到的多媒体表征提取模型的表征提取精准度，减少后续针对多媒体数据对进行表征提取时的误差。行表征提取时的误差。行表征提取时的误差。

全部详细技术资料下载

【技术实现步骤摘要】
多媒体表征提取模型的构建方法和多媒体数据处理方法

[0001]本申请涉及人工智能
，特别是涉及一种多媒体表征提取模型的构建方法、多媒体数据处理方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着人工智能技术的发展，以及各类应用程序或应用平台的广泛应用，对于应用程序在不同应用场景下的性能要求也日益提升，比如对于多媒体应用程序上的音视频分类、检索以及推荐场景，对其检索结果以及推荐结果的准确度要求也日益提升。
[0003]传统技术中，通常采用模型学习以及训练的方式，即通过采集样本数据，通过样本数据对初始网络模型进行训练，以获得训练好的网络模型，并进一步将训练好的网络模型投入多媒体应用程序中使用，来提升多媒体应用程序在不同应用场景下的应用性能。
[0004]然而，传统的模型训练方式下，为了增加样本数量以及丰富数据多样性，会采用加速采样的方式进行样本采集。但对于多媒体应用程序而言，若对其应用过程中的多媒体数据中的音、视频信号进行加速处理，会导致两者所表达的信号因为加速处理而产生偏差，从而将利用存在偏差的信号训练得到的网络模型投入实际使用时，仍然存在实际应用场景下的分类、推荐结果的准确度较为低下的问题。

技术实现思路

[0005]基于此，有必要针对上述技术问题，提供一种能够提升应用程序在实际应用场景下的分类、推荐准确度的多媒体表征提取模型的构建方法、多媒体数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0006]第一方面，本申请提供了...

【技术保护点】

【技术特征摘要】
1.一种多媒体表征提取模型的构建方法，其特征在于，所述方法包括：获取多媒体数据对，并对各所述多媒体数据对进行加速增广处理，获得加速多媒体数据对样本集；根据所述加速多媒体数据对样本集，对初始多媒体表征提取模型进行训练，在训练过程中，通过辅助投影器对所述初始多媒体表征提取模型提取的多媒体特征投影，输出多媒体特征投影数据，基于所述多媒体特征投影数据确定比对损失值，在根据所述比对损失值确定满足训练结束条件，获得训练好的多媒体表征提取模型。2.根据权利要求1所述的方法，其特征在于，所述获取多媒体数据对，并对各所述多媒体数据对进行加速增广处理，获得加速多媒体数据对样本集，包括：获取多个视频片段；按照所述视频片段的播放时间顺序，依次提取各所述视频片段的视频数据和音频数据，获得多个多媒体数据对；对多个所述多媒体数据对进行加速增广处理，获得加速多媒体数据对样本集。3.根据权利要求1或2所述的方法，其特征在于，所述根据所述加速多媒体数据对样本集，对初始多媒体表征提取模型进行训练，在训练过程中，通过辅助投影器对所述初始多媒体表征提取模型提取的多媒体特征投影，输出多媒体特征投影数据，基于所述多媒体特征投影数据确定比对损失值，在根据所述比对损失值确定满足训练结束条件，获得训练好的多媒体表征提取模型，包括：根据所述初始多媒体表征提取模型，对所述加速多媒体数据对样本集进行特征提取处理，获得多媒体特征；所述多媒体特征包括音频特征和视频特征；利用所述辅助投影器，对所述多媒体特征进行投影处理，获得多媒体特征投影数据；基于所述多媒体特征投影数据，确定与所述加速多媒体数据对对应的比对损失值；基于确定所述比对损失值确定是否满足训练结束条件，若满足训练结束条件，获得训练好的多媒体表征提取模型。4.根据权利要求3所述的方法，其特征在于，所述多媒体特征投影数据包括音频特征投影数据和视频特征投影数据；所述基于所述多媒体特征投影数据，确定与所述加速多媒体数据对对应的比对损失值，包括：确定所述音频特征投影数据和视频特征投影数据之间的相似度数据；根据所述相似度数据，确定与所述加速多媒体数据对对应的比对损失值。5.根据权利要求3所述的方法，其特征在于，在所述基于所述多媒体特征投影数据，确定与所述加速多媒体数据对对应的比对损失值之后，基于确定所述比对损失值确定是否满足训练结束条件之前，还包括：确定与所述加速多媒体数据对关联的协相关系数；根据所述协相关系数对所述比对损失值进行优化调整处理。6.根据权利要求5所述的方法，其特征在于，所述确定与所述加速多媒体数据对关联的协相关系数，包括：基于所述加速多媒体数据对进行映射处理，获得映射处理后的多媒体特征对；所述加速多媒体数据对包括加速音频数据和加速视频数据，所述多媒体特征对包括音频特征和视频特征；
对所述多媒体特征对，依次进行矩阵乘法处理、函数...

【专利技术属性】
技术研发人员：宋奕兵，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人