多媒体表征提取模型的构建方法和多媒体数据处理方法技术

技术编号:39275425 阅读:9 留言:0更新日期:2023-11-07 10:52
本申请涉及一种多媒体表征提取模型的构建方法、多媒体数据处理方法、装置、设备、存储介质和程序产品。所述方法涉及人工智能,包括:根据加速多媒体数据对样本集对初始多媒体表征提取模型进行训练,在训练过程中,通过辅助投影器对初始多媒体表征提取模型提取的多媒体特征投影,输出多媒体特征投影数据,基于多媒体特征投影数据确定比对损失值,在根据比对损失值确定满足训练结束条件,获得训练好的多媒体表征提取模型,利用训练好的多媒体表征提取模型,对加速待处理多媒体数据对进行信号表征提取处理,获得多媒体信号表征数据。采用本方法提升了训练得到的多媒体表征提取模型的表征提取精准度,减少后续针对多媒体数据对进行表征提取时的误差。行表征提取时的误差。行表征提取时的误差。

【技术实现步骤摘要】
多媒体表征提取模型的构建方法和多媒体数据处理方法


[0001]本申请涉及人工智能
,特别是涉及一种多媒体表征提取模型的构建方法、多媒体数据处理方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着人工智能技术的发展,以及各类应用程序或应用平台的广泛应用,对于应用程序在不同应用场景下的性能要求也日益提升,比如对于多媒体应用程序上的音视频分类、检索以及推荐场景,对其检索结果以及推荐结果的准确度要求也日益提升。
[0003]传统技术中,通常采用模型学习以及训练的方式,即通过采集样本数据,通过样本数据对初始网络模型进行训练,以获得训练好的网络模型,并进一步将训练好的网络模型投入多媒体应用程序中使用,来提升多媒体应用程序在不同应用场景下的应用性能。
[0004]然而,传统的模型训练方式下,为了增加样本数量以及丰富数据多样性,会采用加速采样的方式进行样本采集。但对于多媒体应用程序而言,若对其应用过程中的多媒体数据中的音、视频信号进行加速处理,会导致两者所表达的信号因为加速处理而产生偏差,从而将利用存在偏差的信号训练得到的网络模型投入实际使用时,仍然存在实际应用场景下的分类、推荐结果的准确度较为低下的问题。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够提升应用程序在实际应用场景下的分类、推荐准确度的多媒体表征提取模型的构建方法、多媒体数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0006]第一方面,本申请提供了一种多媒体表征提取模型的构建方法。所述方法包括:
[0007]获取多媒体数据对,并对各所述多媒体数据对进行加速增广处理,获得加速多媒体数据对样本集;
[0008]根据所述加速多媒体数据对样本集,对初始多媒体表征提取模型进行训练,在训练过程中,通过辅助投影器对所述初始多媒体表征提取模型提取的多媒体特征投影,输出多媒体特征投影数据,基于所述多媒体特征投影数据确定比对损失值,在根据所述比对损失值确定满足训练结束条件,获得训练好的多媒体表征提取模型。
[0009]第二方面,本申请还提供了一种多媒体数据处理方法。所述方法包括:
[0010]若接收到表征提取请求,获取与所述表征提取请求对应的待处理多媒体数据对;
[0011]基于所述待处理多媒体数据对进行加速增广处理,获得对应的加速待处理多媒体数据对;
[0012]利用训练好的多媒体表征提取模型,对所述加速待处理多媒体数据对进行信号表征提取处理,获得多媒体信号表征数据;
[0013]其中,所述多媒体表征提取模型,是根据加速多媒体数据对样本集对初始多媒体表征提取模型训练得到的,在训练过程中,通过辅助投影器对所述初始多媒体表征提取模
型提取的多媒体特征投影,输出多媒体特征投影数据,基于所述多媒体特征投影数据确定比对损失值,在根据所述比对损失值确定满足训练结束条件,获得训练好的多媒体表征提取模型。
[0014]第三方面,本申请还提供了一种多媒体表征提取模型的构建装置。所述装置包括:
[0015]样本集获得模块,用于获取多媒体数据对,并对各所述多媒体数据对进行加速增广处理,获得加速多媒体数据对样本集;
[0016]多媒体表征提取模型获得模块,用于根据所述加速多媒体数据对样本集,对初始多媒体表征提取模型进行训练,在训练过程中,通过辅助投影器对所述初始多媒体表征提取模型提取的多媒体特征投影,输出多媒体特征投影数据,基于所述多媒体特征投影数据确定比对损失值,在根据所述比对损失值确定满足训练结束条件,获得训练好的多媒体表征提取模型。
[0017]第四方面,本申请还提供了一种多媒体数据处理装置。所述装置包括:
[0018]待处理多媒体数据对获取模块,用于若接收到表征提取请求,获取与所述表征提取请求对应的待处理多媒体数据对;
[0019]加速增广处理模块,用于基于所述待处理多媒体数据对进行加速增广处理,获得对应的加速待处理多媒体数据对;
[0020]多媒体信号表征数据获得模块,用于利用训练好的多媒体表征提取模型,对所述加速待处理多媒体数据对进行信号表征提取处理,获得多媒体信号表征数据;其中,所述多媒体表征提取模型,是根据加速多媒体数据对样本集对初始多媒体表征提取模型训练得到的,在训练过程中,通过辅助投影器对所述初始多媒体表征提取模型提取的多媒体特征投影,输出多媒体特征投影数据,基于所述多媒体特征投影数据确定比对损失值,在根据所述比对损失值确定满足训练结束条件,获得训练好的多媒体表征提取模型。
[0021]第五方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0022]获取多媒体数据对,并对各所述多媒体数据对进行加速增广处理,获得加速多媒体数据对样本集;
[0023]根据所述加速多媒体数据对样本集,对初始多媒体表征提取模型进行训练,在训练过程中,通过辅助投影器对所述初始多媒体表征提取模型提取的多媒体特征投影,输出多媒体特征投影数据,基于所述多媒体特征投影数据确定比对损失值,在根据所述比对损失值确定满足训练结束条件,获得训练好的多媒体表征提取模型。
[0024]第六方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0025]若接收到表征提取请求,获取与所述表征提取请求对应的待处理多媒体数据对;
[0026]基于所述待处理多媒体数据对进行加速增广处理,获得对应的加速待处理多媒体数据对;
[0027]利用训练好的多媒体表征提取模型,对所述加速待处理多媒体数据对进行信号表征提取处理,获得多媒体信号表征数据;
[0028]其中,所述多媒体表征提取模型,是根据加速多媒体数据对样本集对初始多媒体表征提取模型训练得到的,在训练过程中,通过辅助投影器对所述初始多媒体表征提取模
型提取的多媒体特征投影,输出多媒体特征投影数据,基于所述多媒体特征投影数据确定比对损失值,在根据所述比对损失值确定满足训练结束条件,获得训练好的多媒体表征提取模型。
[0029]第七方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0030]获取多媒体数据对,并对各所述多媒体数据对进行加速增广处理,获得加速多媒体数据对样本集;
[0031]根据所述加速多媒体数据对样本集,对初始多媒体表征提取模型进行训练,在训练过程中,通过辅助投影器对所述初始多媒体表征提取模型提取的多媒体特征投影,输出多媒体特征投影数据,基于所述多媒体特征投影数据确定比对损失值,在根据所述比对损失值确定满足训练结束条件,获得训练好的多媒体表征提取模型。
[0032]第八方面,本申请还提供了一种计算机可读存储本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多媒体表征提取模型的构建方法,其特征在于,所述方法包括:获取多媒体数据对,并对各所述多媒体数据对进行加速增广处理,获得加速多媒体数据对样本集;根据所述加速多媒体数据对样本集,对初始多媒体表征提取模型进行训练,在训练过程中,通过辅助投影器对所述初始多媒体表征提取模型提取的多媒体特征投影,输出多媒体特征投影数据,基于所述多媒体特征投影数据确定比对损失值,在根据所述比对损失值确定满足训练结束条件,获得训练好的多媒体表征提取模型。2.根据权利要求1所述的方法,其特征在于,所述获取多媒体数据对,并对各所述多媒体数据对进行加速增广处理,获得加速多媒体数据对样本集,包括:获取多个视频片段;按照所述视频片段的播放时间顺序,依次提取各所述视频片段的视频数据和音频数据,获得多个多媒体数据对;对多个所述多媒体数据对进行加速增广处理,获得加速多媒体数据对样本集。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述加速多媒体数据对样本集,对初始多媒体表征提取模型进行训练,在训练过程中,通过辅助投影器对所述初始多媒体表征提取模型提取的多媒体特征投影,输出多媒体特征投影数据,基于所述多媒体特征投影数据确定比对损失值,在根据所述比对损失值确定满足训练结束条件,获得训练好的多媒体表征提取模型,包括:根据所述初始多媒体表征提取模型,对所述加速多媒体数据对样本集进行特征提取处理,获得多媒体特征;所述多媒体特征包括音频特征和视频特征;利用所述辅助投影器,对所述多媒体特征进行投影处理,获得多媒体特征投影数据;基于所述多媒体特征投影数据,确定与所述加速多媒体数据对对应的比对损失值;基于确定所述比对损失值确定是否满足训练结束条件,若满足训练结束条件,获得训练好的多媒体表征提取模型。4.根据权利要求3所述的方法,其特征在于,所述多媒体特征投影数据包括音频特征投影数据和视频特征投影数据;所述基于所述多媒体特征投影数据,确定与所述加速多媒体数据对对应的比对损失值,包括:确定所述音频特征投影数据和视频特征投影数据之间的相似度数据;根据所述相似度数据,确定与所述加速多媒体数据对对应的比对损失值。5.根据权利要求3所述的方法,其特征在于,在所述基于所述多媒体特征投影数据,确定与所述加速多媒体数据对对应的比对损失值之后,基于确定所述比对损失值确定是否满足训练结束条件之前,还包括:确定与所述加速多媒体数据对关联的协相关系数;根据所述协相关系数对所述比对损失值进行优化调整处理。6.根据权利要求5所述的方法,其特征在于,所述确定与所述加速多媒体数据对关联的协相关系数,包括:基于所述加速多媒体数据对进行映射处理,获得映射处理后的多媒体特征对;所述加速多媒体数据对包括加速音频数据和加速视频数据,所述多媒体特征对包括音频特征和视频特征;
对所述多媒体特征对,依次进行矩阵乘法处理、函数...

【专利技术属性】
技术研发人员:宋奕兵
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1