视频表征模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39044658 阅读:16 留言:0更新日期:2023-10-10 11:57
本公开实施例提供一种视频表征模型的训练方法、装置、电子设备及存储介质。该方法包括:获取第一视频数据、第一标签提示模板和第一标签,第二视频数据、第二标签提示模板和第二标签;第一视频数据和第二视频数据为不同类型的视频数据;将第一视频数据和第二视频数据输入至编码器,获得第一视频表征和第二视频表征;将第一视频表征和第一标签提示模板输入至解码器,获得第一预测标签;将第二视频表征和第二标签提示模板输入至解码器,获得第二预测标签;根据第一标签和第一预测标签对编码器和解码器进行阶段训练,在阶段训练完成时,根据第二标签和第二预测标签对编码器和解码器进行再次阶段训练,将再次阶段训练完成的编码器确定为视频表征模型。确定为视频表征模型。确定为视频表征模型。

【技术实现步骤摘要】
视频表征模型的训练方法、装置、电子设备及存储介质


[0001]本公开涉及计算机
,具体而言,涉及一种视频表征模型的训练方法、视频表征方法、视频表征模型的训练装置、视频表征装置、电子设备以及计算机可读存储介质。

技术介绍

[0002]随着视频技术的快速发展,观看各种类型的视频的用户越来越多。
[0003]相关技术中,在对不同类型的视频进行表征时,需要分别训练不同的表征模型,即针对每种类型的视频数据均需要训练一个视频表征模型,这种方法模型训练的效率较低,且训练获得的表征模型只能针对特定类型的视频数据使用。

技术实现思路

[0004]本公开实施例提供一种视频表征模型的训练方法、视频表征方法、视频表征模型的训练装置、视频表征装置、电子设备以及计算机可读存储介质,该方法一方面,采用单流模型对不同类型的视频数据进行处理,可以实现不同类型的视频数据的跨域表征;另一方面采用不同的提示模板来区别不同的训练任务,可以提高模型训练的效率。
[0005]本公开实施例提供一种视频表征模型的训练方法,该方法包括:获取第一视频数据、第一标签提示模板和第一标签;以及获取第二视频数据、第二标签提示模板和第二标签;其中所述第一视频数据和所述第二视频数据为不同类型的视频数据,第一标签提示模板用于提示解码器输出第一预测标签,所述第二标签提示模板用于提示所述解码器输出第二预测标签;将所述第一视频数据和所述第二视频数据分别输入至编码器中,获得所述第一视频数据的第一视频表征和所述第二视频数据的第二视频表征;将所述第一视频表征和所述第一标签提示模板输入至解码器中,获得第一预测标签;将所述第二视频表征和所述第二标签提示模板输入至所述解码器中,获得第二预测标签;根据所述第一标签和所述第一预测标签对所述编码器和所述解码器进行阶段训练,在所述阶段训练完成时,根据所述第二标签和所述第二预测标签对所述编码器和所述解码器进行再次阶段训练,将再次阶段训练完成的编码器确定为视频表征模型。
[0006]在本公开的一些示例性实施例中,所述第一视频数据包括第一视频和所述第一视频的文本,所述第二视频数据包括第二视频和所述第二视频的文本;所述将所述第一视频数据和所述第二视频数据分别输入至编码器中,包括:对所述第一视频进行视频特征提取,获得所述第一视频的视觉信息;对所述第一视频的文本进行文本分割,获得所述第一视频的文本信息;将起始标记、所述第一视频的视觉信息、分隔标记、所述第一视频的文本信息和结束标记进行拼接处理,获得所述第一视频的第一标记序列,将所述第一标记序列输入至所述编码器中;对所述第二视频进行视频特征提取,获得所述第二视频的视觉信息;对所述第二视频的文本进行文本分割,获得所述第二视频的文本信息;将所述起始标记、所述第二视频的视觉信息、所述分隔标记、所述第二视频的文本信息和所述结束标记进行拼接处理,获得所述第二视频的第二标记序列,将所述第二标记序列输入至所述编码器中。
[0007]在本公开的一些示例性实施例中,所述获取第一视频数据,包括:获取所述第一视频;对所述第一视频进行语音识别和文字检测,获得所述第一视频的文本;所述获取第二视频数据,包括:获取所述第二视频;对所述第二视频进行语音识别和文字检测,获得所述第二视频的文本。
[0008]在本公开的一些示例性实施例中,所述根据所述第一标签和所述第一预测标签对所述编码器和所述解码器进行阶段训练,包括:根据所述第一标签和所述第一预测标签确定第一损失;若所述第一损失大于第一预设值,则调整所述编码器的参数和所述解码器的参数,并根据所述第一视频数据和所述第一标签提示模板,对调整后的编码器和调整后的解码器再次进行训练,直至调整后的解码器输出的第一预测标签和所述第一标签之间的第一损失小于或等于所述第一预设值,所述阶段训练完成。
[0009]在本公开的一些示例性实施例中,所述根据所述第二标签和所述第二预测标签对所述编码器和所述解码器进行再次阶段训练,包括:根据所述第二标签和所述第二预测标签确定第二损失;若所述第二损失大于第二预设值,则调整所述编码器的参数和所述解码器的参数,并根据所述第二视频数据和所述第二标签提示模板,对调整后的编码器和调整后的解码器再次进行训练,直至调整后的解码器输出的第二预测标签和所述第二标签之间的第二损失小于或等于所述第二预设值,所述再次阶段训练完成。
[0010]在本公开的一些示例性实施例中,所述第一视频数据为短视频数据,所述第一标签提示模板为短视频标签提示模板,所述第一标签为短视频标签;所述第二视频数据为直播视频数据,所述第二标签提示模板为直播视频标签提示模板,所述第二标签为直播视频标签。
[0011]本公开实施例提供一种视频表征方法,包括:获取第一待处理视频数据和第二待处理视频数据,其中所述第一待处理视频数据和所述第二待处理视频数据为不同类型的视频数据;将所述第一待处理视频数据和所述第二待处理视频数据分别输入至上述任一种方法训练获得的视频表征模型中,获得所述第一待处理视频数据的第一视频表征和所述第二待处理视频数据的第二视频表征。
[0012]在本公开的一些示例性实施例中,所述方法还包括:根据所述第一视频表征和所述第二视频表征,确定所述第一视频数据和所述第二视频数据的相似度,所述相似度用于根据所述第一视频数据推荐所述第二视频数据,或者根据所述第二视频数据推荐所述第一视频数据。
[0013]本公开实施例提供一种视频表征模型的训练装置,包括:获取模块,被配置为执行获取第一视频数据、第一标签提示模板和第一标签;以及获取第二视频数据、第二标签提示模板和第二标签;其中所述第一视频数据和所述第二视频数据为不同类型的视频数据,所述第一标签提示模板用于提示解码器输出第一预测标签,所述第二标签提示模板用于提示所述解码器输出第二预测标签;获得模块,被配置为执行将所述第一视频数据和所述第二视频数据分别输入至编码器中,获得所述第一视频数据的第一视频表征和所述第二视频数据的第二视频表征;所述获得模块还被配置为执行将所述第一视频表征和所述第一标签提示模板输入至解码器中,获得第一预测标签;所述获得模块还被配置为执行将所述第二视频表征和所述第二标签提示模板输入至所述解码器中,获得第二预测标签;训练模块,被配置为执行根据所述第一标签和所述第一预测标签对所述编码器和所述解码器进行阶段训
练,在所述阶段训练完成时,根据所述第二标签和所述第二预测标签对所述编码器和所述解码器进行再次阶段训练,将再次阶段训练完成的编码器确定为视频表征模型。
[0014]本公开实施例提供一种视频表征装置,包括:获取模块,被配置为执行获取第一待处理视频数据和第二待处理视频数据,其中所述第一待处理视频数据和所述第二待处理视频数据为不同类型的视频数据;获得模块,被配置为执行将所述第一待处理视频数据和所述第二待处理视频数据分别输入至上述任一种方法训练获得的视频表征模型中,获得所述第一待处理视频数据的第一视频表征和所述第二待处理视频数据的第二视频表征。
[0015]本公开实施例提供一种电子设备,包括:处理器;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频表征模型的训练方法,其特征在于,包括:获取第一视频数据、第一标签提示模板和第一标签;以及获取第二视频数据、第二标签提示模板和第二标签;其中所述第一视频数据和所述第二视频数据为不同类型的视频数据,所述第一标签提示模板用于提示解码器输出第一预测标签,所述第二标签提示模板用于提示所述解码器输出第二预测标签;将所述第一视频数据和所述第二视频数据分别输入至编码器中,获得所述第一视频数据的第一视频表征和所述第二视频数据的第二视频表征;将所述第一视频表征和所述第一标签提示模板输入至解码器中,获得所述第一预测标签;将所述第二视频表征和所述第二标签提示模板输入至所述解码器中,获得所述第二预测标签;根据所述第一标签和所述第一预测标签对所述编码器和所述解码器进行阶段训练,在所述阶段训练完成时,根据所述第二标签和所述第二预测标签对所述编码器和所述解码器进行再次阶段训练,将再次阶段训练完成的编码器确定为视频表征模型。2.根据权利要求1所述的视频表征模型的训练方法,其特征在于,所述第一视频数据包括第一视频和所述第一视频的文本,所述第二视频数据包括第二视频和所述第二视频的文本;所述将所述第一视频数据和所述第二视频数据分别输入至编码器中,包括:对所述第一视频进行视频特征提取,获得所述第一视频的视觉信息;对所述第一视频的文本进行文本分割,获得所述第一视频的文本信息;将起始标记、所述第一视频的视觉信息、分隔标记、所述第一视频的文本信息和结束标记进行拼接处理,获得所述第一视频的第一标记序列,将所述第一标记序列输入至所述编码器中;对所述第二视频进行视频特征提取,获得所述第二视频的视觉信息;对所述第二视频的文本进行文本分割,获得所述第二视频的文本信息;将所述起始标记、所述第二视频的视觉信息、所述分隔标记、所述第二视频的文本信息和所述结束标记进行拼接处理,获得所述第二视频的第二标记序列,将所述第二标记序列输入至所述编码器中。3.根据权利要求2所述的视频表征模型的训练方法,其特征在于,所述获取第一视频数据,包括:获取所述第一视频;对所述第一视频进行语音识别和文字检测,获得所述第一视频的文本;所述获取第二视频数据,包括:获取所述第二视频;对所述第二视频进行语音识别和文字检测,获得所述第二视频的文本。4.根据权利要求1所述的视频表征模型的训练方法,其特征在于,所述根据所述第一标签和所述第一预测标签对所述编码器和所述解码器进行阶段训练,包括:根据所述第一标签和所述第一预测标签确定第一损失;若所述第一损失大于第一预设值,则调整所述编码器的参数和所述解码器的参数,并根据所述第一视频数据和所述第一标签提示模板,对调整后的编码器和调整后的解码器再次进行训练,直至调整后的解码器输出的第一预测标签和所述第一标签之间的第一损失小
于或等于所述第一预设值,所述阶段训练完成。5.根据权利要求1或4所述的视频表征模型的训练方法,其特征在于,所述根据所述第二标签和所述第二预测标签对所述编码器和所述解码器进行再次阶段训练,包括:根据所述第二标签和所述第二预测标签确定第二损失;若所述第二损失大于第二预设值,则调整所述编码器的参数和所述解码器的参数,并根据所述第二视频数据和所述第二标签提示模板,对调整后的编码器和调整后的解码器再次进行训练,直至调整后的解码器输出的第二预测标签和所述第二标签之间的第...

【专利技术属性】
技术研发人员:沈栋
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1