模型训练方法、视频生成方法、电子设备技术

技术编号：43396820 阅读：18 留言：0更新日期：2024-11-19 18:13

本申请实施例提供一种模型训练方法、视频生成方法、电子设备。该方法包括：获取采样视频，并使用采样视频对多个编码器进行预训练；其中，各编码器分别基于不同的预设任务，使用自监督学习方法训练；使用训练好的各编码器分别提取采样视频的各预设特征，并进行加权求和得到采样视频对应的第一潜空间向量；使用扩散模型对第一潜空间向量进行加噪和去噪处理，得到第二潜空间向量；使用解码器对第二潜空间向量进行解码和视频转换处理得到对应的预测视频；根据采样视频和预测视频，调整扩散模型和解码器的参数，直至得到训练好的扩散模型和解码器。该方法用以达到减少训练数据量，且能提高视频编码特征信息维度和提升生成视频质量的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能(artificial intelligence，ai)，尤其涉及一种模型训练方法、视频生成方法、电子设备。

技术介绍

1、目前，可以通过视频生成模型生成具有高度真实感和动态效果的视频。

2、视频生成模型中通常包括编码器，编码器用于在视频中提取视频特征。在相关技术中，视频生成模型中的编码器通常采用变分自编码器(variational autoencoderencoder，vae)，vae通过提取视频中的一些特征数据，得到该视频的潜空间变量，并通过解码器将潜空间变量映射回原始数据空间，从而实现了数据的生成和重建过程。

3、实际使用过程中发现，vae在对视频编码过程中，仍然存在从视频中提取到的特征的维度不足的问题。为改进传统vae无法提取视频有效特征的问题，可以利用特定变换的视频作为训练编码器的监督信号。然而，这种训练方法需要利用先验知识确定有效特征，进行大量的视频或图像变换，工作量较大。

技术实现思路

1、本申请实施例提供一种模型训练方法、视频生成方法、电子设备，用以达到减少训练数据量，且能提高图像编码特征信息维度的效果。

2、第一方面，本申请实施例提供一种模型训练方法，模型包括多个编码器、扩散模型和解码器，方法包括：

3、获取采样视频，并使用采样视频对多个编码器进行预训练；其中，各编码器分别基于不同的预设任务，使用自监督学习方法训练；训练好的各编码器分别用于提取采样视频的不同的预设特征；

4、使用训练好的

5、使用扩散模型对第一潜空间向量进行加噪和去噪处理，得到第二潜空间向量；

6、使用解码器对第二潜空间向量进行解码，得到对应的预测嵌入向量；并对预测嵌入向量进行视频转换处理得到对应的预测视频；

7、根据采样视频和预测视频，调整扩散模型和解码器的参数，直至得到训练好的扩散模型和解码器。

8、在一种可能的实施方式中，扩散模型包括前向扩散网络和后向扩散网络；

9、使用扩散模型对第一潜空间向量进行加噪和去噪处理，得到第二潜空间向量，包括：

10、将第一潜空间向量输入前向扩散网络，以使前向扩散网络对第一潜空间向量加入噪声；

11、经过预设次数的加噪处理，得到第一潜空间向量对应的噪声向量；

12、将噪声向量输入后向扩散网络，以使后向扩散网络在噪声向量中减去预测的噪声；

13、经过预设次数的去噪处理，得到第二潜空间向量。

14、在一种可能的实施方式中，预测的噪声基于后向扩散网络中的引导条件得到；

15、方法还包括：

16、获取生成条件，并对生成条件进行编码，得到生成条件编码；

17、将生成条件编码以交叉注意力的方式添加至后向扩散网络，作为后向扩散模型的引导条件。

18、在一种可能的实施方式中，对预测嵌入向量进行视频转换处理，得到对应的预测视频，包括：

19、对预测嵌入向量进行反向嵌入处理，得到预测嵌入向量对应的第二像素块集合；

20、基于预设的排序方式，对第二像素块集合进行排列和拼接，得到对应的预测视频。

21、在一种可能的实施方式中，使用采样视频对多个编码器进行预训练，包括：

22、对采样视频的每个视频帧进行分块处理，得到多个像素块，并按照预设顺序对多个像素块进行排序，得到采样视频对应的第一像素块集合；

23、将第一像素块集合进行向量嵌入处理，得到对应的采样视频嵌入向量；

24、使用采样视频嵌入向量对各编码器进行训练，得到训练好的各编码器；训练好的各编码器分别用于基于采样视频嵌入向量提取采样视频不同的预设特征。

25、在一种可能的实施方式中，模型中的编码器包括第一编码器、第二编码器和第三编码器；

26、第一编码器用于提取采样视频的图像表征向量；

27、第二编码器用于提取采样视频的时域特征向量；

28、第三编码器用于提取采样视频的动态特征向量。

29、在一种可能的实施方式中，第一编码器的训练方法包括：

30、将采样视频嵌入向量输入第一编码器，得到采样视频对应的图像表征向量；

31、使用第一编码器对应的第一解码器对图像表征向量进行解码，得到采样视频对应的重建视频；

32、根据重建视频和采样视频的差异，调整第一编码器和第一解码器的参数，得到训练好的第一编码器和第一解码器。

33、在一种可能的实施方式中，第二编码器的训练方法包括：

34、将采样视频嵌入向量输入第二编码器，得到采样视频对应的时域特征向量；

35、使用顺序预测网络对时域特征向量进行解码，得到采样视频对应的视频帧预测顺序码；

36、根据采样视频的视频帧顺序码与视频帧预测顺序码的差异，调整第二编码器和顺序预测网络的参数，得到训练好的第二编码器和顺序预测网络。

37、在一种可能的实施方式中，第三编码器的训练方法包括：

38、将采样视频嵌入向量输入第三编码器，得到采样视频对应的动态特征向量；动态特征向量用于表征采样视频的运动速度特征和动态对象特征；

39、将动态特征向量和目标帧速度输入图像差预测网络，得到对应的预测图像差；

40、根据预测图像差与采样视频的图像差真值的差异，调整第三编码器和图像差预测网络的参数，得到训练好的第三编码器和图像差预测网络。

41、第二方面，本申请实施例提供一种模型训练装置，模型包括多个编码器、扩散模型和解码器，装置包括：

42、获取模块，用于获取采样视频，并使用采样视频对多个编码器进行预训练；其中，各编码器分别基于不同的预设任务，使用自监督学习方法训练；训练好的各编码器分别用于提取采样视频的不同的预设特征；

43、预训练模块，用于使用训练好的各编码器分别提取采样视频的各预设特征，并将各预设特征进行加权求和得到采样视频对应的第一潜空间向量；

44、扩散模块，用于使用扩散模型对第一潜空间向量进行加噪和去噪处理，得到第二潜空间向量；

45、解码模块，用于使用解码器对第二潜空间向量进行解码，得到对应的预测嵌入向量；并对预测嵌入向量进行视频转换处理，得到对应的预测视频；

46、调整模块，用于根据采样视频和预测视频，调整扩散模型和解码器的参数，直至得到训练好的扩散模型和解码器。

47、第三方面，本申请实施例提供一种视频生成方法，包括：

48、获取用于生成视频的条件描述，条件描述包括以下至少一项：文本描述、图像描述和视频描述；

49、对条件描述进行编码处理，得到条件编码；

50、以条件编码作为引导条件，使用如上第一方面和/或第一方面各种可能的实施本文档来自技高网...

【技术保护点】

1.一种模型训练方法，其特征在于，所述模型包括多个编码器、扩散模型和解码器，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述扩散模型包括前向扩散网络和后向扩散网络；

3.根据权利要求2所述的方法，其特征在于，所述预测的噪声基于所述后向扩散网络中的引导条件得到；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述对所述预测嵌入向量进行视频转换处理，得到对应的预测视频，包括：

5.根据权利要求1所述的方法，其特征在于，所述使用所述采样视频对多个编码器进行预训练，包括：

6.根据权利要求5所述的方法，其特征在于，所述模型中的编码器包括第一编码器、第二编码器和第三编码器；

7.根据权利要求6所述的方法，其特征在于，所述第一编码器的训练方法包括：

8.根据权利要求6所述的方法，其特征在于，所述第二编码器的训练方法包括：

9.根据权利要求6所述的方法，其特征在于，所述第三编码器的训练方法包括：

10.一种模型训练装置，其特征在于，所述模型包括多个编码器、扩散模型和解码器，所述装置包括：

11.一种视频生成方法，其特征在于，包括：

12.一种视频生成装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括存储器和处理器；其中，

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述权利要求1-9或11任一项所述的方法。

15.一种计算机程序产品，其特征在于，所述计算机程序被处理器执行时实现如上述权利要求1-9或11任一项所述的方法。

...

【技术特征摘要】