视频生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号：44257605 阅读：2 留言：0更新日期：2025-02-14 22:03

本公开实施例公开了一种视频生成方法、装置、电子设备和存储介质，其中，该方法包括：获取第一视频片段和文本描述信息；基于对第一适配器模型和视频模型进行联合训练得到的第二适配器模型，对所述第一视频片段进行处理，得到第一向量；基于所述视频模型，对所述文本描述信息和所述第一向量进行处理，得到第二视频片段。本公开实施例可以生成与文本描述信息和第一视频片段表征信息高度匹配且可以控制目标对象移动轨迹的视频片段。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及文生视频技术，尤其是一种视频生成方法、装置、电子设备和存储介质。

技术介绍

1、随着视频生成模型技术的迅速发展，使得视频生成模型在人工智能内容生成（artificial intelligence generated content，aigc）
中大放异彩。

2、相关技术中，对用户输入的文本描述信息进行自然语言处理，得到相应的特征信息，利用视频生成模型对特征信息进行处理，从而生成文本描述信息对应的视频。在生成视频时，对视频中物体运动轨迹的控制是一个非常重要的需求，例如在电影或电视剧的后期制作中，可以利用这种技术生成或修改特定场景，例如添加或调整物体的运动，而无需重新拍摄。这样可以节省大量的成本和时间，同时提高制作效率和质量。

3、如何生成与文本描述信息高度匹配、且可以控制物体运动轨迹的视频，是一个亟待解决的问题。

技术实现思路

1、本公开实施例提供一种视频生成方法、装置、电子设备和存储介质，以解决上述问题。

2、本公开实施例的第一方面，提供一种视频生成方法，包括：

3、获取第一视频片段和文本描述信息，其中，所述文本描述信息至少包括第一目标对象的属性信息，所述第一视频片段的各视频帧的像素值为预设像素值，且所述第一视频片段的各视频帧具有所述第一目标对象位置的目标框；

4、基于对第一适配器模型和视频模型进行联合训练得到的第二适配器模型，对所述第一视频片段进行处理，得到第一向量；

5、基于所述视频模型，对

6、在本公开的一些实施例中，所述获取第一视频片段，包括：

7、基于预设的视频帧率、分辨率与视频时长，获取第三视频片段，其中，所述第三视频片段的各视频帧的像素值为所述预设像素值；

8、基于预设的对象位置信息，确定所述第三视频片段的各视频帧中所述第一目标对象在所述各视频帧中的位置；

9、基于所述第三视频片段的各视频帧中所述第一目标对象在所述各视频帧中的位置，确定所述第三视频片段的各视频帧中的目标框，得到所述第一视频片段。

10、在本公开的一些实施例中，所述第二适配器模型和所述视频模型的输入层结构相同，所述第二适配器模型的输入层和所述视频模型的输入层均包括多个下采样层；

11、所述基于对第一适配器模型和视频模型进行联合训练得到的第二适配器模型，对所述第一视频片段进行处理，得到第一向量，包括：基于所述第二适配器模型对所述第一视频片段进行处理，得到所述第二适配器模型各下采样层的输出向量，其中，所述第一向量包括所述第二适配器模型各下采样层的输出向量；

12、所述基于所述视频模型，对所述文本描述信息和所述第一向量进行处理，得到第二视频片段，包括：将所述文本描述信息、第一高斯噪声输入所述视频模型；在每个时间步，将所述二适配器模型各下采样层的输出向量分别与所述视频模型对应的下采样层的输出向量进行加权计算，得到各下采样层输出向量的加权计算结果，并将各下采样层输出向量的加权计算结果作为所述视频模型对应下一个采样层的输入，以得到所述第二视频片段。

13、在本公开的一些实施例中，所述将所述第二适配器模型各下采样层的输出向量分别与所述视频模型对应的下采样层的输出向量进行加权计算，得到各下采样层输出向量的加权计算结果，并将各下采样层输出向量的加权计算结果作为所述视频模型对应下一个采样层的输入，包括：

14、基于所述视频模型，对所述文本描述信息和第一高斯噪声矩阵进行处理，得到第一视频输出向量，其中，所述第一视频输出向量为所述视频模型第一个下采样层的输出向量；

15、对所述第一视频输出向量和第一适配器对应层的输出向量进行加权计算，得到第一输入向量，其中，所述第一视频输出向量的所述第一适配器对应层的输出向量为所述第一适配器模型第一个下采样层的输出向量；

16、将所述第一输入向量作为所述视频模型第二个下采样层的输入，得到第二视频输出向量，其中，所述第二视频输出向量为所述视频模型第二个下采样层的输出向量，所述视频模型第一个下采样层与所述视频模型第二个下采样层相邻；

17、将第n输入向量作为所述视频模型第n+1个下采样层的输入，得到所述视频模型第n+1个下采样层的输出向量，其中，第n输入向量基于所述视频模型第n个下采样层的输出向量与所述第二适配器模型第n个下采样层的输出向量加权计算得到，n为大于1的整数。

18、在本公开的一些实施例中，在所述基于对第一适配器模型和视频模型进行联合训练得到的第二适配器模型，对所述第一视频片段进行处理，得到第一向量之前，还包括：

19、获取样本视频片段和样本文本描述信息，其中，所述样本文本描述信息至少包括第二目标对象的属性信息，所述样本视频片段的各视频帧中具有表示第二目标对象位置的目标框；

20、固定所述视频模型的参数，基于所述样本视频片段和所述样本文本描述信息，对所述第一适配器模型和所述视频模型进行联合训练，得到第三适配器模型；

21、获取与所述样本视频片段帧率相同、分辨率相同、时长相同、各视频帧的像素值为所述预设像素值、且各视频帧的目标框位置相同的第四视频片段；

22、固定所述视频模型的参数，基于所述第四视频片段和所述样本文本描述信息，对所述第三适配器模型和所述视频模型进行联合训练，得到所述第二适配器模型。

23、在本公开的一些实施例中，所述固定所述视频模型的参数，基于所述样本视频片段和所述样本文本描述信息，对所述第一适配器模型和所述视频模型进行联合训练，得到第三适配器模型，包括：

24、基于所述第一适配器模型对所述样本视频片段进行处理，得到所述第一适配器模型各下采样层的输出向量；

25、基于所述视频模型，对所述样本文本描述信息、所述第一适配器模型各中间层的输出向量，以及第二高斯噪声矩阵进行处理，得到第五视频片段；

26、固定所述视频模型的参数，基于所述第五视频片段与所述样本视频片段之间的差异，调整所述第一适配器模型的参数得到所述第三适配器模型。

27、在本公开的一些实施例中，所述固定所述视频模型的参数，基于所述第四视频片段和所述样本文本描述信息，对所述第三适配器模型和所述视频模型进行联合训练，得到所述第二适配器模型，包括：

28、基于所述第三适配器模型对所述第四视频片段进行处理，得到所述第三适配器模型各下采样层的输出向量；

29、基于所述视频模型，对所述样本文本描述信息、所述第三适配器模型各中间层的输出向量，以及第三高斯噪声矩阵进行处理，得到第六视频片段；

30、固定所述视频模型的参数，基于所述第六视频片段与所述样本视频片段之间的差异，调整所述第三适配器模型的参数得到所述第二适配器模型。

31、本公开实施例本文档来自技高网...

【技术保护点】

1.一种视频生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第一视频片段，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述第二适配器模型和所述视频模型的输入层结构相同，所述第二适配器模型的输入层和所述视频模型的输入层均包括多个下采样层；

4.根据权利要求3所述的方法，其特征在于，所述将所述第二适配器模型各下采样层的输出向量分别与所述视频模型对应的下采样层的输出向量进行加权计算，得到各下采样层输出向量的加权计算结果，并将各下采样层输出向量的加权计算结果作为所述视频模型对应下一个采样层的输入，包括：

5.根据权利要求1或2所述的方法，其特征在于，在所述基于对第一适配器模型和视频模型进行联合训练得到的第二适配器模型，对所述第一视频片段进行处理，得到第一向量之前，还包括：

6.根据权利要求5所述的方法，其特征在于，所述固定所述视频模型的参数，基于所述样本视频片段和所述样本文本描述信息，对所述第一适配器模型和所述视频模型进行联合训练，得到第三适配器模型，包括：

7.根据权利要求

8.一种视频生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时，实现上述权利要求1-7任一所述的方法。

...

【技术特征摘要】

1.一种视频生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第一视频片段，包括：

5.根据权利要求1或2所述的方法，其特征在于，在所述基于对第一适配器模型和视频模型进行联合训练得到的第二适配器模型，对所述...

【专利技术属性】
技术研发人员：请求不公布姓名，请求不公布姓名，
申请(专利权)人：北京生数科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人