图生视频模型生成方法、视频生成方法及装置制造方法及图纸

技术编号：42979431 阅读：15 留言：0更新日期：2024-10-15 13:15

本公开关于一种图生视频模型生成方法、视频生成方法及装置，该图生视频模型生成方法包括：输入样本图像和样本文本描述信息至预设文生视频模型；基于空间模块对样本图像和样本文本描述信息进行空间特征提取处理，得到第一样本特征处理结果；基于时序自注意力模块对第一样本特征处理结果进行处理，得到第二样本特征处理结果；以及基于运动适配器模块对第一样本特征处理结果进行运动信息控制，得到第三样本特征处理结果；根据第二样本特征处理结果和第三样本特征处理结果生成预测视频数据；根据预设视频数据和样本视频数据更新空间模块和运动适配器模块的参数，得到图生视频模型。本公开能够控制生成视频的运动信息，且降低对系统资源的消耗。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机领域，尤其涉及一种图生视频模型生成方法、视频生成方法及装置。

技术介绍

1、随着生成式人工智能的迅速发展，视频生成技术受到了广泛的关注和研究。文生视频模型(animatediff)在文生图像模型(stable diffusion)上插入建模视频帧的时序模块，可以生成符合输入文本的视频片段。但是由于视频数据相较于图像数据的复杂性，从文本生成高质量视频仍然面临挑战。图生视频技术可以同时接受文本和图像作为输入以生成视频，其中输入图像提供了丰富的视觉参考信息，输入文本则可以补充一定的运动信息，因此是一种更有希望和实用的视频生成方案。

2、相关技术中将已有的文生视频模型扩展为图生视频模型(例如stable videodiffusion)。具体做法是扩展文生视频模型的输入层维度，在扩展的维度上输入参考图像以注入图像信息。然而相关技术需要重新训练整个模型，导致训练过程的资源消耗较大，且由于重新训练了包括控制图像空间排布的空间模块，导致训练后的模型不再适配现有的图像空间排布控制和风格化组件。

技术实现思路

1、本公开提供一种图生视频模型生成方法、视频生成方法及装置，以至少解决相关技术中的训练过程的资源消耗较大，且训练过程重新训练了包括控制图像空间排布的空间模块，导致训练后的模型不再适配现有的图像空间排布控制和风格化组件问题，本公开的技术方案如下：

2、根据本公开实施例的第一方面，提供一种图生视频模型生成方法，包括：

3、获取样本视频数据、针对所述

4、输入所述样本图像和所述样本文本描述信息至所述预设文生视频模型；

5、基于所述空间模块对所述样本图像和所述样本文本描述信息进行空间特征提取处理，得到第一样本特征处理结果；

6、基于所述时序自注意力模块对所述第一样本特征处理结果进行图像帧之间的特征关系建模处理，以使图像帧在时序上连续，得到第二样本特征处理结果；以及基于所述运动适配器模块对所述第一样本特征处理结果进行图像帧的运动信息控制处理，得到第三样本特征处理结果；

7、根据所述第二样本特征处理结果和所述第三样本特征处理结果生成预测视频数据；

8、根据所述预设视频数据和所述样本视频数据之间的差异，更新所述空间模块和所述运动适配器模块的参数，直至所述差异满足预设条件，得到图生视频模型；所述图生视频模型用于对待处理图像进行视频生成处理得到目标视频数据。

9、在一个可选的实施例中，所述基于所述运动适配器模块对所述第一样本特征处理结果进行图像帧的运动信息控制处理，得到第三样本特征处理结果，包括：

10、获取所述样本视频数据的样本时序采样信息；所述样本时序采样信息用于表征所述样本视频数据的画面每秒帧数和抽帧步长；

11、基于所述运动适配器模块确定所述第一样本特征处理结果与对应的查询权重矩阵的乘积得到样本查询，以及确定所述样本时序采样信息与对应的键权重矩阵的乘积得到第一样本键，以及确定所述样本时序采样信息与对应的值权重矩阵的乘积得到第一样本值；

12、基于所述运动适配器模块确定样本查询和所述第一样本键之间的相似度，得到第一样本注意力数据；所述第一样本注意力数据表征所述第一样本值的重要程度；

13、基于所述运动适配器模块通过所述第一样本注意力数据对所述第一样本值进行加权处理，得到所述第三样本特征处理结果。

14、在一个可选的实施例中，所述基于所述时序自注意力模块对所述第一样本特征处理结果进行图像帧之间的特征关系建模处理，以使图像帧在时序上连续，得到第二样本特征处理结果，包括：

15、基于所述时序自注意力模块确定所述第一样本特征处理结果与对应的查询权重矩阵的乘积得到样本查询，以及确定所述第一样本特征处理结果与对应的键权重矩阵的乘积得到第二样本键，以及确定所述第一样本特征处理结果与对应的值权重矩阵的乘积得到第二样本值；

16、基于所述时序自注意力模块确定所述样本查询和所述第二样本键之间的相似度，得到第二样本注意力数据；所述第二样本注意力数据表征所述第二样本值的重要程度；

17、基于所述时序自注意力模块通过所述第二样本注意力数据对所述第二样本值进行加权处理，得到所述第二样本特征处理结果。

18、在一个可选的实施例中，所述根据所述第二样本特征处理结果和所述第三样本特征处理结果生成预测视频数据，包括：

19、将所述第二样本特征处理结果和所述第三样本特征处理结果进行相加，得到样本时序特征；

20、对所述样本时序特征进行视频转换处理得到所述预测视频数据。

21、在一个可选的实施例中，所述空间模块包括自注意力模块、交叉注意力模块、所述自注意力模块对应的第一适配器模块、所述交叉注意力模块对应的第二适配器模块，所述第一适配器模块用于提取图像帧的局部图像特征，所述第二适配器模块用于提取图像帧的全局图像特征；所述根据所述预设视频数据和所述样本视频数据之间的差异，更新所述空间模块和所述运动适配器模块的参数，包括：

22、根据所述预设视频数据和所述样本视频数据之间的差异计算损失数据；

23、冻结所述自注意力模块的参数、所述交叉注意力模块的参数、所述第二适配器模块的参数、所述时序自注意力模块的参数，并基于所述损失数据更新所述第一适配器模块的参数和所述运动适配器模块的参数。

24、在一个可选的实施例中，所述第一适配器模块的参数包括键权重矩阵和值权重矩阵，所述运动适配器模块的参数包括键权重矩阵和值权重矩阵，所述第一适配器模块的参数所包括的键权重矩阵以及所述运动适配器模块的参数所包括的键权重矩阵是随机初始化的，所述第一适配器模块的参数所包括的值权重矩阵和所述运动适配器模块的参数所包括的值权重矩阵是全零初始化的；

25、所述基于所述损失数据更新所述第一适配器模块的参数和所述运动适配器模块的模型参数，包括：

26、基于所述损失数据更新所述第一适配器模块的参数中所包括的键权重矩阵和值权重矩阵，以及更新所述运动适配器模块的参数中所包括的键权重矩阵和值权重矩阵。

27、在一个可选的实施例中，所述样本图像包括首帧样本图像和样本噪声图像，所述空间模块包括自注意力模块、交叉注意力模块、所述自注意力模块对应的第一适配器模块、所述交叉注意力模块对应的第二适配器模块，所述第一适配器模块用于提取图像帧的局部图像特征，所述第二适配器模块用于提取图像帧的全局图像特征；

28、所述基于所述空间模块对所述样本图像和所述样本文本描述信息进行空间特征提取处理，得到第一样本特征处理结果，包括：

29、基于所述自注意力模块对所述样本图像进行特征之间本文档来自技高网...

【技术保护点】

1.一种图生视频模型生成方法，其特征在于，所述方法包括：

2.根据利要求1所述的图生视频模型生成方法，其特征在于，所述基于所述运动适配器模块对所述第一样本特征处理结果进行图像帧的运动信息控制处理，得到第三样本特征处理结果，包括：

3.根据利要求1所述的图生视频模型生成方法，其特征在于，所述基于所述时序自注意力模块对所述第一样本特征处理结果进行图像帧之间的特征关系建模处理，以使图像帧在时序上连续，得到第二样本特征处理结果，包括：

4.根据利要求1所述的图生视频模型生成方法，其特征在于，所述根据所述第二样本特征处理结果和所述第三样本特征处理结果生成预测视频数据，包括：

5.根据利要求1所述的图生视频模型生成方法，其特征在于，所述空间模块包括自注意力模块、交叉注意力模块、所述自注意力模块对应的第一适配器模块、所述交叉注意力模块对应的第二适配器模块，所述第一适配器模块用于提取图像帧的局部图像特征，所述第二适配器模块用于提取图像帧的全局图像特征；所述根据所述预设视频数据和所述样本视频数据之间的差异，更新所述空间模块和所述运动适配器模块的参数，包括：

6.根据利要求5所述的图生视频模型生成方法，其特征在于，所述第一适配器模块的参数包括键权重矩阵和值权重矩阵，所述运动适配器模块的参数包括键权重矩阵和值权重矩阵，所述第一适配器模块的参数所包括的键权重矩阵以及所述运动适配器模块的参数所包括的键权重矩阵是随机初始化的，所述第一适配器模块的参数所包括的值权重矩阵和所述运动适配器模块的参数所包括的值权重矩阵是全零初始化的；

7.根据权利要求1至6中任一项所述的图生视频模型生成方法，其特征在于，所述样本图像包括首帧样本图像和样本噪声图像，所述空间模块包括自注意力模块、交叉注意力模块、所述自注意力模块对应的第一适配器模块、所述交叉注意力模块对应的第二适配器模块，所述第一适配器模块用于提取图像帧的局部图像特征，所述第二适配器模块用于提取图像帧的全局图像特征；

8.根据利要求7所述的图生视频模型生成方法，其特征在于，所述根据所述第一样本子空间特征和所述第二样本子空间特征生成所述自注意力模块的样本输出特征，包括：

9.一种视频生成方法，其特征在于，所述视频生成方法包括：

10.根据权利要求9所述的视频生成方法，其特征在于，所述基于所述运动适配器模块对所述述第一特征处理结果进行图像帧的运动信息控制处理，得到第三特征处理结果，包括：

11.根据权利要求9所述的视频生成方法，其特征在于，所述基于所述时序自注意力模块对所述第一特征处理结果进行图像帧之间的特征关系建模处理，以使图像帧在时序上连贯，得到第二特征处理结果，包括：

12.根据权利要求9所述的视频生成方法，其特征在于，所述根据所述第二特征处理结果和所述第三特征处理结果生成目标视频数据，包括：

13.根据权利要求10至12中任一项所述的视频生成方法，其特征在于，所述空间模块包括所述空间模块包括自注意力模块、交叉注意力模块、所述自注意力模块对应的第一适配器模块、所述交叉注意力模块对应的第二适配器模块，所述第一适配器模块用于建模图像帧的局部图像特征，所述第二适配器模块用于建模图像帧的全局图像特征；

14.根据权利要求13所述的视频生成方法，其特征在于，所述根据所述第一子空间特征和所述第二子空间特征生成所述自注意力模块的输出特征，包括：

15.一种图生视频模型生成装置，其特征在于，所述装置包括：

16.一种视频生成装置，其特征在于，包括：

17.一种电子设备，其特征在于，包括：

18.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备执行如权利要求1至8中任一项所述的图生视频模型生成方法或权利要求9至14中任一项所述的视频生成方法。

...

【技术特征摘要】

1.一种图生视频模型生成方法，其特征在于，所述方法包括：

7.根据权利要求1至6中任一项所述的图生视频模型生成方法，其特征在于，所述样本图像包括首帧样本图像和样本噪声图像，所述空间模块包括自注意力模块、交叉注意力模块、所述自注意力模块对应的第一适配器模块、所述交叉注意力模块对应的第二适配器模块，所述第一适配器模块用于提取图像帧的局部图...

【专利技术属性】
技术研发人员：侯良，郑明悟，高远，陶鑫，施侃乐，万鹏飞，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人