视频生成方法、装置、电子设备、存储介质和程序产品制造方法及图纸

技术编号：44892782 阅读：9 留言：0更新日期：2025-04-08 00:31

本申请涉及一种视频生成方法、装置、电子设备、存储介质和程序产品。所述方法包括：获取源视频的源帧序列，获取针对源视频的提示信息；源帧序列包含源视频中连续的多个视频帧；针对源帧序列中各个相邻视频帧形成的视频帧对，预测视频帧对的光流场；基于光流场确定源帧序列的多个像素移动路径；像素移动路径表征同一像素在源帧序列中连续的至少两个视频帧上的位置变化；对源帧序列中的每个视频帧分别加噪获得噪声帧表示，生成源帧序列中每个视频帧对应的噪声帧表示构成的噪声帧表示序列；根据噪声帧表示序列、提示信息及多个像素移动路径迭代预测噪声，基于预测的噪声对噪声帧表示序列迭代去噪生成目标视频。采用本方法能够提高视觉一致性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及视频生成，特别是涉及一种视频生成方法、装置、电子设备、存储介质和程序产品。

技术介绍

1、随着计算机技术的发展，出现了aigc（artificial intelligence generatedcontent，人工智能生成内容）技术。aigc技术是基于人工智能的技术方法，通过已有数据的学习和识别，以适当的泛化能力生成相关内容的技术。通过训练模型和大量数据的学习，aigc技术可以根据输入的条件或指导，生成与之相关的内容。aigc技术被广泛应用在各个领域中，例如，可应用于视频生成领域。在视频生成领域中，通过人工智能模型，在文本提示、图像提示等提示信息的驱动下，可以将源视频编辑为与提示信息匹配的新视频，以生成新视频。

2、然而，现有技术中，生成的视频存在视觉一致性差的问题。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高视觉一致性的视频生成方法、装置、电子设备、存储介质和程序产品。

2、第一方面，本申请提供了一种视频生成方法，包括：

3、获取源视频的源帧序列，并获取针对所述源视频的提示信息；所述源帧序列包含所述源视频中连续的多个视频帧；

4、针对所述源帧序列中各个由相邻的两个视频帧构成的视频帧对，预测所述视频帧对的光流场；

5、基于所述光流场确定所述源帧序列的多个像素移动路径；所述像素移动路径表征同一像素在所述源帧序列中连续的至少两个视频帧上的位置变化；

6、对所述源帧序列中的每个视频帧

7、根据所述噪声帧表示序列、所述提示信息以及所述多个像素移动路径，迭代预测噪声，基于预测的噪声对所述噪声帧表示序列迭代去噪，生成目标视频。

8、第二方面，本申请还提供了一种视频生成装置，包括：

9、获取模块，用于获取源视频的源帧序列，并获取针对所述源视频的提示信息；所述源帧序列包含所述源视频中连续的多个视频帧；

10、光流预测模块，用于针对所述源帧序列中各个由相邻的两个视频帧构成的视频帧对，预测所述视频帧对的光流场；

11、路径确定模块，用于基于所述光流场确定所述源帧序列的多个像素移动路径；所述像素移动路径表征同一像素在所述源帧序列中连续的至少两个视频帧上的位置变化；

12、视频生成模块，用于对所述源帧序列中的每个视频帧分别加噪获得噪声帧表示，生成所述源帧序列中每个视频帧对应的噪声帧表示构成的噪声帧表示序列；根据所述噪声帧表示序列、所述提示信息以及所述多个像素移动路径，迭代预测噪声，基于预测的噪声对所述噪声帧表示序列迭代去噪，生成目标视频。

13、第三方面，本申请还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行一个或多个程序时实现以下步骤：

14、获取源视频的源帧序列，并获取针对所述源视频的提示信息；所述源帧序列包含所述源视频中连续的多个视频帧；

15、针对所述源帧序列中各个由相邻的两个视频帧构成的视频帧对，预测所述视频帧对的光流场；

16、基于所述光流场确定所述源帧序列的多个像素移动路径；所述像素移动路径表征同一像素在所述源帧序列中连续的至少两个视频帧上的位置变化；

17、对所述源帧序列中的每个视频帧分别加噪获得噪声帧表示，生成所述源帧序列中每个视频帧对应的噪声帧表示构成的噪声帧表示序列；

18、根据所述噪声帧表示序列、所述提示信息以及所述多个像素移动路径，迭代预测噪声，基于预测的噪声对所述噪声帧表示序列迭代去噪，生成目标视频。

19、第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

20、获取源视频的源帧序列，并获取针对所述源视频的提示信息；所述源帧序列包含所述源视频中连续的多个视频帧；

21、针对所述源帧序列中各个由相邻的两个视频帧构成的视频帧对，预测所述视频帧对的光流场；

22、基于所述光流场确定所述源帧序列的多个像素移动路径；所述像素移动路径表征同一像素在所述源帧序列中连续的至少两个视频帧上的位置变化；

23、对所述源帧序列中的每个视频帧分别加噪获得噪声帧表示，生成所述源帧序列中每个视频帧对应的噪声帧表示构成的噪声帧表示序列；

24、根据所述噪声帧表示序列、所述提示信息以及所述多个像素移动路径，迭代预测噪声，基于预测的噪声对所述噪声帧表示序列迭代去噪，生成目标视频。

25、第五方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，实现以下步骤：

26、获取源视频的源帧序列，并获取针对所述源视频的提示信息；所述源帧序列包含所述源视频中连续的多个视频帧；

27、针对所述源帧序列中各个由相邻的两个视频帧构成的视频帧对，预测所述视频帧对的光流场；

28、基于所述光流场确定所述源帧序列的多个像素移动路径；所述像素移动路径表征同一像素在所述源帧序列中连续的至少两个视频帧上的位置变化；

29、对所述源帧序列中的每个视频帧分别加噪获得噪声帧表示，生成所述源帧序列中每个视频帧对应的噪声帧表示构成的噪声帧表示序列；

30、根据所述噪声帧表示序列、所述提示信息以及所述多个像素移动路径，迭代预测噪声，基于预测的噪声对所述噪声帧表示序列迭代去噪，生成目标视频。

31、上述视频生成方法、装置、电子设备、存储介质和程序产品，对源帧序列中各个视频帧对，预测光流场，进而基于光流场确定源帧序列的多个像素移动路径，对所述源帧序列中的每个视频帧分别加噪生成噪声帧表示序列，由于源帧序列的多个像素移动路径中，像素移动路径表征同一像素在所述源帧序列中连续的至少两个视频帧上的位置变化，在根据噪声帧表示序列、提示信息以及多个像素移动路径迭代预测噪声过程中，能够关注连续视频帧上像素的位置变化，关注了源视频的视频帧间的连续性，即关注了视觉一致性的特征，如此，基于预测的噪声对噪声帧表示序列迭代去噪，生成目标视频，提高了目标视频的视觉一致性。

本文档来自技高网...

【技术保护点】

1.一种视频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述噪声帧表示序列、所述提示信息以及所述多个像素移动路径，迭代预测噪声，基于预测的噪声对所述噪声帧表示序列迭代去噪，生成目标视频，包括：

3.根据权利要求2所述的方法，其特征在于，所述噪声预测网络包括输入模块，串联的M个下采样模块，串联的N个上采样模块，以及输出模块；M与N相等，均为大于1的正整数；

4.根据权利要求3所述的方法，其特征在于，所述下采样模块包括卷积单元、时空注意力单元、光流注意力单元、交叉注意力单元和下采样单元，所述通过所述M个下采样模块中第一个，基于所述输入模块所输出的特征序列、所述提示信息以及所述多个像素移动路径提取特征，并输出提取的特征序列包括：

5.根据权利要求4所述的方法，其特征在于，所述时空注意力特征序列包括与所述噪声帧序列中每个噪声帧对应的时空注意力特征；每个时空注意力特征包含不同位置的补丁块；

6.根据权利要求1-5任一项所述的方法，其特征在于，所述对所述源帧序列中的每个视频帧分别加噪获得噪

7.一种视频生成装置，其特征在于，所述装置包括：

8.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行一个或多个程序时实现权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至6中任一项所述的方法。

...

【技术特征摘要】

1.一种视频生成方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述噪声预测网络包括输入模块，串联的m个下采样模块，串联的n个上采样模块，以及输出模块；m与n相等，均为大于1的正整数；

4.根据权利要求3所述的方法，其特征在于，所述下采样模块包括卷积单元、时空注意力单元、光流注意力单元、交叉注意力单元和下采样单元，所述通过所述m个下采样模块中第一个，基于所述输入模块所输出的特征序列、所述提示信息以及所述多个像素移动路径提取特征，并输出提取的特征序列包括：

5.根据权利要求4所述的方法，其特征在于，所述时空注意力特征序列...

【专利技术属性】
技术研发人员：张子锋，李骈臻，刘洛麒，
申请(专利权)人：厦门美图之家科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人