一种基于潜在扩散模型的文本生成视频方法及系统技术方案

技术编号：40700561 阅读：25 留言：0更新日期：2024-03-22 10:58

本发明专利技术公开了一种基于潜在扩散模型的文本生成视频方法及系统，包括：通过膨胀潜在扩散模型网络将2D的文生图模型拓展到时空域，并针对源视频进行逐帧分解得到视频帧序列；利用预处理器对视频帧序列进行特征提取得到条件帧序列，引入多帧渲染机制作用在每一个当前生成帧的扩散过程；选择特定时间步长对当前生成帧序列施加平滑优化操作，并经过连续时间步长完成对所有视频帧的处理；根据结果输出生成视频帧序列，合成生成视频；本发明专利技术采用微调方法通过网络膨胀将模型拓展到空间域来实现视频生成任务，成本低，易实现；且为了减少生成视频整体结构的闪烁，本发明专利技术利用视频插帧技术对生成帧序列进行了过滤平滑，以提高相邻帧细节上的一致性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，具体为一种基于潜在扩散模型的文本生成视频方法及系统。

技术介绍

1、随着扩散模型的不断进步，生成图像的质量也越来越高。根据去噪自动编码器的层次结构构建的、基于似然的扩散模型，它们不像gan(生成对抗网络、generativeadversarial networks)那样表现出模式崩溃和训练不稳定性，并且通过大量利用参数共享，它可以对自然图像的高度复杂分布进行建模，而不需要像ar(自回归模型、autoregressive model)模型那样涉及数十亿个参数。为了复制潜在扩散模型在文本到图像(t2i)生成的成功，最近的工作使用大规模视频数据集来训练文本到视频(t2v)生成器。尽管有希望取得类似生成图像一样优秀的结果，但这样的范例在计算上是昂贵的。所以现在更一般的思路是，在最先进的文本到图像(t2i)模型的基础上，通过网络膨胀以及一些微调(fine tune)操作，实现文本到视频(t2v)的生成。

2、视频生成作为计算机视觉中的一项重要任务，最近，stable diffusion模型发布并实现了最先进的生成性能，该模型在大规模文本图像数据集上进行训练，因此可以基于给定的文本提示生成各种类型的图像。最初，尝试在此生成模型上拓展视频生成任务，然而视频扩散模型无法产生预期效果，主要原因是扩散过程的不可控性。给定输入文本提示，由于扩散过程的不可控性，导致会生成各种类型的图像。controlnet最近被提出用于控制基于不同条件(如canny图、深度图或姿势图等)的扩散模型的生成过程。因此，根据给定的输入视

技术实现思路

1、本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊，而这种简化或省略不能用于限制本专利技术的范围。

2、鉴于上述存在的问题，提出了本专利技术。

3、本专利技术的第一方面在于提供一种基于潜在扩散模型的文本生成视频方法，包括：通过膨胀潜在扩散模型网络将2d的文生图模型拓展到时空域，并针对源视频进行逐帧分解得到视频帧序列；利用预处理器对所述视频帧序列进行特征提取得到条件帧序列，基于所述条件帧序列引入多帧渲染机制作用在每一个当前生成帧的扩散过程；选择特定时间步长对当前生成帧序列施加平滑优化操作，并经过连续时间步长完成对所有视频帧的处理；根据所述处理的结果输出生成视频帧序列，合成生成视频。

4、作为本专利技术所述的基于潜在扩散模型的文本生成视频方法的一种优选方案，其中，所述将2d的文生图模型拓展到时空域的步骤包括：

5、拓展输入张量，在原模型的(b，c，w，h)基础上增加新的一维f用于表示去噪过程中的当前生成帧；

6、通过膨胀潜在扩散模型网络将2d的文生图模型拓展到时空域，将原模型噪声预测u-net网络中所有3×3的卷积核替换为1×3×3的卷积核，通过对序列的逐帧生成实现文本到视频的生成任务；

7、增加条件控制网络模块，通过输入额外条件图控制每一个当前帧的生成过程，经过卷积和最大池化的最终结果作用在去噪u-net网络的中间层，其中，所述条件控制网络模块的每层网络通过残差连接到u-net网络的上采样部分。

8、作为本专利技术所述的基于潜在扩散模型的文本生成视频方法的一种优选方案，其中，所述条件帧序列的获取包括：

9、读取目标源视频，将所述目标源视频分解为视频帧序列{f0,f1,f2,…,fm}；

10、提取所述视频帧序列的关键帧，重新保存新的关键帧序列{f0′,f1′,f2′,…,fn′}作为最终用于扩散过程的序列帧；

11、通过预处理器的特征提取，获取所述关键帧序列的条件帧序列

12、保存所述条件帧序列作为后续扩散过程条件控制模块的输入。

13、作为本专利技术所述的基于潜在扩散模型的文本生成视频方法的一种优选方案，其中，添加条件控制的扩散过程，目标函数表示为：

14、

15、其中，ζ表示目标函数，zt表示随机噪声图像，t表示时间步长，ct表示被文本编码器转化为表征向量的文本提示词，cf表示在去噪过程中施加的控制条件，z0表示随机噪声图像的初始图像。

16、作为本专利技术所述的基于潜在扩散模型的文本生成视频方法的一种优选方案，其中，执行潜在扩散模型的反向扩散过程，通过膨胀后的u-net网络得到预测噪声εθ(xt,t)，利用当前的噪声图像xt减去预测噪声εθ(xt,t)得到去噪图像xt-1，时间步长变为t-1，完成一轮去噪过程，表示为：

17、

18、其中，αt和βt表示权重参数，ε表示高斯分布；

19、对所述去噪图像xt-1进一步处理，表示为：

20、

21、其中，zt表示一个满足特定条件地高斯分布。

22、作为本专利技术所述的基于潜在扩散模型的文本生成视频方法的一种优选方案，其中，所述多帧渲染机制包括：

23、将获取的生成帧序列的第一帧和当前生成帧的前一帧进行合并；

24、所述合并的结果分别经过两个投影矩阵wv和wk作用，得到向量v和k；

25、当前生成帧经过投影矩阵wq作用得到向量q；

26、对所述向量v、k和q进行相似度计算，并将所述计算的结果施加到当前帧的生成过程中。

27、作为本专利技术所述的基于潜在扩散模型的文本生成视频方法的一种优选方案，其中，所述平滑优化操作包括：

28、在具体的时间步长t对当前生成帧序列的每一个相邻三帧，通过视频插帧技术覆盖掉中间帧得到新的序列帧，其中，t选取去噪步长的中位数作为默认值；

29、通过对所述新的序列帧的一轮去噪后，经过两个连续的时间步长，同样的中间帧插值操作交错执行，完成对所有视频帧的平滑优化处理。

30、本专利技术的第二方面在于提供一种基于潜在扩散模型的文本生成视频系统，包括：

31、视频分解单元，用于通过膨胀潜在扩散模型网络将2d的文生图模型拓展到时空域，并针对源视频进行逐帧分解得到视频帧序列；

32、多帧渲染单元，用于利用预处理器对所述视频帧序列进行特征提取得到条件帧序列，基于所述条件帧序列引入多帧渲染机制作用在每一个当前生成帧的扩散过程；

33、平滑优化单元，用于选择特定时间步长对当前生成帧序列施加平滑优化操作，并经过连续时间步长完成对所有视频帧的处理，根据所述处理的结果输出生成视频帧序列，合成生成视频。

34、本专利技术的第三方面在于提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器被配置为调用所述存储器存储的指令，以执行本专利技术任一实施例所述本文档来自技高网...

【技术保护点】

1.一种基于潜在扩散模型的文本生成视频方法，其特征在于，包括：

2.如权利要求1所述的基于潜在扩散模型的文本生成视频方法，其特征在于，所述将2D的文生图模型拓展到时空域的步骤包括：

3.如权利要求2所述的基于潜在扩散模型的文本生成视频方法，其特征在于，所述条件帧序列的获取包括：

4.如权利要求3所述的基于潜在扩散模型的文本生成视频方法，其特征在于，添加条件控制的扩散过程，目标函数表示为：

5.如权利要求4所述的基于潜在扩散模型的文本生成视频方法，其特征在于，执行潜在扩散模型的反向扩散过程，通过膨胀后的U-Net网络得到预测噪声εθ(xt，t)，利用当前的噪声图像xt减去预测噪声εθ(xt，t)得到去噪图像xt-1，时间步长变为t-1，完成一轮去噪过程，表示为：

6.如权利要求5所述的基于潜在扩散模型的文本生成视频方法，其特征在于，所述多帧渲染机制包括：

7.如权利要求6所述的基于潜在扩散模型的文本生成视频方法，其特征在于，所述平滑优化操作包括：

8.一种实施如权利要求1～7任一所述的基于潜在扩散模

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1～7中任一所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1～7中任一所述方法的步骤。

...

【技术特征摘要】

1.一种基于潜在扩散模型的文本生成视频方法，其特征在于，包括：

2.如权利要求1所述的基于潜在扩散模型的文本生成视频方法，其特征在于，所述将2d的文生图模型拓展到时空域的步骤包括：

3.如权利要求2所述的基于潜在扩散模型的文本生成视频方法，其特征在于，所述条件帧序列的获取包括：

4.如权利要求3所述的基于潜在扩散模型的文本生成视频方法，其特征在于，添加条件控制的扩散过程，目标函数表示为：

5.如权利要求4所述的基于潜在扩散模型的文本生成视频方法，其特征在于，执行潜在扩散模型的反向扩散过程，通过膨胀后的u-net网络得到预测噪声εθ(xt，t)，利用当前的噪声图像xt减去预测噪声εθ(xt，t)得到去噪图像xt-1，时间步长变为t-1...

【专利技术属性】
技术研发人员：成卫青，王鹏博，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人