一种基于扩散模型的可控生成式视频插帧方法技术

技术编号：43014069 阅读：16 留言：0更新日期：2024-10-18 17:18

本发明专利技术公开了一种基于扩散模型的可控生成式视频插帧方法，包括：基于图生视频扩散模型，引入尾帧控制条件来实现视频插帧；引入基于用户拖动的轨迹控制方案，允许用户通过简单的交互实现可控插帧；在用户不提供轨迹的情况下，通过特征点匹配算法获得首尾帧帧之间关键点的匹配信息，并利用这些信息来获得时序上一致的插帧结果；利用模型中的特征之间的相似性做轨迹更新来更新点的坐标；通过检查两次最近邻算法得到更新点的一致性来确保更新点坐标的准确性。本发明专利技术方法提高了视频插帧的准确性和可控性，能够实现用户交互式的视频插帧生成，提供更全面的性能指导。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于视频模型应用，具体涉及一种基于扩散模型的可控生成式视频插帧方法。

技术介绍

1、在当前的多媒体技术和人工智能领域，视频处理技术的发展已经取得了显著的成就，特别是在视频插帧(video frame interpolation)方面。视频插帧是计算机视觉和视频处理领域中的一个重要任务，它的目的是从两个连续的视频帧中合成中间帧。之前的大多数方法都将视频插帧视为低级视觉任务，假设帧与帧之间的运动比较小，这些方法大致可分为基于流的方法和基于核的方法。具体来说，基于流的方法利用估计的光流进行帧合成，相比之下，基于内核的方法则依靠空间自适应内核来合成插值像素；前者可能会受到光流估计不准确的影响，而后者则往往受到内核大小的限制。为了获得两全其美的效果，一些方法结合了基于流和内核的端到端视频插帧方法。

2、最近，受大规模预训练视频扩散模型生成能力的启发，一些方法试图从生成的角度来解决视频插帧问题。例如ldm-vfi(video frame interpolation with latentdiffusion models)将视频插帧建模为条件生成问题，并利用扩散模型进行感知导向的视频插帧；vidim(video interpolation with diffusion models)则利用级联扩散模型生成具有非线性运动的高保真插值视频。虽然这些方法已经取得了进展，但在处理起始帧和结束帧之间较大巨大差异时，这些方法仍然难以产生可靠的视频插帧结果；此外，这些方法的重点是为视频插帧生成单个可行的解决方案，而没有对视频插帧结果的可控性。

3、在文本到视频的生成领域，大规模预训练的扩散模型已经展示了生成高质量、多样性和逼真视频的能力，然而这些模型在精确的文本控制和用户交互性方面存在局限。传统的视频控制方法如videocomposer以及sparsectrl利用草图、深度图等结构信息，虽然提供了一定程度的控制，但获取这些控制信号的过程复杂，不易于用户操作，限制了其在实际应用中的广泛使用。相比之下，运动控制如motionctrl作为一种更直观的控制方式，如对物体运动轨迹和摄像机运动姿态的控制，通过简单的用户输入就能实现，极大地提高了视频生成的交互性和实用性。

4、尽管如此，将运动控制有效地整合到扩散模型的视频插帧过程，以生成既符合文本描述又精确遵循用户控制的视频，仍然是一个未被充分解决的技术问题。

技术实现思路

1、鉴于上述，本专利技术提供了一种基于扩散模型的可控生成式视频插帧方法，通过创新的运动控制策略和优化的扩散模型架构，提高了视频插帧的准确性和可控性，以适应各种复杂运动场景和满足用户定制化需求，从而推动视频处理技术的进一步发展。

2、一种基于扩散模型的可控生成式视频插帧方法，包括如下步骤：

3、（1）选取预训练基于图生视频的扩散模型；

4、（2）将用户提供的首帧和尾帧输入至扩散模型；

5、（3）对扩散模型引入基于用户拖动的轨迹控制，以生成符合用户意图的视频插帧结果；

6、（4）在用户不提供拖动轨迹的情况下，通过特征点匹配插值生成轨迹以及自动化点轨迹跟踪，提升视频插帧结果的质量和连贯性。

7、进一步地，所述步骤（1）中的扩散模型采用svd(stable video diffusion)模型用于生成视频插帧结果，其包括变分自编码器(variational auto-encoder，vae)、clip(contrastive language-image pre-training)图像编码器、3d u-net以及交叉注意力机制，变分自编码器用于提取视频帧的隐空间特征，clip图像编码器用于提取视频帧的语义特征，所述隐空间特征与带噪声的隐变量拼接后输入至3d u-net，交叉注意力机制以语义特征作为键和值的输入，以3d u-net的内部特征作为查询输入，交叉注意力机制的输出用于更新3d u-net的内部特征，3d u-net通过多轮迭代去噪后输出得到视频插帧结果。传统的svd模型是以单帧作为输入，将其作为首帧从而推理生成视频插帧结果。

8、进一步地，所述步骤（2）中当扩散模型的输入为首尾两帧时，将首帧和尾帧通过变分自编码器和clip图像编码器生成各自的隐空间特征和语义特征，然后将首帧和尾帧的隐空间特征与带噪声的隐变量拼接后输入至3d u-net，将首帧和尾帧的语义特征拼接后作为交叉注意力机制键和值的输入。

9、进一步地，所述步骤（3）中为了方便用户交互，允许用户通过拖动方式来控制视频插帧结果，即获取拖动过程中关键点的轨迹，并将其转换成高斯热图，进而将高斯热图输入至编码模块中进行编码得到关键点轨迹的特征，再将该特征注入到扩散模型的3d u-net中。通过引入轨迹控制，能够使得视频插帧更加可控，用户可以通过简单的交互来满足自己的需求；实验结果表明，引入轨迹控制能够进一步提升视频插帧的性能。

10、进一步地，引入基于用户拖动的轨迹控制之前，需获得点的轨迹控制条件用以训练扩散模型，具体地：首先在首帧中一个固定的稀疏网格周围随机初始化一些采样点，并用co-tracker去获得这些采样点在整个视频中的轨迹；在训练过程中，去除超过一半视频帧中不可见的轨迹，并在剩余轨迹中以高概率采样轨迹动作变化较大的点；在采样获得轨迹点后，只保留其中少量的轨迹点并将这些点坐标转化为高斯热图后作为编码模块的输入，所述编码模块复制了3d u-net的编码器部分，最后将编码模块输出的特征通过零卷积注入到扩散模型的3d u-net中。

11、进一步地，所述步骤（4）中通过特征点匹配算法在用户提供的首帧和尾帧之间获取关键点的匹配信息，对于首帧和尾帧中匹配上的任一关键点对记为 p0和 pn，通过插值估计得到相应的轨迹，依此遍历其他匹配上的关键点对得到所有估计的轨迹。这种方法能够避免在前后帧差异很大的情况下发生“跳帧”的问题，生成更加连贯的视频插帧结果，提高视频插帧的质量和连贯性。

12、进一步地，所述步骤（4）中的自动化点轨迹跟踪即对于特征点匹配插值生成的轨迹，利用扩散模型3d u-net中特征之间的相似性来更新轨迹在中间帧的点坐标，具体地：首先将特征点匹配插值生成的轨迹转换成高斯热图后进行编码得到轨迹特征，再将轨迹特征注入到扩散模型的3d u-net中；然后利用3d u-net中倒数第二个上采样模块的特征通过双边线性插值得到各帧图像特征；对于中间帧上的任一轨迹点 k，通过搜索获得与该轨迹点 k距离小于阈值 r1的点集合ω；进而利用最近邻算法从点集合ω中计算获取与首帧关键点 p0特征最接近的点 p k,0以及与尾帧关键点 pn特征最接近的点本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的可控生成式视频插帧方法，包括如下步骤：

2. 根据权利要求1所述的一种基于扩散模型的可控生成式视频插帧方法，其特征在于：所述步骤（1）中的扩散模型采用SVD模型用于生成视频插帧结果，其包括变分自编码器、CLIP图像编码器、3D U-Net以及交叉注意力机制，变分自编码器用于提取视频帧的隐空间特征，CLIP图像编码器用于提取视频帧的语义特征，所述隐空间特征与带噪声的隐变量拼接后输入至3D U-Net，交叉注意力机制以语义特征作为键和值的输入，以3D U-Net的内部特征作为查询输入，交叉注意力机制的输出用于更新3D U-Net的内部特征，3D U-Net通过多轮迭代去噪后输出得到视频插帧结果。

3. 根据权利要求2所述的一种基于扩散模型的可控生成式视频插帧方法，其特征在于：所述步骤（2）中当扩散模型的输入为首尾两帧时，将首帧和尾帧通过变分自编码器和CLIP图像编码器生成各自的隐空间特征和语义特征，然后将首帧和尾帧的隐空间特征与带噪声的隐变量拼接后输入至3D U-Net，将首帧和尾帧的语义特征拼接后作为交叉注意力机制键和值的输入。

4. 根据权利要求2所述的一种基于扩散模型的可控生成式视频插帧方法，其特征在于：所述步骤（3）中为了方便用户交互，允许用户通过拖动方式来控制视频插帧结果，即获取拖动过程中关键点的轨迹，并将其转换成高斯热图，进而将高斯热图输入至编码模块中进行编码得到关键点轨迹的特征，再将该特征注入到扩散模型的3D U-Net中。

5. 根据权利要求4所述的一种基于扩散模型的可控生成式视频插帧方法，其特征在于：引入基于用户拖动的轨迹控制之前，需获得点的轨迹控制条件用以训练扩散模型，具体地：首先在首帧中一个固定的稀疏网格周围随机初始化一些采样点，并用Co-Tracker去获得这些采样点在整个视频中的轨迹；在训练过程中，去除超过一半视频帧中不可见的轨迹，并在剩余轨迹中以高概率采样轨迹动作变化较大的点；在采样获得轨迹点后，只保留其中少量的轨迹点并将这些点坐标转化为高斯热图后作为编码模块的输入，所述编码模块复制了3D U-Net的编码器部分，最后将编码模块输出的特征通过零卷积注入到扩散模型的3DU-Net中。

6.根据权利要求2所述的一种基于扩散模型的可控生成式视频插帧方法，其特征在于：所述步骤（4）中通过特征点匹配算法在用户提供的首帧和尾帧之间获取关键点的匹配信息，对于首帧和尾帧中匹配上的任一关键点对记为p0和pn，通过插值估计得到相应的轨迹，依此遍历其他匹配上的关键点对得到所有估计的轨迹。

7. 根据权利要求6所述的一种基于扩散模型的可控生成式视频插帧方法，其特征在于：所述步骤（4）中的自动化点轨迹跟踪即对于特征点匹配插值生成的轨迹，利用扩散模型3D U-Net中特征之间的相似性来更新轨迹在中间帧的点坐标，具体地：首先将特征点匹配插值生成的轨迹转换成高斯热图后进行编码得到轨迹特征，再将轨迹特征注入到扩散模型的3D U-Net中；然后利用3D U-Net中倒数第二个上采样模块的特征通过双边线性插值得到各帧图像特征；对于中间帧上的任一轨迹点k，通过搜索获得与该轨迹点k距离小于阈值r1的点集合Ω；进而利用最近邻算法从点集合Ω中计算获取与首帧关键点p0特征最接近的点pk,0以及与尾帧关键点pn特征最接近的点pk,n，若点pk,0与pk,n的距离小于阈值r2，则将轨迹点k坐标更新为点pk,0与pk,n之间的中点坐标，且3D U-Net每一轮去噪，中间帧的轨迹点均按以上操作更新一次，更新后的轨迹特征作为3D U-Net下一轮去噪的输入。

8.一种计算机设备，包括存储器和处理器，其特征在于：所述存储器中存有计算机程序，所述处理器用于执行该计算机程序以实现如权利要求1~7任一权利要求所述的一种基于扩散模型的可控生成式视频插帧方法。

9.一种计算机可读存储介质，其存储有计算机程序，其特征在于：所述计算机程序被处理器执行时以实现如权利要求1~7任一权利要求所述的一种基于扩散模型的可控生成式视频插帧方法。

...

【技术特征摘要】

1.一种基于扩散模型的可控生成式视频插帧方法，包括如下步骤：

2. 根据权利要求1所述的一种基于扩散模型的可控生成式视频插帧方法，其特征在于：所述步骤（1）中的扩散模型采用svd模型用于生成视频插帧结果，其包括变分自编码器、clip图像编码器、3d u-net以及交叉注意力机制，变分自编码器用于提取视频帧的隐空间特征，clip图像编码器用于提取视频帧的语义特征，所述隐空间特征与带噪声的隐变量拼接后输入至3d u-net，交叉注意力机制以语义特征作为键和值的输入，以3d u-net的内部特征作为查询输入，交叉注意力机制的输出用于更新3d u-net的内部特征，3d u-net通过多轮迭代去噪后输出得到视频插帧结果。

3. 根据权利要求2所述的一种基于扩散模型的可控生成式视频插帧方法，其特征在于：所述步骤（2）中当扩散模型的输入为首尾两帧时，将首帧和尾帧通过变分自编码器和clip图像编码器生成各自的隐空间特征和语义特征，然后将首帧和尾帧的隐空间特征与带噪声的隐变量拼接后输入至3d u-net，将首帧和尾帧的语义特征拼接后作为交叉注意力机制键和值的输入。

4. 根据权利要求2所述的一种基于扩散模型的可控生成式视频插帧方法，其特征在于：所述步骤（3）中为了方便用户交互，允许用户通过拖动方式来控制视频插帧结果，即获取拖动过程中关键点的轨迹，并将其转换成高斯热图，进而将高斯热图输入至编码模块中进行编码得到关键点轨迹的特征，再将该特征注入到扩散模型的3d u-net中。

5. 根据权利要求4所述的一种基于扩散模型的可控生成式视频插帧方法，其特征在于：引入基于用户拖动的轨迹控制之前，需获得点的轨迹控制条件用以训练扩散模型，具体地：首先在首帧中一个固定的稀疏网格周围随机初始化一些采样点，并用co-tracker去获得这些采样点在整个视频中的轨迹；在训练过程中，去除超过一半视频帧中不可见的轨迹，并在剩余轨迹中以高概率采样轨迹动作变化较大的点；在采样获得轨迹点后，只保留其中少量...

【专利技术属性】
技术研发人员：陈昊，王文，陈哲恺，沈春华，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人