自定义区域动态视频生成方法、装置、设备、介质及产品制造方法及图纸

技术编号：43919173 阅读：8 留言：0更新日期：2025-01-03 13:24

本申请提供一种自定义区域动态视频生成方法、装置、设备、介质及产品，属于人工智能技术领域，获取用于视频生成内容描述的文本以及用于作为视频背景的图片；响应于用户在图片中选取的自定义区域，生成掩码图片；输入文本、图片和掩码图片至训练完成的视频生成模型，得到目标视频；视频生成模型通过在预设扩散模型中嵌入时序对齐模块和/或图像控制模块得到，时序对齐模型用于确定目标视频中每帧图像的时序，条件控制模块至少用于根据掩码图片确定目标视频的动态区域。本申请通过增加时序对齐模块以及条件控制模块优化视频生成质量及内容，并通过掩码操作实现指定区域的动态生成，解决了现有技术无法进行动态区域选择、视频内容难以控制的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种自定义区域动态视频生成方法、装置、设备、介质及产品。

技术介绍

1、随着人工智能领域应用在生活中日益增加，为用户提供了更具娱乐性、智能性以及便捷性的选择。文本生成图像等创意功能浮现，推动着人们对视频生成类的探索，并随着扩散模型、预训练生成等方式的出现，高质量和个性化的视频生成需求日益增加。

2、目前视频生成方法依赖于传统文生图模型，通过相同文本生成数张图像进行拼接组合，而由于各张图像生成过程中缺乏动作连贯性，均为模型随机去噪生成，存在无法进行动态区域选择、视频内容难以控制等问题。

技术实现思路

1、本申请提供一种自定义区域动态视频生成方法、装置、设备、介质及产品，用以解决现有技术中无法进行动态区域选择、视频内容难以控制的缺陷。

2、本申请提供一种自定义区域动态视频生成方法，包括：

3、获取用于视频生成内容描述的文本以及用于作为视频背景的图片；

4、响应于用户在所述图片中选取的自定义区域，生成掩码图片；

5、输入所述文本、所述图片和所述掩码图片至预先训练完成的视频生成模型，得到所述视频生成模型输出的目标视频；

6、其中，所述视频生成模型通过在预设扩散模型中嵌入时序对齐模块和/或图像控制模块得到，所述时序对齐模型用于确定所述目标视频中每帧图像的时序，所述条件控制模块至少用于根据所述掩码图片确定所述目标视频的动态区域。

7、作为一个实施例，所述视频生成模型包括3d编码器、加

8、所述3d编码器用于根据所述图片输出隐向量；

9、所述加噪模块用于对所述隐向量添加预设噪声或用户输入噪声，得到噪声隐向量；

10、所述条件控制模块用于对所述噪声隐向量和所述掩码图片进行拼接，基于预设文本编码器对所述文本进行编码；

11、所述unet模块用于根据拼接后的所述噪声隐向量和所述掩码图片以及编码后的所述文本，得到完成文本控制和图像控制的隐向量；

12、所述时序对齐模型用于基于自注意力机制对完成文本控制和图像控制的隐向量进行时序对齐，得到目标隐向量；

13、所述3d解码器用于根据所述目标隐向量生成所述目标视频。

14、作为一个实施例，所述视频生成模型的训练步骤，包括：

15、获取视频公开数据集，对所述视频公开数据集中的视频第一帧图像进行掩码操作，得到训练集；

16、冻结所述3d编码器、所述加噪模块、所述unet模块和所述3d解码器的参数，并基于最小化负对数似然确定所述视频生成模型的损失函数；

17、基于所述训练集对所述视频生成模型进行训练，更新所述条件控制模块的参数和/或所述时序对齐模型的参数，达到预设迭代次数或所述损失函数达到预设阈值，完成训练。

18、作为一个实施例，所述视频生成模型的推理步骤，包括：

19、获取推理文本和推理图片；

20、响应于用户在所述推理图片中选取的自定义区域，生成推理掩码图片；

21、输入所述推理文本、所述推理图片、所述推理掩码图片以及预设随机噪声至训练完成的所述视频生成模型，得到所述视频生成模型输出的推理视频。

22、作为一个实施例，所述响应于用户在所述图片中选取的自定义区域，生成掩码图片，包括：

23、基于预设的用户交互界面向用户提供笔刷工具或图像分割工具；

24、响应于用户基于所述笔刷工具发出的涂抹指令，将所述涂抹指令对应的区域作为自定义区域，生成掩码图片；或者，

25、响应于用户发出的点击指令，基于所述图像分割工具将所述点击指令对应的区域作为自定义区域，生成掩码图片。

26、作为一个实施例，在所述响应于用户在所述图片中选取的自定义区域，生成掩码图片之后，还包括：

27、基于所述用户交互界面获取用户输入的自定义参数；

28、对应的，所述输入所述文本、所述图片和所述掩码图片至预先训练完成的视频生成模型，得到所述视频生成模型输出的目标视频，包括：

29、输入所述文本、所述图片、所述掩码图片和所述自定义参数至预先训练完成的视频生成模型，得到所述视频生成模型输出的目标视频。

30、本申请还提供一种自定义区域动态视频生成装置，包括：

31、获取模块，用于获取用于视频生成内容描述的文本以及用于作为视频背景的图片；

32、第一生成模块，用于响应于用户在所述图片中选取的自定义区域，生成掩码图片；

33、第二生成模块，用于输入所述文本、所述图片和所述掩码图片至预先训练完成的视频生成模型，得到所述视频生成模型输出的目标视频；

34、其中，所述视频生成模型通过在预设扩散模型中嵌入时序对齐模块和/或图像控制模块得到，所述时序对齐模型用于确定所述目标视频中每帧图像的时序，所述条件控制模块至少用于根据所述掩码图片确定所述目标视频的动态区域。

35、本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述自定义区域动态视频生成方法。

36、本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述自定义区域动态视频生成方法。

37、本专利技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述自定义区域动态视频生成方法。

38、本申请提供的自定义区域动态视频生成方法、装置、设备、介质及产品，通过增加时序对齐模块以及条件控制模块优化视频生成质量及内容，并通过掩码操作实现指定区域的动态生成，解决了传统视频生成模型中无法进行动态区域选择、视频内容难以控制的问题。

本文档来自技高网...

【技术保护点】

1.一种自定义区域动态视频生成方法，其特征在于，包括：

2.根据权利要求1所述的自定义区域动态视频生成方法，其特征在于，所述视频生成模型包括3D编码器、加噪模块、条件控制模块、UNet模块、时序对齐模型和3D解码器；

3.根据权利要求2所述的自定义区域动态视频生成方法，其特征在于，所述视频生成模型的训练步骤，包括：

4.根据权利要求2所述的自定义区域动态视频生成方法，其特征在于，所述视频生成模型的推理步骤，包括：

5.根据权利要求1-4任一项所述的自定义区域动态视频生成方法，其特征在于，所述响应于用户在所述图片中选取的自定义区域，生成掩码图片，包括：

6.根据权利要求5所述的自定义区域动态视频生成方法，其特征在于，在所述响应于用户在所述图片中选取的自定义区域，生成掩码图片之后，还包括：

7.一种自定义区域动态视频生成装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述自定义区域动态视频生成方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述自定义区域动态视频生成方法。

...

【技术特征摘要】

1.一种自定义区域动态视频生成方法，其特征在于，包括：

2.根据权利要求1所述的自定义区域动态视频生成方法，其特征在于，所述视频生成模型包括3d编码器、加噪模块、条件控制模块、unet模块、时序对齐模型和3d解码器；

3.根据权利要求2所述的自定义区域动态视频生成方法，其特征在于，所述视频生成模型的训练步骤，包括：

4.根据权利要求2所述的自定义区域动态视频生成方法，其特征在于，所述视频生成模型的推理步骤，包括：

5.根据权利要求1-4任一项所述的自定义区域动态视频生成方法，其特征在于，所述响应于用户在所述图片中选取的自定义区域，生成掩码图片，包括：

6.根据权利要求5所述的自定义区域动态视频生成方法，其特征...

【专利技术属性】
技术研发人员：吴文俊，戴震，徐迅，严天恩，严昱超，陈建忠，金炜众，
申请(专利权)人：中国移动通信集团浙江有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人