视频生成和视频生成模型的训练方法、装置、设备和介质制造方法及图纸

技术编号：44237405 阅读：2 留言：0更新日期：2025-02-11 13:38

本公开提供了一种视频生成和视频生成模型的训练方法、装置、设备和介质，涉及计算机视觉、深度学习、大模型等技术领域，可应用于AIGC、数字人、智能电商等场景。具体实现方案为：获取动作姿态序列和展示有目标对象的参考图像；其中，动作姿态序列中的元素表征根据人体关键点生成的动作姿态；对参考图像进行编码，得到目标对象的外观特征；从动作姿态序列中提取姿态指导特征，并根据姿态指导特征、噪声特征和外观特征，生成目标特征；对目标特征进行解码，得到展示有目标对象的动作驱动视频。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及ai(artificial intelligence，人工智能)领域，具体涉及计算机视觉、深度学习、大模型等，可应用于aigc(artificial intelligence generatedcontent，人工智能生成内容)、数字人、智能电商等场景，尤其涉及视频生成和视频生成模型的训练方法、装置、设备和介质。

技术介绍

1、数字人动作驱动技术，用于将驱动对象的动作姿态应用到数字人(如目标对象)上，使其生成的运动驱动视频中的数字人具有与驱动对象相同的肢体动作、手势、面部表情和唇部运动，这种高精度的动作姿态迁移不仅增强了数字人的真实感和互动性，还极大地拓宽了其应用场景。比如，数字人动作驱动技术可以应用于直播领域、社交领域、客服领域、游戏领域等，并推动相关领域产业的快速发展。

技术实现思路

1、本公开提供了一种用于视频生成和视频生成模型的训练方法、装置、设备和介质。

2、根据本公开的一方面，提供了一种视频生成方法，包括：

3、获取动作姿态序列和展示有目标对象的参考图像；其中，所述动作姿态序列中的元素表征根据人体关键点生成的动作姿态；

4、对所述参考图像进行编码，得到所述目标对象的外观特征；

5、从所述动作姿态序列中提取姿态指导特征，并根据所述姿态指导特征、噪声特征和所述外观特征，生成目标特征；

6、对所述目标特征进行解码，得到展示有所述目标对象的动作驱动视频。

7、根据本公开的另一方面，提供了一种视频生成模型的训练方法，包括：

8、获取动作视频和对应的动作姿态序列，以及获取展示有目标对象的参考图像；其中，所述动作姿态序列中的元素表征根据所述动作视频的视频帧中的人体关键点生成的动作姿态；

9、对所述动作视频进行编码，得到第一视频特征，并对所述第一视频特征添加噪声，得到第二视频特征；

10、对所述动作姿态序列进行编码，得到姿态指导特征，并对所述参考图像进行编码，得到所述目标对象的外观特征；

11、采用视频生成模型根据所述第二视频特征、所述姿态指导特征和所述外观特征，生成预测噪声；

12、根据所述第一视频特征的添加噪声和所述预测噪声之间的差异，对所述视频生成模型进行训练。

13、根据本公开的又一方面，提供了一种视频生成装置，包括：

14、获取模块，用于获取动作姿态序列和展示有目标对象的参考图像；其中，所述动作姿态序列中的元素表征根据人体关键点生成的动作姿态；

15、编码模块，用于对所述参考图像进行编码，得到所述目标对象的外观特征；

16、提取模块，用于从所述动作姿态序列中提取姿态指导特征；

17、生成模块，用于根据所述姿态指导特征、噪声特征和所述外观特征，生成目标特征；

18、解码模块，用于对所述目标特征进行解码，得到展示有所述目标对象的动作驱动视频。

19、根据本公开的再一方面，提供了一种视频生成模型的训练装置，包括：

20、获取模块，用于获取动作视频和对应的动作姿态序列，以及获取展示有目标对象的参考图像；其中，所述动作姿态序列中的元素表征根据所述动作视频的视频帧中的人体关键点生成的动作姿态；

21、编码加噪模块，用于对所述动作视频进行编码，得到第一视频特征，并对所述第一视频特征添加噪声，得到第二视频特征；

22、特征提取模块，用于对所述动作姿态序列进行编码，得到姿态指导特征，并对所述参考图像进行编码，得到所述目标对象的外观特征；

23、生成模块，用于采用视频生成模型根据所述第二视频特征、所述姿态指导特征和所述外观特征，生成预测噪声；

24、训练模块，用于根据所述第一视频特征的添加噪声和所述预测噪声之间的差异，对所述视频生成模型进行训练。

25、根据本公开的又一方面，提供了一种电子设备，包括：

26、至少一个处理器；以及

27、与所述至少一个处理器通信连接的存储器；其中，

28、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开上述一方面提出的视频生成方法，或者，执行本公开上述另一方面提出的视频生成模型的训练方法。

29、根据本公开的又一方面，提供了一种计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开上述一方面提出的视频生成方法，或者，执行本公开上述另一方面提出的视频生成模型的训练方法。

30、根据本公开的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开上述一方面提出的视频生成方法，或者，执行时实现本公开上述另一方面提出的视频生成模型的训练方法。

31、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种视频生成方法，包括：

2.根据权利要求1所述的方法，其中，所述根据所述姿态指导特征、噪声特征和所述外观特征，生成目标特征，包括：

3.根据权利要求2所述的方法，其中，每个所述扩散模块包括姿态调制单元、空间注意力单元和时间注意力单元，

4.根据权利要求3所述的方法，其中，所述多个扩散模块中的非首个扩散模块，用于：

5.根据权利要求3或4所述的方法，其中，所述空间注意力单元，用于采用确定性的去噪策略和空间注意力机制，对输入特征进行去噪；

6.根据权利要求2所述的方法，其中，响应于所述动作姿态序列的长度大于设定长度阈值，所述姿态指导特征包括多个姿态指导子特征；

7.根据权利要求3或6所述的方法，其中，所述设定长度阈值是根据所述视频生成模型的输入要求确定的。

8.根据权利要求6所述的方法，其中，所述将所述姿态指导特征、所述噪声特征和所述外观特征输入视频生成模型，以采用所述视频生成模型中的多个扩散模块进行特征处理，包括：

9.根据权利要求6所述的方法，其中，所述将所述姿态指导特征、所述噪

10.根据权利要求9所述的方法，其中，所述对所述目标特征进行解码，得到展示有所述目标对象的动作驱动视频，包括：

11.根据权利要求8或9所述的方法，其中，每个所述扩散模块包括姿态调制单元、空间注意力单元和时间注意力单元，

12.根据权利要求11所述的方法，其中，所述姿态调制单元，用于采用相同的初始化噪声对所述相邻的动作姿态子序列的姿态指导子特征中的部分特征进行姿态调制；

13.根据权利要求11所述的方法，其中，所述空间注意力单元和/或所述时间注意力单元用于在去噪时间步中，对所述重叠元素对应的特征进行平滑处理。

14.根据权利要求1所述的方法，其中，所述噪声特征是采用以下步骤生成的：

15.一种视频生成模型的训练方法，包括：

16.一种视频生成装置，包括：

17.根据权利要求16所述的装置，其中，所述生成模块，用于：

18.根据权利要求17所述的装置，其中，每个所述扩散模块包括姿态调制单元、空间注意力单元和时间注意力单元，

19.根据权利要求18所述的装置，其中，所述多个扩散模块中的非首个扩散模块，用于：

20.根据权利要求18或19所述的装置，其中，所述空间注意力单元，用于采用确定性的去噪策略和空间注意力机制，对输入特征进行去噪；

21.根据权利要求17所述的装置，其中，响应于所述动作姿态序列的长度大于设定长度阈值，所述姿态指导特征包括多个姿态指导子特征；

22.根据权利要求18或21所述的装置，其中，所述设定长度阈值是根据所述视频生成模型的输入要求确定的。

23.根据权利要求21所述的装置，其中，所述生成模块，用于：

24.根据权利要求21所述的装置，其中，所述生成模块，用于，包括：

25.根据权利要求24所述的装置，其中，所述解码模块，用于：

26.根据权利要求23或24所述的装置，其中，每个所述扩散模块包括姿态调制单元、空间注意力单元和时间注意力单元，

27.根据权利要求26所述的装置，其中，所述姿态调制单元，用于采用相同的初始化噪声对所述相邻的动作姿态子序列的姿态指导子特征中的部分特征进行姿态调制；

28.根据权利要求26所述的装置，其中，所述空间注意力单元和/或所述时间注意力单元用于在去噪时间步中，对所述重叠元素对应的特征进行平滑处理。

29.根据权利要求16所述的装置，其中，所述噪声特征是采用以下模块生成的：

30.一种视频生成模型的训练装置，包括：

31.一种电子设备，包括：

32.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的视频生成方法，或者，执行根据权利要求15所述的视频生成模型的训练方法。

33.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-14中任一项所述视频生成方法的步骤，或者，执行时实现权利要求15所述的视频生成模型的训练方法的步骤。

...

【技术特征摘要】