视频生成方法、装置、设备以及存储介质制造方法及图纸

技术编号：42864169 阅读：25 留言：0更新日期：2024-09-27 17:27

本公开提供了一种视频生成方法、装置、设备以及存储介质，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习等技术领域，可应用于基于人工智能的内容生成等场景。具体实现方案为：将语音文件和待驱动人脸视频输入预训练的第一模型，由该第一模型输出三维人脸网格序列；其中，该三维人脸网格序列与该语音文件的语音特征相对应，并且与该待驱动人脸视频的人脸特征和说话风格特征相对应；基于该三维人脸网格序列和该待驱动人脸视频，生成与该语音文件匹配的语音驱动人脸视频。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，尤其涉及计算机视觉、深度学习等，可应用于基于人工智能的内容生成等场景。

技术介绍

1、随着人工智能(ai，artificial intelligence)技术的发展，生成式人工智能(aigc，artificial intelligence generated content)创作工具已然成为辅助人类的重要技术，极大提高了科技生产力和工作效率。虚拟人(或数字人)技术是aigc的重要一环，它基于深度学习等技术构建虚拟人物形象，具备与人一样的交互能力。

技术实现思路

1、本公开提供了一种视频生成方法、装置、设备以及存储介质。

2、根据本公开的一方面，提供了一种视频生成方法，包括：

3、将语音文件和待驱动人脸视频输入预训练的第一模型，由该第一模型输出三维人脸网格序列；其中，该三维人脸网格序列与该语音文件的语音特征相对应，并且与该待驱动人脸视频的人脸特征和说话风格特征相对应；

4、基于该三维人脸网格序列和该待驱动人脸视频，生成与该语音文件匹配的语音驱动人脸视频。

5、根据本公开的另一方面，提供了一种模型训练方法，包括：

6、采用人脸重建模型生成多个人脸视频样本；

7、利用该多个人脸视频样本及语音样本，建立第一训练集和第一测试集；

8、采用该第一训练集和该第一测试集对第一模型进行训练，以使该第一模型能够基于语音文件和待驱动人脸视频生成三维人脸网格序列；其中，该三维人脸网格序列与该语音文件的语

9、根据本公开的另一方面，提供了一种模型训练方法，包括：

10、采用人脸重建模型生成多个人脸视频样本；

11、利用该多个人脸视频样本及二维人脸图像序列样本，建立第二训练集和第二测试集；

12、采用该第二训练集和该第二测试集对第二模型进行训练，以使该第二模型能够基于二维人脸图像序列和待驱动人脸视频生成语音驱动人脸视频。

13、根据本公开的另一方面，提供了一种视频生成装置，包括：

14、输入输出模块，用于将语音文件和待驱动人脸视频输入预训练的第一模型，由该第一模型输出三维人脸网格序列；其中，该三维人脸网格序列与该语音文件的语音特征相对应，并且与该待驱动人脸视频的人脸特征和说话风格特征相对应；

15、第一生成模块，用于基于该三维人脸网格序列和该待驱动人脸视频，生成与该语音文件匹配的语音驱动人脸视频。

16、根据本公开的另一方面，提供了一种模型训练装置，包括：

17、第二生成模块，用于采用人脸重建模型生成多个人脸视频样本；

18、第一训练集生成模块，用于利用该多个人脸视频样本及语音样本，建立第一训练集和第一测试集；

19、第一训练模块，用于采用该第一训练集和该第一测试集对第一模型进行训练，以使该第一模型能够基于语音文件和待驱动人脸视频生成三维人脸网格序列；其中，该三维人脸网格序列与该语音文件的语音特征相对应，并且与该待驱动人脸视频的人脸特征和说话风格特征相对应。

20、根据本公开的另一方面，提供了一种模型训练装置，包括：

21、第三生成模块，用于采用人脸重建模型生成多个人脸视频样本；

22、第二训练集生成模块，用于利用该多个人脸视频样本及二维人脸图像序列样本，建立第二训练集和第二测试集；

23、第二训练模块，用于采用该第二训练集和该第二测试集对第二模型进行训练，以使该第二模型能够基于二维人脸图像序列和待驱动人脸视频生成语音驱动人脸视频。

24、根据本公开的另一方面，提供了一种电子设备，包括：

25、至少一个处理器；以及

26、与该至少一个处理器通信连接的存储器；其中，

27、该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开实施例中任一的方法。

28、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。

29、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。

30、本公开提出的视频生成方法，用于生成被语音文件驱动的人脸视频，包括两个阶段，第一阶段基于语音文件和待驱动人脸视频的特征，生成三维人脸网格序列；第二阶段基于该三维人脸网格序列，生成与语音文件匹配的语音驱动人脸视频。两个阶段分工明确，其中第一阶段负责唇形运动趋势的提取，第二阶段保证生成的语音驱动人脸视频的自然度，实现无损的人脸重建，从而提高生成的语音驱动人脸视频的自然度和准确性。

31、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种视频生成方法，包括：

2.根据权利要求1所述的方法，其中，所述第一模型包括编码模块和解码模块；

3.根据权利要求2所述的方法，其中，所述编码模块用于：

4.根据权利要求2所述的方法，其中，所述编码模块用于：

5.根据权利要求1-4中任一所述的方法，其中，所述第一模型包括基于Transformer架构的面部驱动模型。

6.根据权利要求1-5中任一所述的方法，其中，所述基于所述三维人脸网格序列和所述待驱动人脸视频，生成与所述语音文件匹配的语音驱动人脸视频，包括：

7.根据权利要求6所述的方法，其中，所述第二模型包括基于风格的生成对抗网络模型。

8.一种模型训练方法，包括：

9.根据权利要求8所述的方法，其中，所述人脸重建模型包括高保真人脸交换模型。

10.一种模型训练方法，包括：

11.一种视频生成装置，包括：

12.根据权利要求11所述的装置，其中，所述第一模型包括编码模块和解码模块；

13.根据权利要求12所述的装置，其中，所述编码模块用于：

14.根据权利要求12所述的装置，其中，所述编码模块用于：

15.根据权利要求11-14中任一所述的装置，其中，所述第一模型包括基于Transformer架构的面部驱动模型。

16.根据权利要求11-15中任一所述的装置，其中，所述第一生成模块用于：

17.根据权利要求16所述的装置，其中，所述第二模型包括基于风格的生成对抗网络模型。

18.一种模型训练装置，包括：

19.根据权利要求18所述的装置，其中，所述人脸重建模型包括高保真人脸交换模型。

20.一种模型训练装置，包括：

21.一种电子设备，包括：

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任-项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。

...

【技术特征摘要】