数字人合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：44930784 阅读：6 留言：0更新日期：2025-04-08 19:12

本公开提供一种数字人合成方法、装置、电子设备及存储介质，涉及人工智能技术领域。所述方法包括：获取目标图像、驱动视频及目标音频；提取所述目标图像中的三维人脸数据和三维隐式关键点，以及所述目标音频的音频特征；基于所述三维人脸数据及所述音频特征，预测所述音频特征映射的所述三维人脸数据；获取所述驱动视频中人物的头部姿态数据，并基于所述头部姿态数据、所述三维隐式关键点及所述音频特征映射的所述三维人脸数据预测所述目标图像的运动光流；基于所述运动光流合成所述数字人的视频帧图像，以得到所述数字人播报所述目标音频的视频。本公开保证了数字人的人脸细节描述及头部摆动连续自然，提高了数字人口播视频的效果及稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及数字人合成方法、装置、电子设备及存储介质。

技术介绍

1、数字人指的是通过计算机图形学、人工智能、自然语言处理、深度学习等技术生成的虚拟人物形象，能够模仿真实人类的外貌、语音、表情和肢体动作，与用户进行互动。企业也逐渐将虚拟数字人应用于品牌推广和客户服务，借助其24小时不间断的互动和个性化的形象塑造更高效的用户体验。

2、目前，相关技术可以利用人工智能算法，通过一张图像生成高度逼真的数字人，主要基于扩散模型或卷积模型实现。然而，上述扩散模型存在推理成本高，且在视频连续帧生成过程中控制性低，难以保持照片主体及背景的前后帧一致性，生成的视频稳定性差等问题；上述卷积模型存在合成的数字人缺乏真实感，合成视频中人物头部动作不自然等问题。

技术实现思路

1、有鉴于此，本公开实施例提出了一种数字人合成方法、装置、电子设备及存储介质，以解决相关技术中扩散模型存在的推理成本高，且在视频连续帧生成过程中控制性低，难以保持照片主体及背景的前后帧一致性，生成的视频稳定性差等问题；卷积模型存在的数字人缺乏真实感，合成视频中人物头部动作不自然等问题。

2、根据本公开的第一方面，提供了一种数字人合成方法，包括：获取目标图像、驱动视频及目标音频；提取所述目标图像中的三维人脸数据和三维隐式关键点，以及所述目标音频的音频特征；基于所述三维人脸数据及所述音频特征，预测所述音频特征映射的所述三维人脸数据；获取所述驱动视频中人物的头部姿态数据，并基于所述头部姿态数据、

3、根据本公开的第二方面，提供了一种数字人互动装置，包括：获取模块，用于获取目标图像、驱动视频及目标音频；提取模块，用于提取所述目标图像中的三维人脸数据和三维隐式关键点，以及所述目标音频的音频特征；处理模块，用于基于所述三维人脸数据及所述音频特征，预测所述音频特征映射的所述三维人脸数据；处理模块，还用于获取所述驱动视频中人物的头部姿态数据，并基于所述头部姿态数据、所述三维隐式关键点及所述音频特征映射的所述三维人脸数据预测所述目标图像的运动光流；合成模块，用于基于所述运动光流合成所述数字人的视频帧图像，以得到所述数字人播报所述目标音频的视频。

4、根据本公开的第三方面，提供了一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述数字人合成方法。

5、根据本公开的第四方面，提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述数字人合成方法。

6、本公开示例性实施例可以具有以下部分或全部有益效果：

7、在本公开示例实施方式所提供的数字人合成方法中，获取目标图像、驱动视频及目标音频；提取目标图像中的三维人脸数据和三维隐式关键点，以及目标音频的音频特征；基于三维人脸数据及音频特征，预测音频特征映射的三维人脸数据；获取驱动视频中人物的头部姿态数据，并基于头部姿态数据、三维隐式关键点及音频特征映射的三维人脸数据预测目标图像的运动光流；基于运动光流合成数字人的视频帧图像，以得到数字人播报目标音频的视频。本公开实施例提取目标图像中的三维人脸数据，并基于提取到的三维人脸数据构建目标音频到数字人人脸的映射关系，利用三维人脸数据的稠密特征表征，确保了数字人在播放目标音频过程中的人脸细节描述；此外，本公开实施例通过驱动视频中人物的头部姿态数据、目标图像的三维隐式关键点及音频特征与人脸的映射关系，预测了目标图像的运动光流，并以运动光流指导合成数字人的口播视频，解耦了音频数据与基于目标图像生成的数字人人物头部摆动动作之间的联系，保证了合成的数字人人物头部摆动连续自然，提高了合成的口播视频的稳定性。

本文档来自技高网...

【技术保护点】

1.一种数字人合成方法，其特征在于，包括：

2.根据权利要求1所述的数字人合成方法，其特征在于，所述获取目标图像，包括：

3.根据权利要求2所述的数字人合成方法，其特征在于，所述基于所述人脸关键点坐标将所述原始图像中检测到的人脸与标准人脸对齐，得到所述目标图像，包括：

4.根据权利要求3所述的数字人合成方法，其特征在于，在所述基于所述运动光流合成所述数字人的视频帧图像之后，所述方法还包括：

5.根据权利要求1所述的数字人合成方法，其特征在于，所述获取所述驱动视频中人物的头部姿态数据，包括：

6.根据权利要求5所述的数字人合成方法，其特征在于，所述基于所述头部姿态数据、所述三维隐式关键点及所述音频特征映射的所述三维人脸数据预测所述目标图像的运动光流，包括：

7.根据权利要求1所述的数字人合成方法，其特征在于，所述基于所述运动光流合成所述数字人的视频帧图像，包括：

8.一种数字人合成装置，其特征在于，包括：

9.一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

...

【技术特征摘要】

1.一种数字人合成方法，其特征在于，包括：

2.根据权利要求1所述的数字人合成方法，其特征在于，所述获取目标图像，包括：

4.根据权利要求3所述的数字人合成方法，其特征在于，在所述基于所述运动光流合成所述数字人的视频帧图像之后，所述方法还包括：

5.根据权利要求1所述的数字人合成方法，其特征在于，所述获取所述驱动视频中人物的头部姿态数据，包括：

6.根据权利要求5所述的数字人合成方法，其特征...

【专利技术属性】
技术研发人员：李鹏程，赵巧姣，
申请(专利权)人：西安点告网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人