一种3D虚拟数字人唇形驱动方法及装置制造方法及图纸

技术编号：40841264 阅读：14 留言：0更新日期：2024-04-01 15:08

一种3D虚拟数字人唇形驱动方法及装置，该方法通过获取音频数据和音频数据对应的文本数据，以及文本数据对应的面部BlendShape参数数据，形成训练唇形驱动模型的训练数据集；对训练数据集中的数据进行数据格式转换，将数据格式统一为允许唇形驱动模型框架识别的输入格式；利用统一数据格式后的数据，采用端到端方式训练深度神经网络得到唇形驱动模型；将待推理的目标文本音频输入训练完毕的唇形驱动模型，生成目标文本音频对应的目标面部BlendShape参数推理结果驱动3D虚拟数字人的唇部动作。本发明专利技术实现音频、文本与数字人对应唇部动作相匹配的效果，不仅降低了控制3D角色面部动画的技术难度，同时降低了成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数字孪生，具体涉及一种3d虚拟数字人唇形驱动方法及装置。

技术介绍

1、随着计算机视觉的发展，数字孪生开始应用于各种领域，元宇宙作为一个大的依托，数字世界也应运而生。在社交、购物和游戏等现代生活中，吸引人的、可动画化的3d角色是进入数字世界的重要入口。富有表现力的3d角色面部动画是现代计算机生成电影和数字游戏的重要组成部分。

2、现阶段，基于视觉的性能捕捉，即通过观察到的人类演员的动作来驱动动画面部，是大多数生产流程中不可或缺的组成部分。传统技术中，虽然从捕捉系统中获得的质量正在稳步提高，但制作高质量面部动画的成本仍然很高，主要表现如下：

3、首先，计算机视觉系统需要精心设置，通常还需要劳动密集型的清理和其他处理步骤；另外，无论何时录制新镜头，演员都需要在现场，最好还能保持他们的外表，存在较大的挑战。最重要的是，在许多现代游戏中，游戏中角色所说的几十个小时的对话，对于使用基于视觉的系统来说太昂贵了。因此，通常的做法是只制作关键动画，使用视觉系统并依靠基于音频和文字记录的系统来制作大量的游戏内材料，这种系统产生的动画的质量还有待改进。

技术实现思路

1、为此，本专利技术提供一种3d虚拟数字人唇形驱动方法及装置，解决传统技术成本高、产生的动画质量差的问题。

2、为了实现上述目的，本专利技术提供如下技术方案：一种3d虚拟数字人唇形驱动方法，包括：

3、获取音频数据和所述音频数据对应的文本数据，以及所述文本数据对应的面部blen

4、对所述训练数据集中的所述音频数据、所述文本数据和所述面部blendshape参数数据进行数据格式转换，将所述音频数据、所述文本数据和所述面部blendshape参数数据的数据格式统一为允许所述唇形驱动模型框架识别的输入格式；

5、利用统一数据格式后的所述音频数据、所述文本数据和所述面部blendshape参数数据，采用端到端方式训练深度神经网络得到所述唇形驱动模型；

6、将待推理的目标文本音频输入训练完毕的所述唇形驱动模型，生成目标文本音频对应的目标面部blendshape参数推理结果，利用目标面部blendshape参数推理结果驱动3d虚拟数字人的唇部动作。

7、作为3d虚拟数字人唇形驱动方法优选方案，所述训练数据集中的所述音频数据、所述文本数据和所述面部blendshape参数数据获取来源包括：从公开数据集中筛选；通过面部动作捕捉软件拍摄。

8、作为3d虚拟数字人唇形驱动方法优选方案，在进行数据格式统一过程中：

9、若所述音频数据和所述面部blendshape参数数据不能强制对齐，将不能强制对齐的所述音频数据和所述面部blendshape参数数据舍弃。

10、作为3d虚拟数字人唇形驱动方法优选方案，在进行数据格式统一过程中：

11、若所述音频数据和所述面部blendshape参数数据，小于预设的帧数阈值或预设文字数量阈值，将小于预设的帧数阈值或预设文字数量阈值的所述音频数据、所述面部blendshape参数数据舍弃。

12、作为3d虚拟数字人唇形驱动方法优选方案，采用端到端方式训练深度神经网络得到所述唇形驱动模型过程中，通过编码器将所述音频数据和所述文本数据进行解耦表示；

13、编码器的骨干网络采用transformer，编码器通过样式映射层与特征融合层得到特征向量，所述特征向量为包含文本音频特征的高维向量，将所述特征向量进行降维映射后，与所述面部blendshape参数数据进行匹配。

14、作为3d虚拟数字人唇形驱动方法优选方案，采用端到端方式训练深度神经网络得到所述唇形驱动模型过程中，采用验证集生成的blendshape参数数据与原始blendshape参数数据进行损失值计算，在迭代训练的过程中更新所述唇形驱动模型的参数，当损失值达到最优时，停止训练所述唇形驱动模型。

15、本专利技术还提供一种3d虚拟数字人唇形驱动装置，包括：

16、训练数据集构建模块，用于获取音频数据和所述音频数据对应的文本数据，以及所述文本数据对应的面部blendshape参数数据，形成训练唇形驱动模型的训练数据集；

17、数据格式统一模块，用于对所述训练数据集中的所述音频数据、所述文本数据和所述面部blendshape参数数据进行数据格式转换，将所述音频数据、所述文本数据和所述面部blendshape参数数据的数据格式统一为允许所述唇形驱动模型框架识别的输入格式；

18、模型训练模块，用于利用统一数据格式后的所述音频数据、所述文本数据和所述面部blendshape参数数据，采用端到端方式训练深度神经网络得到所述唇形驱动模型；

19、面部参数推理模块，用于将待推理的目标文本音频输入训练完毕的所述唇形驱动模型，生成目标文本音频对应的目标面部blendshape参数推理结果，利用目标面部blendshape参数推理结果驱动3d虚拟数字人的唇部动作。

20、作为3d虚拟数字人唇形驱动装置优选方案，所述训练数据集构建模块中，所述训练数据集中的所述音频数据、所述文本数据和所述面部blendshape参数数据获取来源包括：从公开数据集中筛选；通过面部动作捕捉软件拍摄。

21、作为3d虚拟数字人唇形驱动装置优选方案，所述数据格式统一模块中：

22、若所述音频数据和所述面部blendshape参数数据不能强制对齐，将不能强制对齐的所述音频数据和所述面部blendshape参数数据舍弃；

23、所述数据格式统一模块中：

24、若所述音频数据和所述面部blendshape参数数据，小于预设的帧数阈值或预设文字数量阈值，将小于预设的帧数阈值或预设文字数量阈值的所述音频数据、所述面部blendshape参数数据舍弃。

25、作为3d虚拟数字人唇形驱动装置优选方案，所述模型训练模块中，通过编码器将所述音频数据和所述文本数据进行解耦表示；

26、编码器的骨干网络采用transformer，编码器通过样式映射层与特征融合层得到特征向量，所述特征向量为包含文本音频特征的高维向量，将所述特征向量进行降维映射后，与所述面部blendshape参数数据进行匹配；

27、所述模型训练模块中，采用验证集生成的blendshape参数数据与原始blendshape参数数据进行损失值计算，在迭代训练的过程中更新所述唇形驱动模型的参数，当损失值达到最优时，停止训练所述唇形驱动模型。

28、本专利技术的有益效果如下，通过获取音频数据和所述音频数据对应的文本数据，以及所述文本数据对应的面部blendshape参数数据，形成训练唇形驱动模型的训练数据集；对所述训练数据集中的所述音频数据、所述文本数据和所述面部blendshape参数数据进行数据格式转换，将所述音频数据、本文档来自技高网...

【技术保护点】

1.一种3D虚拟数字人唇形驱动方法，其特征在于，包括：

2.根据权利要求1所述的一种3D虚拟数字人唇形驱动方法，其特征在于，所述训练数据集中的所述音频数据、所述文本数据和所述面部BlendShape参数数据获取来源包括：从公开数据集中筛选；通过面部动作捕捉软件拍摄。

3.根据权利要求1所述的一种3D虚拟数字人唇形驱动方法，其特征在于，在进行数据格式统一过程中：

4.根据权利要求1所述的一种3D虚拟数字人唇形驱动方法，其特征在于，在进行数据格式统一过程中：

5.根据权利要求1所述的一种3D虚拟数字人唇形驱动方法，其特征在于，采用端到端方式训练深度神经网络得到所述唇形驱动模型过程中，通过编码器将所述音频数据和所述文本数据进行解耦表示；

6.根据权利要求5所述的一种3D虚拟数字人唇形驱动方法，其特征在于，采用端到端方式训练深度神经网络得到所述唇形驱动模型过程中，采用验证集生成的BlendShape参数数据与原始BlendShape参数数据进行损失值计算，在迭代训练的过程中更新所述唇形驱动模型的参数，当损失值达到最优时，停止训练所述唇形驱动模型。

7.一种3D虚拟数字人唇形驱动装置，其特征在于，包括：

8.根据权利要求7所述的一种3D虚拟数字人唇形驱动装置，其特征在于，所述训练数据集构建模块中，所述训练数据集中的所述音频数据、所述文本数据和所述面部BlendShape参数数据获取来源包括：从公开数据集中筛选；通过面部动作捕捉软件拍摄。

9.根据权利要求7所述的一种3D虚拟数字人唇形驱动装置，其特征在于，所述数据格式统一模块中：

10.根据权利要求7所述的一种3D虚拟数字人唇形驱动装置，其特征在于，所述模型训练模块中，通过编码器将所述音频数据和所述文本数据进行解耦表示；

...

【技术特征摘要】

1.一种3d虚拟数字人唇形驱动方法，其特征在于，包括：

2.根据权利要求1所述的一种3d虚拟数字人唇形驱动方法，其特征在于，所述训练数据集中的所述音频数据、所述文本数据和所述面部blendshape参数数据获取来源包括：从公开数据集中筛选；通过面部动作捕捉软件拍摄。

3.根据权利要求1所述的一种3d虚拟数字人唇形驱动方法，其特征在于，在进行数据格式统一过程中：

4.根据权利要求1所述的一种3d虚拟数字人唇形驱动方法，其特征在于，在进行数据格式统一过程中：

5.根据权利要求1所述的一种3d虚拟数字人唇形驱动方法，其特征在于，采用端到端方式训练深度神经网络得到所述唇形驱动模型过程中，通过编码器将所述音频数据和所述文本数据进行解耦表示；

6.根据权利要求5所述的一种3d虚拟数字人唇形驱动方法，其特征在于，采用端到端方式训练深度神经网...

【专利技术属性】
技术研发人员：袁海杰，
申请(专利权)人：小哆智能科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人