基于语音的3D数字人口型驱动方法、装置、设备及介质制造方法及图纸

技术编号：44812433 阅读：2 留言：0更新日期：2025-03-28 19:58

本申请公开了一种基于语音的3D数字人口型驱动方法、装置、设备及介质，所述方法，包括：获取目标语音数据；将所述目标语音数据输入至目标分析模型，得到目标驱动序列数据；所述目标分析模型用于基于所述目标语音数据确定所述目标驱动序列数据，所述目标驱动序列数据对应的特征维度与3D数字人的口部特征维度对应；基于所述目标驱动序列数据，对3D数字人进行渲染驱动，能够有效提高3D数字人口型的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本公开一般涉及图像处理，具体涉及一种基于语音的3d数字人口型驱动方法、装置、设备及介质。

技术介绍

1、元宇宙为人们描述了一个丰富多彩的虚拟世界，作为这个虚拟世界里的主人翁—数字人，越来越收到人们的关注。数字人作为运用数字技术创造出来的、与人类形象行为接近的数字化人物，将代替人类在虚拟世界完成生活生产。当下作为数字人灵魂的语音大模型得到了突飞猛进的发展，如gpt-4、ernie 3.0titan和ernie bot等，赋予了数字人强大的语言理解能力，如何更准确、优雅地去表达知识内容也提出了更高的要求。说话作为数字人的一项基本能力，其口型要精准契合，才能更好的在虚拟世界里交流生活。

技术实现思路

1、鉴于现有技术中的上述缺陷或不足，期望提供一种基于语音的3d数字人口型驱动方法、装置、设备及介质，能够有效提高3d数字人口型的准确性。

2、第一方面，本申请实施例提供了一种基于语音的3d数字人口型驱动方法，包括：

3、获取目标语音数据；

4、将所述目标语音数据输入至目标分析模型，得到目标驱动序列数据；所述目标分析模型用于基于所述目标语音数据确定所述目标驱动序列数据，所述目标驱动序列数据对应的特征维度与3d数字人的口部特征维度对应；

5、基于所述目标驱动序列数据，对3d数字人进行渲染驱动。

6、在一些实施例中，在所述将所述目标语音数据输入至目标分析模型，得到目标驱动序列数据之前，还包括：

7、获取采样语音数据；

<p>8、对所述采样语音数据进行语音特征提取，得到采样语音特征及其对应的采样驱动序列数据；

9、基于所述采样驱动序列数据与所述采样语音数据的对应帧数据，对所述目标分析模型进行训练，得到所述目标分析模型。

10、在一些实施例中，所述对所述采样语音数据进行语音特征提取，得到采样语音特征及其对应的采样驱动序列数据，包括：

11、将所述采样语音数据转换成原始驱动序列数据，从所述原始驱动序列中提取所述采样驱动序列数据；或者

12、将所述采样语音数据依次输入特征提取层、线性插值层、transformer层和mlp层，得到所述采样驱动序列数据。

13、在一些实施例中，所述基于所述采样驱动序列数据与所述采样语音数据的对应帧数据，对所述目标分析模型进行训练，包括：

14、获取所述采样语音数据的对应帧数据；

15、从所述对应帧数据中提取与所述采样驱动序列数据的维度数量对应的标准驱动序列数据；

16、基于所述采样驱动序列数据和所述标准驱动序列数据，对所述目标分析模型进行修正序列。

17、在一些实施例中，所述获取所述采样语音数据的对应帧数据，包括：

18、基于所述原始驱动序列数据进行人脸图像渲染，得到所述采样语音数据的对应帧数据；或者

19、获取所述采样语音数据对应的视频数据，将所述视频数据与所述采样语音数据进行帧对齐，得到所述采样语音数据的对应帧数据。

20、在一些实施例中，所述目标驱动序列数据为口部特征点，所述目标驱动序列数据的维度数量为37个；所述原始驱动序列数据为面部特征点，所述原始驱动序列数据的维度数量为52个。

21、第二方面，本申请实施例提供了一种基于语音的3d数字人口型驱动装置，包括：

22、获取模块，用于获取目标语音数据；

23、分析模块，用于将所述目标语音数据输入至目标分析模型，得到目标驱动序列数据；所述目标分析模型用于基于所述目标语音数据确定所述目标驱动序列数据，所述目标驱动序列数据对应的特征维度与3d数字人的口部特征维度对应；

24、渲染模块，用于基于所述目标驱动序列数据，对3d数字人进行驱动。

25、第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如本申请实施例描述的方法。

26、第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例描述的方法。

27、第五方面，本申请实施例提供了一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如本申请实施例描述的方法。

28、本申请实施例提出的基于语音的3d数字人口型驱动方法，能够利用目标分析模型根据3d数字人待“说”出的目标语音数据确定出与之相匹配的口型所需的目标驱动序列数据，进而按照目标驱动序列数据对3d数字人进行渲染驱动，即可使得3d数字人在“说”出目标语音数据时口型更标准，姿态更自然。

29、本专利技术附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本专利技术的实践了解到。

本文档来自技高网...

【技术保护点】

1.一种基于语音的3D数字人口型驱动方法，其特征在于，包括：

2.根据权利要求1所述的基于语音的3D数字人口型驱动方法，其特征在于，在所述将所述目标语音数据输入至目标分析模型，得到目标驱动序列数据之前，还包括：

3.根据权利要求2所述的基于语音的3D数字人口型驱动方法，其特征在于，所述对所述采样语音数据进行语音特征提取，得到采样语音特征及其对应的采样驱动序列数据，包括：

4.根据权利要求2或3所述的基于语音的3D数字人口型驱动方法，其特征在于，所述基于所述采样驱动序列数据与所述采样语音数据的对应帧数据，对所述目标分析模型进行训练，包括：

5.根据权利要求4所述的基于语音的3D数字人口型驱动方法，其特征在于，所述获取所述采样语音数据的对应帧数据，包括：

6.根据权利要求3所述的基于语音的3D数字人口型驱动方法，其特征在于，所述目标驱动序列数据为口部特征点，所述目标驱动序列数据的维度数量为37个；所述原始驱动序列数据为面部特征点，所述原始驱动序列数据的维度数量为52个。

7.一种基于语音的3D数字人口型驱动装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如权利要求1-6中任一所述的基于语音的3D数字人口型驱动方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的基于语音的3D数字人口型驱动方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-6中任一项所述的基于语音的3D数字人口型驱动方法。

...

【技术特征摘要】

1.一种基于语音的3d数字人口型驱动方法，其特征在于，包括：

2.根据权利要求1所述的基于语音的3d数字人口型驱动方法，其特征在于，在所述将所述目标语音数据输入至目标分析模型，得到目标驱动序列数据之前，还包括：

3.根据权利要求2所述的基于语音的3d数字人口型驱动方法，其特征在于，所述对所述采样语音数据进行语音特征提取，得到采样语音特征及其对应的采样驱动序列数据，包括：

4.根据权利要求2或3所述的基于语音的3d数字人口型驱动方法，其特征在于，所述基于所述采样驱动序列数据与所述采样语音数据的对应帧数据，对所述目标分析模型进行训练，包括：

5.根据权利要求4所述的基于语音的3d数字人口型驱动方法，其特征在于，所述获取所述采样语音数据的对应帧数据，包括：

6.根据权利要求3所述的基于语音的3d数字人口型...

【专利技术属性】
技术研发人员：王远强，杨青，
申请(专利权)人：度小满科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人