动画数字人的生成方法及电子设备技术

技术编号：44577608 阅读：1 留言：0更新日期：2025-03-14 12:40

本申请实施例提供一种动画数字人的生成方法及电子设备，所述方法包括：获取预设文本，并将预设文本转换为动画数字人对应的音频数据流；基于音频数据流，生成动画数字人对应的动作数据流；将音频数据流与动作数据流封装成数据包；动作数据流用于指示动画数字人的面部情绪、肢体动作中的至少一个；将数据包传输至第二电子设备，使得第二电子设备基于个性化配置、数字人模型及数据包，生成动画数字人。本申请实施例通过一电子设备生成数字人的音频数据流和动作数据流，由另一电子设备基于音频数据流、动作数据流、数字人模型及个性化配置生成动画数字人，使得用户可以对数字人进行自定义配置。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数字人，尤其涉及一种动画数字人的生成方法及电子设备。

技术介绍

1、随着人工智能技术的发展，可以通过计算机图形技术生成与真人形象接近的数字人，广泛应用于直播、培训等视频播放场景中。在视频播放场景中，通常由服务端生成包含数字人的视频数据，并推流至多个客户端进行播放，如此，不同客户端的用户看到的视频内容都是相同的，数字人无法与不同的用户进行相应的交互，无法满足用户的个性化需求，从而影响用户的视频观看体验。

技术实现思路

1、本申请实施例提供一种动画数字人的生成方法及电子设备，解决上述数字人的视频播放场景无法满足用户的个性化需求的问题。

2、第一方面，本申请实施例提供一种动画数字人的生成方法，应用于第一电子设备，所述方法包括：获取预设文本，并将所述预设文本转换为所述动画数字人对应的音频数据流；基于所述音频数据流，生成所述动画数字人对应的动作数据流；将所述音频数据流与所述动作数据流封装成数据包；所述动作数据流用于指示所述动画数字人的面部动作、肢体动作中的至少一个；将所述数据包传输至第二电子设备，使得所述第二电子设备基于个性化配置、数字人模型及所述数据包，生成所述动画数字人。

3、在上述实现方式中，第一电子设备可以基于预设的文本生成对应的音频数据流和动作数据流，发送至第二电子设备，第二电子设备可以基于音频数据流和动作数据流以及个性化配置生成动画数字人；第二电子设备可以对数字人个性化进行配置，不同的配置可以生成不同的动画数字人，满足了用户的个性化需求，可以根据

4、在一种可能的实现方式中，所述将所述预设文本转换为所述动画数字人对应的音频数据流，包括：将所述预设文本输入文本音频转换模型，生成所述动画数字人对应的音频数据流。

5、在一种可能的实现方式中，所述动作数据流包括面部动作数据流，所述基于所述音频数据流，生成所述动画数字人对应的动作数据流，包括：提取所述音频数据流的音频特征，将所述音频特征输入音频动作转换模型，生成所述动画数字人的面部的多个第一特征点的位置数据。

6、在一种可能的实现方式中，所述动作数据流还包括肢体动作数据流，所述基于所述音频数据流，生成所述动画数字人的动作数据流，还包括：提取所述音频数据流的音频特征，将所述音频特征输入所述音频动作转换模型，生成所述动画数字人的肢体的多个第二特征点的位置数据。

7、在一种可能的实现方式中，所述音频数据流包括多帧音频数据，每一帧音频数据对应一个音频时间戳，所述动作数据流包括多帧动作数据，每一帧动作数据对应一个动作时间戳，所述将所述音频数据流与所述动作数据流封装成数据包，具体包括：

8、将所述音频数据流与所述动作数据流对齐，包括：将所述每一帧音频数据对应的音频时间戳与所述每一帧动作数据对应的动作时间戳对准，将对齐之后的所述音频数据流和所述动作数据流封装成数据包。

9、第二方面，本申请实施例提供一种动画数字人的生成方法，应用于第二电子设备，所述方法包括：接收第一电子设备发送的数据包，解析所述数据包得到音频数据流与动作数据流；所述动作数据流用于指示所述动画数字人的面部动作、肢体动作中的至少一个；基于所述音频数据流、所述动作数据流、个性化配置及数字人模型，生成所述动画数字人；其中，个性化配置包括数字人的外观信息、面部动作信息及肢体动作信息中的至少一个；对所述动画数字人进行渲染。

10、在一种可能的实现方式中，所述方法还包括：响应于用户更改所述个性化配置，调整所述动画数字人的面部动作、肢体动作中的至少一个。

11、在一种可能的实现方式中，所述解析所述数据包得到音频数据流与动作数据流，包括：基于所述数据包的帧开始字段和帧结束字段对所述数据包进行分帧，得到所述数据包中的多个帧数据；其中，每个帧数据包括每帧音频数据和每帧动作数据。

12、在一种可能的实现方式中，所述基于所述音频数据流、所述动作数据流、个性化配置及数字人模型，生成所述动画数字人，包括：将所述个性化配置加载至所述数字人模型，生成初始数字人；基于每帧动作数据、每帧音频数据以及所述初始数字人，生成所述动画数字人；所述每帧动作数据包括面部动作数据和/或肢体动作数据，所述面部动作数据包括所述动画数字人的每帧面部的多个第一特征点的位置数据，所述肢体动作数据包括所述动画数字人的每帧肢体的多个第二特征点的位置数据。

13、在一种可能的实现方式中，所述基于每帧动作数据、每帧音频数据以及所述初始数字人，生成所述动画数字人，包括：将所述初始数字人的每帧面部的多个第一特征点的当前位置数据调整为所述面部动作数据中的位置数据，和/或将所述初始数字人的每帧肢体的多个第二特征点的当前位置数据调整为所述肢体动作数据中的位置数据，生成所述动画数字人的每帧数字人；将所述每帧音频数据与所述动画数字人的每帧数字人进行合成，生成所述动画数字人。

14、在一种可能的实现方式中，所述方法还包括：接收交互数据，将所述交互数据发送至所述第一电子设备；接收所述第一电子设备发送的所述交互数据对应的响应数据包，解析所述响应数据包得到响应音频数据流与响应动作数据流；基于所述响应音频数据流、所述响应动作数据流、个性化配置及数字人模型，生成响应所述交互数据的所述动画数字人；对响应所述交互数据的所述动画数字人进行渲染。

15、第二方面，本申请实施例提供一种电子设备，所述电子设备包括存储器和处理器：其中，所述存储器，用于存储程序指令；所述处理器，用于读取并执行所述存储器中存储的所述程序指令，当所述程序指令被所述处理器执行时，使得所述电子设备执行上述的动画数字人的生成方法。

16、第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有程序指令，当所述程序指令在电子设备上运行时，使得所述电子设备的处理器执行上述的动画数字人的生成方法。

17、本申请实施例提供的动画数字人的生成方法、电子设备及存储介质通过第一电子设备生成数字人的音频数据流和动作数据流，并发送至第二电子设备，由第二电子设备基于音频数据流和动作数据流生成动画数字人，使得用户可以通过第二电子设备对数字人进行个性化配置，满足了用户的个性化需求，有效提升了用户体验。此外，第一电子设备只需传输数字人的音频数据和动作数据，无需传输视频数据，有效降低了数据传输过程中的带宽要求。

本文档来自技高网...

【技术保护点】

1.一种动画数字人的生成方法，应用于第一电子设备，其特征在于，所述方法包括：

2.如权利要求1所述的动画数字人的生成方法，其特征在于，所述动作数据流包括面部动作数据流，所述基于所述音频数据流，生成所述动画数字人对应的动作数据流，包括：

3.如权利要求2所述的动画数字人的生成方法，其特征在于，所述动作数据流还包括肢体动作数据流，所述基于所述音频数据流，生成所述动画数字人的动作数据流，还包括：

4.如权利要求1所述的动画数字人的生成方法，其特征在于，所述音频数据流包括多帧音频数据，每一帧音频数据对应一个音频时间戳，所述动作数据流包括多帧动作数据，每一帧动作数据对应一个动作时间戳，所述将所述音频数据流与所述动作数据流封装成数据包，具体包括：

5.一种动画数字人的生成方法，应用于第二电子设备，其特征在于，所述方法包括：

6.如权利要求5所述的动画数字人的生成方法，其特征在于，所述方法还包括：

7.如权利要求5所述的动画数字人的生成方法，其特征在于，所述解析所述数据包得到音频数据流与动作数据流，包括：

9.如权利要求8所述的动画数字人的生成方法，其特征在于，所述基于每帧动作数据、每帧音频数据以及所述初始数字人，生成所述动画数字人，包括：

10.一种电子设备，其特征在于，所述电子设备包括存储器和处理器：

...

【技术特征摘要】

1.一种动画数字人的生成方法，应用于第一电子设备，其特征在于，所述方法包括：

【专利技术属性】
技术研发人员：冯浩霖，
申请(专利权)人：超聚变数字技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人