虚拟对象的表情处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：41487433 阅读：17 留言：0更新日期：2024-05-30 14:35

本申请提供了一种虚拟对象的表情处理方法、装置、电子设备及存储介质；方法包括：获取虚拟对象待输出的音频信号以及所述音频信号对应的文本；对所述文本进行特征提取，得到文本特征；对所述音频信号进行特征提取，得到音频特征；结合所述文本特征和所述音频特征进行情绪分类，得到所述虚拟对象的情绪类别；基于所述音频信号的特征进行强度预测，得到所述情绪类别下的情绪强度曲线；基于所述情绪类别和所述情绪强度曲线，控制所述虚拟对象根据所述音频信号同步呈现相应的表情。通过本申请，能够在控制虚拟对象输出音频信号时，实现虚拟对象更加准确、自然的情绪表达。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种虚拟对象的表情处理方法、装置、电子设备及存储介质。

技术介绍

1、随着虚拟人技术的不断发展，越来越多的应用场景需要虚拟人能够表现出更加真实、自然的情绪表达。情绪表达是虚拟人技术中的一个重要方面，它可以使虚拟人更加生动、有趣，同时也可以提高用户的参与度和体验感。

2、在虚拟人的情绪表达中，情绪强度和情绪过渡是两个关键问题。情绪强度是指情绪的强烈程度，例如高兴、悲伤、愤怒等情绪的强度可以有不同的程度。而情绪过渡则是指情绪的变化过程，例如从高兴到悲伤的情绪过渡需要有一个平滑自然的过程，否则会让用户感到不真实或者不舒服。

3、目前，虚拟人技术中常见的情绪表达方法是基于文本特征的情绪分类和表情生成。但是，单单利用文本特征进行强度值的预测，不够准确，无法捕捉到情绪起伏的关键信息，且这种预测需要训练模型，成本较高，同时生成的表情也不够自然。

技术实现思路

1、本申请实施例提供一种虚拟对象的表情处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够在控制虚拟对象输出音频信号时，实现虚拟对象更加准确、自然的情绪表达。

2、本申请实施例的技术方案是这样实现的：

3、本申请实施例提供一种虚拟对象的表情处理方法，包括：

4、获取虚拟对象待输出的音频信号以及所述音频信号对应的文本；

5、对所述文本进行特征提取，得到文本特征；

6、对所述音频信号进行特征提取，得到音频特征；

<p>7、结合所述文本特征和所述音频特征进行情绪分类，得到所述虚拟对象的情绪类别；

8、基于所述音频信号的特征进行强度预测，得到所述情绪类别下的情绪强度曲线；

9、基于所述情绪类别和所述情绪强度曲线，控制所述虚拟对象根据所述音频信号同步呈现相应的表情。

10、本申请实施例提供一种虚拟对象的表情处理装置，包括：

11、获取模块，用于获取虚拟对象待输出的音频信号以及所述音频信号对应的文本；

12、特征提取模块，用于对所述文本进行特征提取，得到文本特征；

13、所述特征提取模块，还用于对所述音频信号进行特征提取，得到音频特征；

14、情绪分类模块，用于结合所述文本特征和所述音频特征进行情绪分类，得到所述虚拟对象的情绪类别；

15、强度预测模块，用于基于所述音频信号的特征进行强度预测，得到所述情绪类别下的情绪强度曲线；

16、控制模块，用于基于所述情绪类别和所述情绪强度曲线，控制所述虚拟对象根据所述音频信号同步呈现相应的表情。

17、本申请实施例提供一种电子设备，包括：

18、存储器，用于存储可执行指令；

19、处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的虚拟对象的表情处理方法。

20、本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令，用于被处理器执行时，实现本申请实施例提供的虚拟对象的表情处理方法。

21、本申请实施例提供一种计算机程序产品，包括计算机程序或计算机可执行指令，用于被处理器执行时，实现本申请实施例提供的虚拟对象的表情处理方法。

22、本申请实施例具有以下有益效果：

23、首先通过结合音频特征和文本特征进行情绪分类，能够提高分类准确率，在此基础上，利用音频信号的特征来预测相应情绪类别下的情绪强度曲线，从而可以实现虚拟对象表情的细粒度驱动，使得虚拟对象的情绪具有起伏，并且表情过渡更加平滑自然，提高了用户体验。

本文档来自技高网...

【技术保护点】

1.一种虚拟对象的表情处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，所述结合所述音频信号的所述能量、所述基频和所述梅尔频谱进行强度预测，得到所述情绪类别下的情绪强度曲线，包括：

4.根据权利要求3所述的方法，其特征在于，所述确定所述音频信号的能量曲线，包括：

5.根据权利要求3所述的方法，其特征在于，所述确定所述音频信号的基频曲线，包括：

6.根据权利要求3所述的方法，其特征在于，所述确定所述音频信号的梅尔频谱曲线，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述情绪类别和所述情绪强度曲线，控制所述虚拟对象根据所述音频信号同步呈现相应的表情，包括：

8.根据权利要求7所述的方法，其特征在于，

9.根据权利要求1所述的方法，其特征在于，

10.根据权利要求9所述的方法，其特征在于，

11.根据权利要求9所述的方法，其特征在于，所述对所述对数梅尔频谱特征进行特征提取，得到深层的音频特征向量，包括：

12.根据权利要求9所述的方法，其特征在于，所述对所述拼接向量进行融合处理，得到多模态的特征向量，包括：

13.根据权利要求1至12任一项所述的方法，其特征在于，

14.一种虚拟对象的表情处理装置，其特征在于，所述装置包括：

15.一种电子设备，其特征在于，包括：

16.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行时，实现权利要求1至13任一项所述的虚拟对象的表情处理方法。

17.一种计算机程序产品，包括计算机程序或计算机可执行指令，其特征在于，所述计算机程序或计算机可执行指令被处理器执行时，实现权利要求1至13任一项所述的虚拟对象的表情处理方法。

...

【技术特征摘要】