一种语音情感识别方法、装置、设备及存储介质制造方法及图纸

技术编号：42748411 阅读：17 留言：0更新日期：2024-09-18 13:39

本申请提供了一种语音情感识别方法、装置、设备及存储介质，涉及语音信号处理技术领域，该方法首先使用预先训练好的语音识别自监督预训练模型提取帧级特征，从而缓解情感数据标注数据量不足的问题；其次利用局部原型映射网络，在不增加额外标注负担的情况下，在帧级层面通过无监督原型学习方法对帧级特征进行建模，有效刻画由语音情感复杂性所带来的局部统计信息变化并将其映射到相应的语音段表征上。综上所述，该方法通过结合预先训练好的语音识别自监督预训练模型和局部原型映射网络，为语音情感分析带来了显著的有益效果，提高了情感分析的准确性和效率，并具有较强的鲁棒性和泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音信号处理，尤其涉及一种语音情感识别方法、装置、设备及存储介质。

技术介绍

1、语音情感识别（speech emotion recognition，ser）是指利用计算机技术深度分析人的话语，识别其中蕴含的情感，这一技术在促进人机交互（human-computerinteraction，hci）的自然性与深度上具有重要意义。情感作为一种复杂的心理学现象，其表达往往不局限于单一的、静态的段级标签。人们的情感表达往往具有连续性、多样性和动态性，这些特性使得传统的基于段级情感标签的分析方法面临挑战。此外，语音信号中的情感信息往往隐藏在细微的语音特征中，如音调、语速、音质等，这些特征的捕捉和分析对于提高情感识别的准确性至关重要。

2、为了克服这些挑战，现有技术中采用了基于自监督预训练的语音情感识别方法。自监督学习是一种利用大量无标签数据进行模型预训练的技术，通过设计合适的预训练任务，模型可以学习到语音信号的内在结构和规律，从而提取出更加丰富和有效的特征表示。这种方法不仅可以提高模型对语音信号的泛化能力，还可以为后续的语音情感识别任务提供有力的支持。

3、然而，目前基于自监督预训练的语音情感识别研究仍存在一些问题。一方面，大多数研究仍然采用简单的段级分析方法对模型提取的特征进行处理，无法充分利用模型提取的丰富局部信息。另一方面，由于情感的复杂性和多样性，简单的特征表示方法往往难以对复杂、多样的情感信息进行有效的表征。

技术实现思路

1、针对上述问题，本申请

2、第一方面，本申请提供了一种语音情感识别方法，该方法包括：

3、将获取到的段级目标样本数据输入到预训练特征提取器中进行帧级特征提取，得到多个帧级特征；

4、对所述多个帧级特征进行在线原型学习得到原型集，所述原型集中包括k个原型，每个原型代表一种典型局部特征；

5、基于所述原型集得到帧级映射集，所述帧级映射集中包括k个帧级映射，其中，一个帧级映射中包括每个帧级特征分别与同一个原型的相似度值；

6、对所述帧级映射集中的各帧级特征进行聚合，得到段级嵌入，所述段级嵌入中包括各原型与所述段级目标样本数据包含的所有帧级特征的相似度分数最大值；

7、将所述段级嵌入输入预先训练好的情感分类器，得到所述段级目标样本数据的情感类别。

8、可选的，所述预训练特征提取器预先经过自监督学习模型基于预设训练数量的无标签语音数据进行了训练，所述预训练特征提取器包括：

9、波形编码器和bert编码器；

10、所述段级目标样本数据经过所述波形编码器和所述bert编码器处理后，得到所述多个帧级特征。

11、可选的，所述bert编码器包含24个transformer编码器层；

12、在对所述预训练特征提取器进行训练时，通过调整所述bert编码器的第18个transformer编码器层和第19个transformer编码器层以保证所述特征提取器的性能；

13、在输出帧级特征时，采用第19个transformer编码器层输出所述多个帧级特征。

14、可选的，所述对所述多个帧级特征进行在线原型学习得到原型集，包括：

15、随机初始化所述k个原型，所述k个原型与帧级特征维度相同，利用原型损失函数，对所述多个帧级特征与所述k个原型进行优化处理，得到原型集。

16、可选的，所述基于所述原型集得到帧级映射集包括：

17、分别计算每个帧级特征与所述原型集中每个原型之间的余弦相似度值；

18、基于所述余弦相似度值计算各帧级特征属于所述原型的概率值；

19、将所述各帧级特征属于所述原型的概率值作为所述原型的帧级映射；

20、对所述原型集中的各原型分别计算一个帧级映射，组合得到所述帧级映射集。

21、可选的，所述方法还包括：

22、根据情感识别任务中对应的情感类型，在所述k个原型中筛选与所述情感类型最相关的前k'个原型，其中k'小于等于k；

23、使用筛选出的所述k'个原型得到新的帧级映射集；

24、基于所述新的帧级映射集进行帧级特征聚合，得到新的段级嵌入；

25、利用所述新的段级嵌入重新训练情感分类器。

26、第二方面，本申请提供了一种语音情感识别装置，所述装置包括：

27、提取单元，用于将获取到的段级目标样本数据输入到预训练特征提取器中进行帧级特征提取，得到多个帧级特征；

28、第一处理单元，用于对所述多个帧级特征进行在线原型学习得到原型集，所述原型集中包括k个原型，每个原型代表一种典型局部特征；

29、第二处理单元，用于基于所述原型集得到帧级映射集，所述帧级映射集中包括k个帧级映射，其中，一个帧级映射中包括每个帧级特征分别与同一个原型的相似度值；

30、聚合单元，用于对所述帧级映射集中的各帧级特征进行聚合，得到段级嵌入，所述段级嵌入中包括各原型与所述段级目标样本数据包含的所有帧级特征的相似度分数最大值；

31、第三处理单元，用于将所述段级嵌入输入预先训练好的情感分类器，得到所述段级目标样本数据的情感类别。

32、可选的，所述装置还包括：

33、训练单元，用于对所述预训练特征提取器利用自监督学习模型基于预设训练数量的无标签语音数据进行训练，所述预训练特征提取器包括：

34、波形编码器和bert编码器；

35、所述段级目标样本数据经过所述波形编码器和所述bert编码器处理后，得到所述多个帧级特征。

36、可选的，上述bert编码器包含24个transformer编码器层；

37、在对所述预训练特征提取器进行训练时，通过调整所述bert编码器的第18个transformer编码器层和第19个transformer编码器层以保证所述特征提取器的性能；

38、在输出帧级特征时，采用第19个transformer编码器层输出所述多个帧级特征。

39、可选的，所述第一处理单元用于，随机初始化所述k个原型，所述k个原型与帧级特征维度相同，利用原型损失函数，对所述多个帧级特征与所述k个原型进行优化处理，得到原型集。

40、可选的，所述第二处理单元用于，分别计算每个帧级特征与所述原型集中每个原型之间的余弦相似度值；

41、基于所述余弦相似度值计算各帧级特征属于所述原型的概率值；

42、将所述各帧级特征属于所述原型的概率值作为所述原型的帧级映射；

43、对所述原型集中的各原型分别计算一个帧级映射，组合得到所述帧级映射集。

44、可选的，所述装置还包括，第五处理单元，用于根据情感识别任务中对应的情感类型，在所述k个原型中筛选与所述情感类型最相关的前k'个原型本文档来自技高网...

【技术保护点】

1.一种语音情感识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述预训练特征提取器预先经过自监督学习模型基于预设训练数量的无标签语音数据进行了训练，所述预训练特征提取器包括：

3.根据权利要求2所述的方法，其特征在于，所述BERT编码器包含24个Transformer编码器层；

4.根据权利要求1所述的方法，其特征在于，所述对所述多个帧级特征进行在线原型学习得到原型集，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述原型集得到帧级映射集包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

7.一种语音情感识别装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种计算设备，其特征在于，所述计算设备包括：存储器、处理器；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。

...

【技术特征摘要】

1.一种语音情感识别方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述bert编码器包含24个transformer编码器层；

4.根据权利要求1所述的方法，其特征在于，所述对所述多个帧级特征进行在线原型学习得到原型集，包括：

5.根据权利要求1所述的方法，其特征在于...

【专利技术属性】
技术研发人员：奚宇轩，宋彦，魏思，戴礼荣，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人