一种基于ASR-SER联合模型的语音情感识别方法技术

技术编号：42823243 阅读：25 留言：0更新日期：2024-09-24 21:00

本发明专利技术涉及一种基于ASR‑SER联合模型的语音情感识别方法，所述方法采用包括ASR‑SER联合模型来实现，所述方法包括以下步骤：步骤S1，在ASR路径和SER路径上分别对原始音频输入进行声学特征提取，得到相应的声学特征和MFCC特征；步骤S2，将声学特征输入到构建的声转词模型，得到隐藏状态和相应的文本输出，其中所述声转词模型包括ASR编码器和基于注意力机制的ASR解码器；步骤S3，将ASR路径上得到的隐藏状态和SER路径上得到的MFCC特征作为SER通道部分的输入，将文本输出作为ASR通道部分的输入，分别得到各自的输出向量；步骤S4，使用共同注意力机制融合步骤S3中两个输出向量，得到最终的语音情感分类。与现有技术相比，本发明专利技术具有语音情感识别更准确、更具鲁棒性等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音情感识别，尤其是涉及一种基于asr-ser联合模型的语音情感识别方法。

技术介绍

1、人与机器之间的语音通信在我们的日常生活中变得越来越普遍。随着自动语音识别(audio speech recognition，以下简称asr)技术的进步，对语音情感识别(speechemotion recognition，以下简称ser)的需求也不断增长。

2、除了声音信息之外，基于语音转录文本的语言特征已被证明在语音情绪识别中很有用。然而，由于情感标记数据的稀缺以及情感语音识别的困难，该研究领域很难获得可靠的语言特征和模型。集成asr和ser提出了重大挑战，因为它们的底层方法传统上都是单独开发的，包含转录和情感注释的语料库几乎不可用，限制了它们在联合使用场景中的性能。asr和ser之间的关系尚未得到充分研究，并且尚不清楚asr功能对ser有何益处以及如何使其受益。只有少数研究的作者证明，在训练期间联合执行多任务asr和ser可以提高ser性能。具体实现是通过将声学嵌入与asr输出生成的语言表征向量合并联合训练asr和ser的端到端模型。在这些实验中，asr都被认为是ser的辅助任务，即没有明确强调asr的性能。此外，这些模型的噪声鲁棒性尚未得到研究。在现实环境中运行要求模型对背景条件(最常见的是噪音、音乐和胡言乱语)具有鲁棒性。虽然存在多种方法可以提高单个asr和ser系统在噪声环境中的鲁棒性，但联合建模的噪声鲁棒性尚未得到研究。

3、单独训练的asr基准模型和单独训练的ser模型分别如图1和图2所示，

4、如何实现语音情感的准确识别，成为需要解决的技术问题。

技术实现思路

1、本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于asr-ser联合模型的语音情感识别方法。

2、本专利技术的目的可以通过以下技术方案来实现：

3、根据本专利技术的一个方面，提供了一种基于asr-ser联合模型的语音情感识别方法，所述方法采用包括asr路径和ser路径的asr-ser联合模型来实现，所述方法包括以下步骤：

4、步骤s1，在asr路径和ser路径上分别对原始音频输入进行声学特征提取，得到相应的声学特征和mfcc特征；

5、步骤s2，将asr路径上得到声学特征输入到构建的声转词模型，得到隐藏状态和相应的文本输出，其中所述声转词模型包括asr编码器和基于注意力机制的asr解码器；

6、步骤s3，将asr路径上得到的隐藏状态和ser路径上得到的mfcc特征作为ser通道部分的输入，将asr路径上得到的文本输出作为asr通道部分的输入，分别得到各自的输出向量；

7、步骤s4，使用共同注意力机制融合步骤s3中两个输出向量，得到最终的语音情感分类。

8、优选地，所述的声转词模型具体为：

9、将输入声学特征的长度t序列表示为x＝(x1,x2,...,xt)，将输出单词标签的长度l序列表示为w＝(w1,w2,...,wl)，则所述asr编码器将声学特征转换为上下文向量h＝(h1,h2,…,ht)；其中，xt为第t个输入声学特征；wl为第l个输出单词标签，ht为第t个上下文向量；

10、所述asr解码器将上下文向量转换为目标词；在第l个解码步骤，asr解码器的隐藏状态sl如下式所示：

11、sl＝recurrency(sl-1,gl,wl)

12、

13、fl＝f*al-1

14、el,t＝zttanhzsl-1+vht+uftt+b)

15、al,t＝softmax(el,t)

16、其中，sl为隐藏状态，wl表示当前预测标签，gl和ht为上下文向量，a为基于位置的注意力，f为一维卷积的参数，zt、z、v和u都为全连接层的参数，recurrency为循环函数，b为常数；

17、根据上面的公式，预测下一个标签wl为：

18、wl～generate(gl,sl)

19、其中，sl为隐藏状态，gl为上下文向量，generate为生成函数。

20、优选地，所述的使用共同注意力机制融合步骤s3中两个输出向量，得到最终的语音情感分类具体为：使用共同注意力机制融合步骤s3中两个输出向量后，使用softmax输出层来预测情感类别的概率，并使用基于交叉熵损失的情感分类器进行ser分类，得到最终的语音情感分类。

21、更加优选地，所述的共同注意力机制连接两个输出向量，并在自注意力中交换键值对，允许一个输入通道的特征合并到另一个输入通道中，具体为：

22、

23、hci＝multihead(qa,kb,vb)wo

24、＝concat(head1,…,headn)

25、

26、其中，和为可训练参数，qa代表来自一个输入通道的查询，而kb和vb代表来自另一个输入通道的键和值，hc表示共同注意力的最终级联隐藏状态，concat为连接函数，multihead为多头函数，attention为注意力函数。

27、优选地，所述的asr-ser联合模型使用多任务损失函数进行训练：

28、

29、其中，和分别为asr和ser的损失，所述asr和ser的损失均使用交叉熵作为损失函数，α为权重。

30、优选地，所述的ser通道部分和asr通道部分均包括采用跳跃连接的双向长短期记忆模块和自注意力机制模块。

31、更加优选地，所述的双向长短期记忆模块为两层双向长短期记忆模块。

32、更加优选地，每层所述的双向长短期记忆模块包括32个隐藏单元以及其后面的dropout层。

33、更加优选地，所述的自注意力机制模块具有16个头和64个节点的自注意力模块，用于生成固定长度的向量作为特征编码。

34、优选地，所述的在asr路径和ser路径上分别对原始音频输入进行声学特征提取具体为：asr路径上使用wav2vec2模型对原始音频输入进行声学特征提取，并对wav2vec2编码器进行了微调，同时保持模型的卷积部分冻结，得到相应的声学特征；在ser路径上，对mfcc特征进行提取后经平均池化后获得声学表示。

35、与现有技术相比，本专利技术具有以下有益效果：

36、1)本专利技术联合asr模型和ser模型进行训练，将asr解码器输出隐藏状态输出以及asr路径提取的mfcc特征输入到ser路径的通道部分，两条路径各采用自注意力机制来关注重要的特征帧，最后使用共同注意力融合机制融合两条路径的输出，最终给出语音情感分类，比单独的ser模型的语音情感识别更准确。

37、2)本专利技术的长短期记忆(bi-lstm)模块和自注意力模块之间引入了跳跃连接，增强了噪声鲁棒性，使得无论在干净背景音还是嘈杂本文档来自技高网...

【技术保护点】

1.一种基于ASR-SER联合模型的语音情感识别方法，其特征在于，所述方法采用包括ASR路径和SER路径的ASR-SER联合模型来实现，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于ASR-SER联合模型的语音情感识别方法，其特征在于，所述的声转词模型具体为：

3.根据权利要求1所述的一种基于ASR-SER联合模型的语音情感识别方法，其特征在于，所述的使用共同注意力机制融合步骤S3中两个输出向量，得到最终的语音情感分类具体为：使用共同注意力机制融合步骤S3中两个输出向量后，使用softmax输出层来预测情感类别的概率，并使用基于交叉熵损失的情感分类器进行SER分类，得到最终的语音情感分类。

4.根据权利要求3所述的一种基于ASR-SER联合模型的语音情感识别方法，其特征在于，所述的共同注意力机制连接两个输出向量，并在自注意力中交换键值对，允许一个输入通道的特征合并到另一个输入通道中，具体为：

5.根据权利要求1所述的一种基于ASR-SER联合模型的语音情感识别方法，其特征在于，所述的ASR-SER联合模型使用多任务损失函数进行训练：

6.根据权利要求1所述的一种基于ASR-SER联合模型的语音情感识别方法，其特征在于，所述的SER通道部分和ASR通道部分均包括采用跳跃连接的双向长短期记忆模块和自注意力机制模块。

7.根据权利要求6所述的一种基于ASR-SER联合模型的语音情感识别方法，其特征在于，所述的双向长短期记忆模块为两层双向长短期记忆模块。

8.根据权利要求6所述的一种基于ASR-SER联合模型的语音情感识别方法，其特征在于，每层所述的双向长短期记忆模块包括32个隐藏单元以及其后面的dropout层。

9.根据权利要求6所述的一种基于ASR-SER联合模型的语音情感识别方法，其特征在于，所述的自注意力机制模块具有16个头和64个节点的自注意力模块，用于生成固定长度的向量作为特征编码。

10.根据权利要求1所述的一种基于ASR-SER联合模型的语音情感识别方法，其特征在于，所述的在ASR路径和SER路径上分别对原始音频输入进行声学特征提取具体为：ASR路径上使用wav2vec2模型对原始音频输入进行声学特征提取，并对wav2vec2编码器进行了微调，同时保持模型的卷积部分冻结，得到相应的声学特征；在SER路径上，对MFCC特征进行提取后经平均池化后获得声学表示。

...

【技术特征摘要】

1.一种基于asr-ser联合模型的语音情感识别方法，其特征在于，所述方法采用包括asr路径和ser路径的asr-ser联合模型来实现，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于asr-ser联合模型的语音情感识别方法，其特征在于，所述的声转词模型具体为：

3.根据权利要求1所述的一种基于asr-ser联合模型的语音情感识别方法，其特征在于，所述的使用共同注意力机制融合步骤s3中两个输出向量，得到最终的语音情感分类具体为：使用共同注意力机制融合步骤s3中两个输出向量后，使用softmax输出层来预测情感类别的概率，并使用基于交叉熵损失的情感分类器进行ser分类，得到最终的语音情感分类。

4.根据权利要求3所述的一种基于asr-ser联合模型的语音情感识别方法，其特征在于，所述的共同注意力机制连接两个输出向量，并在自注意力中交换键值对，允许一个输入通道的特征合并到另一个输入通道中，具体为：

5.根据权利要求1所述的一种基于asr-ser联合模型的语音情感识别方法，其特征在于，所述的asr-ser联合模型使用多任务损失函数进行训练：

6.根据权利要求1所述的一种基于asr-s...

【专利技术属性】
技术研发人员：赵若愚，蒋先涛，
申请(专利权)人：上海海事大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人