基于多模态的语音情感识别方法和系统技术方案

技术编号：40326253 阅读：8 留言：0更新日期：2024-02-09 14:20

本发明专利技术公开了一种基于多模态的语音情感识别方法和系统，包括：对音频数据进行了降噪处理，剥离出了音频数据中的噪音部分。对将剥离后的语音进行分段，获取其中的声纹信息并通过聚类得到不同人物的声音。将得到的声音经过转译成为文本数据。利用语音和文本数据进行多模态的情感识别。本发明专利技术的优点是：将文本和语音两种模态的特征进行融合，学习之间的情感和语义信息，大大提升了情感识别的准确度，提高情感分析的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习和人机交互，特别涉及一种基于多模态的语音情感识别方法和系统。

技术介绍

1、随着网络的发展，情感识别在交通安全，智能交互，医疗健康，信息安全等领域也越来越重要。通过互联网，人们可以通过视频，语音，文本，图片等多样化的信息进行自身情感的表达。在现实生活中，人们可以利用情感进行详细的分析，获取有用的信息。例如在信息安全领域，也可以通过对嫌疑人的情感识别，判断对方的情感波动程度和情感转化方式，来识别对方是否涉嫌欺骗，间谍活动等违法行为。上述的情景大多都涉及多个模态，如警察的执法记录仪就采集了在执法过程中人物的声学信息和讲话内容的文本信息以及人物图像等多模态信息，如何利用好上述多模态信息，将多模态特征进行信息融合是当前研究的热点。

2、本专利注重在公安领域的多模态语音情感识别，特别的，针对执法记录仪记录的处警数据进行情感分析。在警务人员出警过程中，会打开执法记录仪记录下执法的详细过程。里面包含了当事人、民警等人的语音和文本等多模态的信息。

3、利用这些多模态的信息进行情感分析，有利于对涉案人员进行人物情感建模，分析人物的行为和表现，对案件进行辅助性决策。同时也可以帮助民警提升他们的沟通和情绪管理能力。

4、在多模态语音情感识别中，确实存在许多挑战和困难。在模型层面上，语音和文本之间存在较大的差异，包括嵌入表示和时间尺度的差异。如何关键，有效地将语音和文本进行融合。并且在细粒度的时间尺度对齐，以更好地融合两个领域的情感信息是目前面临的一大挑战。另一个挑战是语音和文本的语义信息不同。

技术实现思路

1、本专利技术针对现有技术的缺陷，提供了一种基于多模态的语音情感识别方法和系统。首先对数据进行了预处理。首先对音频数据进行了降噪处理，剥离出了音频数据中的噪音部分。对将剥离后的语音进行分段，获取其中的声纹信息并通过聚类得到不同人物的声音。将得到的声音经过转译成为文本数据。利用语音和文本数据进行多模态的情感识别。本专利技术使用单模态和多模态相结合的方法，充分利用单模态情感信息，并结合多模态融合来捕捉模态之间的语义信息，这样可以提高情感分析的性能和准确性。模型包括单模态的情感学习、跨模态的情感融合学习。模型不仅可以独立的学习文本和语音各自的情感特征，也可以将文本和语音两种模态的特征进行融合，学习之间的情感和语义信息，大大提升了情感识别的准确度。

2、为了实现以上专利技术目的，本专利技术采取的技术方案如下：

3、如图1所示，一种基于多模态的语音情感识别方法，包括以下步骤：

4、步骤一.对语音和文本数据进行预处理，将语音进行降噪和文本数据进行编码，转化为模型可以处理的形式；

5、步骤二.将文本数据输入到两个相同的特征提取层，获取单模态的文本情感信息和要进行融合的跨模态的文本情感信息；

6、步骤三.将语音数据输入到两个相同的特征提取层，获取单模态的语音情感信息和要进行融合的跨模态的语音情感信息；

7、步骤四.将步骤三提取出的单模态语音情感信息和步骤二提取的单模态文本情感信息送入各自的全连接层中，进行单模态的情感分类；

8、步骤五.将步骤三提取出的跨模态语音情感信息和步骤二提取的跨模态文本情感信息输入到跨模态的注意力层中，将两个模态情感的信息进行融合；

9、步骤六.将融合后的跨模态情感信息以及语音和文本的单模态情感特征一起输入到全连接层，进行跨模态的情感分类。

10、步骤七.使用训练好的模型对新的语音数据进行情感识别，在输出层得到情感分类结果。

11、进一步地，所述步骤一具体为：

12、11)对音频数据进行降噪处理。

13、12)对降噪后的语音数据进行切分。将每一句话分为一段音频。

14、13)将分段好的音频数据输入到声纹模型ecapa-tdnn中提取声纹信息，并将其聚类，选取合适的聚类个数，区分不同人的声音信息。并通过asr进行转移，获取文本信息。

15、14)将文本信息和音频信息进行编码，统一数据的长度。对数据进行切分或者补零，让其符合输入模型的长度。

16、进一步地，所述步骤二具体为：

17、21)将文本数据特征采用两个lstm来提取文本的长时间语义特征。lt表示语音特征的长度，ft表示语音特征的维度。

18、22)在lstm的特征提取之后，引入了由于transformer的encoder层的多头注意力机制，进一步的情感特征。

19、进一步地，所述步骤三具体为：

20、31)输入语音数据特征其中la表示语音特征的长度，fa表示语音特征的维度。利用lstm(long short-term memory)提取语音数据的时间特征，cnn(convolutional neural network)提取语音数据的空间特征，并将时间特征和空间特征相加，得到语音的初级特征h。

21、32)将初级特征h后划分为两个部分，与分别从正向和负向提取情感信息。

22、33)为了避免未来情感信息的干扰，并且提取长期特征，采用因果卷积网络来处理情感信息。在卷积之后，对数据进行归一化，并通过relu函数进行激活，并使用dropout进行处理。

23、34)对每一个时间步的两个输出与将其相加在一起并进行平均操作，采用卷积网络进行维度的对齐，处理不同说话人的语速和音调差异。

24、进一步地，所述步骤四具体为：

25、41)将步骤三提取出的单模态语音情感信息和步骤二提取的单模态文本情感信息送入到各自的全连接层中，得到两个(4,1)的结果输出。

26、42)将语音和文本的结果经过softmax层行概率归一化，softmax层将输出结果转化为概率分布，表示分别属于每个情感类别的概率，得到最后的分类输出。

27、43)根据分类输出和真实的标签结果，进行单模态的情感分类，并通过反向传播,训练全连接层和特征提取层。

28、进一步地，所述步骤五具体为：

29、51)使用步骤三提取的跨模态语音情感信息作为查询的输入，将步骤二的跨模态文本情感信息作为键和值的输入。各自的输入乘以矩阵xq，xk，xv，得到查询(q)、键(k)和值(v)。然后，根据公式(1)进行文本信息的融合：

30、att(q,k,v)＝ω(qkt)v (1)

31、ω表示激活函数。

32、52)同样，再用步骤二的跨模态文本情感信息作为查询的输入，步骤三提取的跨模态语音情感信息作本文档来自技高网...

【技术保护点】

1.一种基于多模态的语音情感识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模态的语音情感识别方法，其特征在于：所述步骤一具体为：

3.根据权利要求1所述的一种基于多模态的语音情感识别方法，其特征在于：所述步骤二具体为：

4.根据权利要求1所述的一种基于多模态的语音情感识别方法，其特征在于：所述步骤三具体为：

5.根据权利要求1所述的一种基于多模态的语音情感识别方法，其特征在于：所述步骤四具体为：

6.根据权利要求1所述的一种基于多模态的语音情感识别方法，其特征在于：所述步骤五具体为：

7.根据权利要求6所述的一种基于多模态的语音情感识别方法，其特征在于：在步骤五中采用了MSE loss对融合后的特征进行相似性约束，来让两个模态的融合可以学习到更多的相关信息。

8.根据权利要求1所述的一种基于多模态的语音情感识别方法，其特征在于：所述步骤六具体为：

9.一种基于多模态的语音情感识别系统，其特征在于：该系统能够用于实施权利要求1至8其中一项所述的基于多模态的语音情感识别方法；

10.一种计算机可读存储介质，其特征在于：其上存储有计算机程序，该程序被处理器执行时实现权利要求1至7其中一项所述的基于多模态的语音情感识别方法。

...

【技术特征摘要】

1.一种基于多模态的语音情感识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模态的语音情感识别方法，其特征在于：所述步骤一具体为：

3.根据权利要求1所述的一种基于多模态的语音情感识别方法，其特征在于：所述步骤二具体为：

4.根据权利要求1所述的一种基于多模态的语音情感识别方法，其特征在于：所述步骤三具体为：

5.根据权利要求1所述的一种基于多模态的语音情感识别方法，其特征在于：所述步骤四具体为：

6.根据权利要求1所述的一种基于多模态的语音情感识别方法，其特征在于：所述步骤五具体为：

<...

【专利技术属性】
技术研发人员：郑鸿峰，苗圣法，侯振虎，姚绍文，木永康，吴昊洋，黄越，田羽凌，张伟生，王若舒，马世超，闫科杉，陈涛，龙兆科，蔡双凤，彭浩，吕涛，鲍庆达，
申请(专利权)人：云南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人