基于深度语音分析和层次递进结构的语音情感识别方法技术

技术编号：42370920 阅读：20 留言：0更新日期：2024-08-16 14:53

本发明专利技术提供一种基于深度语音分析和层次递进结构的语音情感识别方法。该方法通过五折交叉验证将语音情感数据集划分为训练集和测试集，并设计了HCE特征提取器，包括卷积神经网络编码器、Transformer编码器和卷积模块，用于深度语音分析和提取时域与频域特征，有效提取语音的潜在自然特征。通过引入时域融合卷积模块解决了提取局部特征的问题。层次递进结构TFC‑SpeechFormer网络模型的构建，将语音处理分为结构、音素、单词和句子阶段，逐步提高对语音信号的抽象理解，减少冗余信息，提高可解释性。通过训练和调整确保模型在数据集上的性能稳定和可靠。本发明专利技术在语音情感识别方面取得显著进展，提高了准确率，使其更适用于实际应用场景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机语音识别，具体为一种基于深度语音分析和层次递进结构实现的高效语音情感识别方法。

技术介绍

1、情感在人类的生活和进化中扮演着关键角色。语音情感识别作为一项新兴技术，在广泛应用中展现出巨大潜力，特别是在当代工作压力不断增大的环境下，对抑郁症等情感相关问题的关注逐渐凸显。语音情感识别旨在通过分析用户的语音情感，及时识别与抑郁症相关的情感体验，从而实现早期干预和预防的目标。

2、尽管语音情感识别取得了显著进展，但当前研究主要专注于深层高效的情感识别。随着人工智能和机器学习技术的飞速发展，研究者们在传统语音情感识别方面主要关注构建具有长程依赖关系的全局上下文模型，以提高识别准确率。然而，在研究中存在对语音潜在自然特性的忽略。例如，即使一个人不懂俄语，仍能通过语气、音调、长音等来判断说话者的俄语情感。提取细粒度的局部特征的能力较差，导致语音特有的结构不够完善。虽然可以通过卷积逐层传递捕获局部上下文信息，但自注意力或卷积模型都有自身的局限性，可能需要更多层或参数以获取全局信息。对于较长的输入序列和更深的模型，需要在整合语音的整体特性方面进行权衡，避免计算冗余，减少时间复杂度等问题。

3、已有研究证明，通过深度学习的语音情感识别模型能够实现良好的效果。尤其是在处理大量复杂的语音数据时，这些模型可以提取关键特征，有效识别用户的情感状态。然而，面临的挑战之一是在真实场景中噪音较多无法发掘自然特性的问题，这要求进一步改进算法以提高鲁棒性。

4、当前，语音情感识别与语音识别相结合在各个领域广泛应

技术实现思路

1、针对现有技术的不足，本专利技术提出了一种基于深度语音分析和层次递进结构实现的高效语音情感识别方法，通过新特征提取的设计和层次化递进架构的引入，提高了语音情感识别的性能，使其在实际应用中更加有效和可靠。

2、本专利技术为解决其技术问题所采用的技术方案是：

3、一种基于深度语音分析和层次递进结构实现的高效语音情感识别方法，步骤包括：

4、s1、将语音情感数据集按照五折交叉验证的方式区分训练集与测试集；

5、s2、设计包含卷积神经网络编码器、transformer编码器以及卷积模块的hce特征提取器，对训练集和测试集进行深度语音分析和特征提取，提取出语音的时域和频域特征，并将其转化为固定长度的向量；

6、s3、将处理后的特征输入至时域融合卷积模块进行捕获音频中的重要信息；

7、s4、将步骤s3捕获的信息与特征信息统计模块进行拼接构成四个不同阶段，获取语音的局部信息与全局信息；

8、s5、将步骤s4中的所获取的信息通过融合模块进行融合，最终形成层次递进结构的tfc-speechformer网络模型；

9、s6、利用训练集对步骤s5最终形成的网络模型进行训练；

10、s7、利用测试集对步骤s6训练后的网络模型进行调整；

11、s8、将待识别的音频数据输入至步骤s7调整后的网络模型，对待识别的音频数据进行情感识别。

12、通过上述方法构建了一个进行语音情感识别的层次化网络模型,使用全局信息与局部信息融合处理识别的方式，获取最终的情感，充分利用信息之间的相关性，从而提高任务的性能。hce特征提取器的设计提高了模型对语音的深度潜在自然特征的发掘，提高网络的特征表达能力。时域融合卷积模块的引入解决了提取细粒度局部特征模式的能力较差的问题，更好地捕捉序列的上下文关系，提高模型了对整个序列的理解能力，提高语音情感识别精度。

13、进一步的，步骤s2的具体包括：

14、s21、将音频信息通过卷积神经网络编码器进行卷积操作和池化操作，提取音频信号的不同特征；

15、s22、将卷积和池化操作处理后的音频特征传入到transformer编码器中，依次对音频特征进行多头自注意力和全连接操作，以捕捉音频特征信号中的时域和频域信息；

16、s23、将捕捉到的时域和频域信息进一步传递到卷积模块中，依次对音频特征进行卷积和批量归一化，最后进行激活。整个过程中音频特征信号中每一帧的持续时间为25毫秒，采用20毫秒的跳长来生成重叠帧，相邻帧之间的重叠为5毫秒，提取1024维度粒度特征。

17、上述方法采用层次化设计，结合卷积模块、transformer编码器和卷积神经网络编码器，实现了特征的有效提取，为其后送入网络学习处理创造了有利条件。通过采用五折交叉验证的方法，充分利用数据，使每个样本都能在测试集和训练集中得到充分考量，从而全面评估模型性能。特别值得注意的是，transformer编码器中的多头自注意力机制在捕捉音频信号中的长距离依赖关系方面发挥了关键作用。引入卷积模块的设计有效帮助模型提取音频信号的局部和高层特征，提高了特征表示的能力。整个流程能够更全面地捕捉音频中的高级声学信息，包括语义和情感信息，从而提升情感识别性能。这些创造性设计的步骤不仅有助于丰富和平衡声学特征数据，还为后续情感识别模型提供了更为丰富的信息和更高的性能水平，从而提高情感识别系统的准确性和鲁棒性。

18、进一步的，步骤s3具体包括：

19、s31、对步骤s23处理后的特征会通过语音的注意力机制来捕捉相邻元素之间的关系；

20、s32、对步骤s31捕捉的关系，通过bi-lstm模块处理输入数据，获取上下文信息；

21、s33、对步骤s32获取的信息，通过添加和归一化对数据进行正则化处理；

22、s34、对步骤s33规范化的信息，通过dropout模块进行防过拟合处理；

23、s35、将步骤s34处理好的数据使用pointconv点状卷积和glu函数进行激活处理；

24、s36、将步骤s35处理好的数据，传入到1d深度神经网络，再通过点状卷积和swish函数进行激活处理。最后进入batchnorm归一化和层叠线性单元得到处理后的数据；

25、s37、将步骤s36得到的处理后的数据传递到前馈模块，更新注意力层输出向量中的每个状态信息。

26、通过使用上述方法，可以对提取的信息进行进一步的处理和学习，从而能够解决在提取细粒度局部特征模式的能力较差的问题，获取更多的语音信息，更好地理解声音的特性。通过语音的注意力机制模块，可以利用应用窗口将全部注意力计算限制在相邻令牌的小范围内，大大减轻了计算负担。除此之外，在步骤s4中利用该模块，前三个阶段可以分别学习到相邻帧、音素和单词之间的相互作用。在第四个阶段中，统计值将被设置为输入的长度，以便学习全局表示。通过bi-lstm模块，可以同时考虑序列的过去和未来信息，更好地捕捉局部数据的特征，从而既能学习基于位置的局部特性，又本文档来自技高网...

【技术保护点】

1.一种基于深度语音分析和层次递进结构的语音情感识别方法，步骤包括：

2.根据权利要求1所述的基于深度语音分析和层次递进结构的语音情感识别方法，其特征在于，步骤S2具体包括：

3.根据权利要求2所述的基于深度语音分析和层次递进结构的语音情感识别方法，其特征在于，步骤S3具体包括：

4.根据权利要求3所述的基于深度语音分析和层次递进结构的语音情感识别方法，其特征在于，步骤S4具体包括：

5.根据权利要求4所述的基于深度语音分析和层次递进结构的语音情感识别方法，其特征在于，步骤S5具体包括：

6.根据权利要求5所述的基于深度语音分析和层次递进结构的语音情感识别方法，其特征在于，利用融合模块进行四个阶段整合形成最终的TFC-SpeechFormer网络模型。

【技术特征摘要】

1.一种基于深度语音分析和层次递进结构的语音情感识别方法，步骤包括：

2.根据权利要求1所述的基于深度语音分析和层次递进结构的语音情感识别方法，其特征在于，步骤s2具体包括：

3.根据权利要求2所述的基于深度语音分析和层次递进结构的语音情感识别方法，其特征在于，步骤s3具体包括：

4.根据权利要求3所述的基于深度语音分析和...

【专利技术属性】
技术研发人员：魏巍，张秉堃，
申请(专利权)人：大连民族大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人