一种基于特征融合的语音情感识别方法技术

技术编号：33489518 阅读：21 留言：0更新日期：2022-05-19 01:01

一种基于特征融合的语音情感识别方法，包括：步骤1)数据获取与预处理；步骤2)输入本发明专利技术中设计的基于特征融合的语音情感识别网络进行情感识别；步骤3)获得情感识别结果。本发明专利技术利用分类层特征融合的方法对语音情感进行识别，设计并实现了一种将MFCC(梅尔频率倒谱系数)的深层特征与传统的声学特征相融合的方法，用分类层特征融合算法将MFCC深层特征与过零率、梅尔频率、频谱质心进行融合，通过指定的决策融合规则对输出的识别结果进行融合计算，最后选择概率分布中概率最大的作为识别结果。该发明专利技术对语音情感识别，具有较大地应用价值。具有较大地应用价值。具有较大地应用价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征融合的语音情感识别方法

[0001]本专利技术涉及一种基于特征融合的语音情感识别方法。

技术介绍

[0002]语音情感识别的过程类似于图像的分类过程，传统的识别过程主要分为三个方面。首先是对语音数据进行预处理，包括归一化，均值化，数据增强等操作。其次是语音特征的提取与选择，常用的语音特征主要有:基因频率、共振峰、梅尔倒谱系数等。最后采用合适的分类器模型对获得的情感相关特征进行分析，识别出语音中包含的情感。对情感识别准确性影响最大的是语音特征的选择和分类器模型的选择。常用的分类器包括支持向量机、高斯混合模型、随机森林等。近年来，随着深度学习的发展这些传统的分类模型逐渐被取代。传统语音特征的选择和提取方法相对单一，提取的特征之间缺乏关联性，特征之间不能包含情感相关信息，由于深度学习在特征提取方面展现出强大的性能，因此越来越多的研究者利用深度学习方法提取语音特征。其中情感识别率提升比较可观的方法是利用神经网络通过卷积等操作获取更多深层特征，这种方法的主要过程包括：首先要选择一种声学特征，然后对这种特征进行分析，最后得到分类结果。虽然这种方法在一定程度上提升了识别率，但是由于语音中的特征众多，该方法只关注了一种声学特征的深层特征却忽略了其他声学特征对准确率的影响。

技术实现思路

[0003]本专利技术要克服现有技术的上述缺点，提供一种基于特征融合的语音情感识别方法。
[0004]本专利技术解决技术问题采用如下技术方案：
[0005]一种基于特征融合的语音情感识别方法，包括以下步骤：...

【技术保护点】

【技术特征摘要】
1.一种基于特征融合的语音情感识别方法，包括以下步骤：步骤1：获取及预处理用户语音数据，使用python库函数librosa.load()函数读取需要情感识别的语音，保存为numpy数据类型，通过构造预加重函数以及加窗分帧函数对其进行预处理；步骤2：将数据放入特征提取器中，提取以下四种特征用于后续对特征的深度提取及融合，具体步骤如下：1)使用python库函数librosa.feature.zero_crossing_rate()函数提取已保存数据的过零率；2)使用python库函数librosa.feature.melspectrogram()函数提取已保存数据的梅尔频率；3)使用python库函数librosa.feature.spectral_centroid()函数提取已保存数据的频谱质心；4)使用python库函数librosa.feature.mfcc()函数提取已保存数据的梅尔频率倒谱系数MFCC；步骤3：输入语音情感识别网络进行情感识别；所述的语音情感识别网络包括深度特征提取子网、分类器、分类层特征融合：所述的深度特征提取子网是将上述的MFCC送入卷积神经网络CNN中，对该特征进行卷积操作以获取深层特征，该网络结构包括四个卷积部分，每个卷积部分包括一个卷积层、一个池化层、一个归一化层和一个Dropout层，经过该网络的卷积操作得到深层特征；所述的分类器采用的损失函数是交叉熵损失函数，用该函数来衡量预测值和真实值分布的差异，并将语音的情感划分到中性、生气、害怕、高兴、悲伤、厌恶、无聊这七种情...

【专利技术属性】
技术研发人员：毛科技，武佳男，钱升港，张拓，毛严，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人