基于深度特征与声学特征寻优融合的语音情感识别方法技术

技术编号：26261190 阅读：46 留言：0更新日期：2020-11-06 17:58

本发明专利技术公开了一种基于深度特征与声学特征寻优融合的语音情感识别方法，提出采用遗传算法对深度瓶颈特征和声学特征进行寻优融合的方法来实现高鲁棒性语音情感识别的方法，克服了现有语音情感识别方法的不足。该方法与传统基于单一深度特征或声学特征的语音情感识别方法相比较，本发明专利技术可以从不同的层次挖掘丰富的语音情感信息，对语音情感信息进行更加全面地描述，从而使得系统的识别率更高，系统鲁棒性得到进一步提升，可以很好地应用于智能人机交互中。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度特征与声学特征寻优融合的语音情感识别方法
本专利技术属于语音识别
，尤其涉及一种基于深度特征与声学特征寻优融合的语音情感识别方法。
技术介绍
随着人工智能技术的飞速发展，使机器具备和人一样的思维和情感成为网络时代的潮流和需求。实现机器与人的智能交互，其中不可或缺的一项就是让机器具备情感计算能力。语音作为人类最基本、最便捷的交流方式，承载着复杂的信息。语音信号不仅可以传递语义内容，还能反映说话人的内在情感。在具体的人机交互中，语音以其具有的自然、便捷和有效等特点成为诸多学者的重点研究内容，从而产生了语音情感识别技术。语音情感识别就是让计算机获取语音信号中的情感信息，从语音信号中提取包含情感信息的声学特征，找出这些声学特征与情感状态之间的映射关系，从而实现对说话人的情感状态分析。计算机的语音情感识别是计算机情感智能的重要组成部分，是实现智能人机交互的关键，对情感认知方向和信号处理以及信息获取等研究具有很大的研究价值和应用价值。为建立一个高鲁棒性的语音情感识别模型，需要考虑三个问题：特征提取、模型训练和情感识别。其中，提取包含丰富语音情感信息的特征至关重要，会直接影响语音情感识别性能。因此，在本专利技术中重点研究了特征的提取、选择和融合。目前，用于语音情感识别的特征主要可分为声学特征和深度瓶颈特征。声学特征主要包含有MFCC、基音频率、过零率、能量幅度等。声学特征在已有的研究中被广泛使用，并能在一定的场景中达到不错的识别效果，但语音情感识别中的声学特征一般只考虑语音信号的物理层面信息，而丰富的情感信息...

【技术保护点】
1.一种基于深度特征与声学特征寻优融合的语音情感识别方法，其特征在于，包括以下步骤：/n步骤1、输入语料库中的语音信号，对语音信号进行预处理并提取语音信号的声学特征；/n步骤2、提取语音信号的傅里叶系数特征，将其作为DNN输入，训练一个DNN用于提取语音信号的深度瓶颈特征；/n步骤3、采用Fisher准则对提取的声学特征以及深度瓶颈特征进行特征选择，降低特征冗余度，得到情感区分度高的优质特征；/n步骤4、采用遗传算法实现声学特征与深度瓶颈特征的寻优融合，声学特征表征情感信息的物理层面信息，深度瓶颈特征表征与情感分类标签信息高度相关的信息，两者融合提升语音情感识别效果；/n步骤5、根据寻优结果将测试数据进行组合，得到融合的测试特征集，将其作为支持向量机(Support Vector Machine，SVM)的输入，对SVM进行训练，将训练得到的SVM用于实现语音情感识别，并对所提出的基于寻优融合的语音情感识别方法进行性能评估。/n

【技术特征摘要】
1.一种基于深度特征与声学特征寻优融合的语音情感识别方法，其特征在于，包括以下步骤：
步骤1、输入语料库中的语音信号，对语音信号进行预处理并提取语音信号的声学特征；
步骤2、提取语音信号的傅里叶系数特征，将其作为DNN输入，训练一个DNN用于提取语音信号的深度瓶颈特征；
步骤3、采用Fisher准则对提取的声学特征以及深度瓶颈特征进行特征选择，降低特征冗余度，得到情感区分度高的优质特征；
步骤4、采用遗传算法实现声学特征与深度瓶颈特征的寻优融合，声学特征表征情感信息的物理层面信息，深度瓶颈特征表征与情感分类标签信息高度相关的信息，两者融合提升语音情感识别效果；
步骤5、根据寻优结果将测试数据进行组合，得到融合的测试特征集，将其作为支持向量机(SupportVectorMachine，SVM)的输入，对SVM进行训练，将训练得到的SVM用于实现语音情感识别，并对所提出的基于寻优融合的语音情感识别方法进行性能评估。

2.根据权利要求1所述的语音情感识别方法，其特征在于：所述步骤1包括：
步骤1-1：对每一句输入的时域连续语音信号进行采样，然后采用预加重、分帧加窗、端点检测技术对语音信号进行预处理，得到预处理后的信号；
步骤1-2：计算预处理后语音信号的声学特征，声学特征包括MFCC、基音频率、过零率、短时能量；
步骤1-3：计算每条语音的统计特征，即分别对每条语音的各帧信号进行统计，统计特征包含最大值、最小值、中值、方差、均值，最后得到的统计特征即是每条语音的声学特征。

3.根据权利要求1所述的语音情感识别方法，其特征在于：所述步骤2包括：
步骤2-1：先计算预处理后语音信号的傅里叶系数特征，将得到的傅里叶系数特征作为DNN的输入；
步骤2-2：首先对DNN进行无监督的预训练，然后引入有监督的误差反向传播进行参数的微调，得到训练好的DNN模型；
步骤2-3：将所有训练语音信号重新输入到训练完成的DNN，获取DNN在第三层的输出，也即是瓶颈层的输出，此输出即是每一帧语音信号的深度瓶颈特征；
步骤2-4：计算每帧训练语音的深度瓶颈特征的统计特征，得到特征即是每条语音的深度瓶颈特征，统计特征包含最大值、最小值、均值、方差、中值。

4.根据权利要求3所述的语音情感识别方法，其特征在于：所述步骤3包括：
步骤3-1：根据步骤1、步骤2中所得到的声学特征以及深度瓶颈特征，采用Fisher准则分别计算声学特征和深度瓶颈特征中每一维特征的Fisher值；
步骤3-2：将步骤3-1中由深度瓶颈特征以及声学特征得到Fisher值分别进行排序，删除Fisher值低于阈值P的深度瓶颈特征和声学特征，完成特征选择过程。

5.根据权利要求1-4任一项所述的语音情感识别方法，其特征在于：所述步骤4包括：
步骤4-1：采用遗传算法对特征选择后的深度瓶颈特征和声学特征进行寻优融合，针对声学特征中的MFCC、短时能量、过零率、基音频率以及深度瓶颈特征分别标记为{x1，x2，x3，x4，x5}，并针对每类特征赋予一个初始权值，设为{w1...

【专利技术属性】
技术研发人员：孙林慧，黄译庆，傅升，李平安，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人