基于深度特征与声学特征寻优融合的语音情感识别方法技术

技术编号:26261190 阅读:46 留言:0更新日期:2020-11-06 17:58
本发明专利技术公开了一种基于深度特征与声学特征寻优融合的语音情感识别方法,提出采用遗传算法对深度瓶颈特征和声学特征进行寻优融合的方法来实现高鲁棒性语音情感识别的方法,克服了现有语音情感识别方法的不足。该方法与传统基于单一深度特征或声学特征的语音情感识别方法相比较,本发明专利技术可以从不同的层次挖掘丰富的语音情感信息,对语音情感信息进行更加全面地描述,从而使得系统的识别率更高,系统鲁棒性得到进一步提升,可以很好地应用于智能人机交互中。

【技术实现步骤摘要】
基于深度特征与声学特征寻优融合的语音情感识别方法
本专利技术属于语音识别
,尤其涉及一种基于深度特征与声学特征寻优融合的语音情感识别方法。
技术介绍
随着人工智能技术的飞速发展,使机器具备和人一样的思维和情感成为网络时代的潮流和需求。实现机器与人的智能交互,其中不可或缺的一项就是让机器具备情感计算能力。语音作为人类最基本、最便捷的交流方式,承载着复杂的信息。语音信号不仅可以传递语义内容,还能反映说话人的内在情感。在具体的人机交互中,语音以其具有的自然、便捷和有效等特点成为诸多学者的重点研究内容,从而产生了语音情感识别技术。语音情感识别就是让计算机获取语音信号中的情感信息,从语音信号中提取包含情感信息的声学特征,找出这些声学特征与情感状态之间的映射关系,从而实现对说话人的情感状态分析。计算机的语音情感识别是计算机情感智能的重要组成部分,是实现智能人机交互的关键,对情感认知方向和信号处理以及信息获取等研究具有很大的研究价值和应用价值。为建立一个高鲁棒性的语音情感识别模型,需要考虑三个问题:特征提取、模型训练和情感识别。其中,提取包含丰富语音情感信息的特征至关重要,会直接影响语音情感识别性能。因此,在本专利技术中重点研究了特征的提取、选择和融合。目前,用于语音情感识别的特征主要可分为声学特征和深度瓶颈特征。声学特征主要包含有MFCC、基音频率、过零率、能量幅度等。声学特征在已有的研究中被广泛使用,并能在一定的场景中达到不错的识别效果,但语音情感识别中的声学特征一般只考虑语音信号的物理层面信息,而丰富的情感信息尚未被充分提取。近年来,深度神经网络(DeepNeuralNetwork,DNN)成为了工业界和学术界的流行话题,由于其强大的特征提取能力和建模能力,DNN成功的将以往的识别率提升了一个档次。目前语音识别领域常用的网络包含:深度信念网络(DeepBeliefNetwork,DBN)、卷积神经网络(ConvolutionalNeuralNetwork,CNN)和循环神经网络(RecurrentNeuralNetwork,RNN)。在语音情感识别领域,利用深度信念网络进行情感识别可以分为两种情况:一是利用DBN进行特征提取,得到特征不同层次的表达,将特征与分类标签紧密联系在一起,挖掘语音信号深层次的情感信息从而获得区分度更高的情感特征;二是利用深度信念网络进行分类,将训练完成的深度信念网络最后的输出层改为一个分类器进行类别的直接分类,其中能实现较好效果的分类器有支持向量机(SupportVectorMachine,SVM)。本专利技术即研究了DBN的这两种应用。上述提取的声学特征和深度瓶颈特征虽然在某一场景下都能达到一定的识别效果,但是单一的特征很难完全表征语音中丰富的情感信息,在额外的场景下系统的识别率还有待提高。有鉴于此,有必要提供一种基于深度特征与声学特征寻优融合的语音情感识别方法,以期在多种语言场景下都能实现较高的识别率。
技术实现思路
本专利技术为实现在多种语言场景下都能实现较高的识别率的目标,提出了一种基于深度特征与声学特征寻优融合的语音情感识别方法。与单一的传统声学特征以及深度瓶颈特征相比,本专利技术同时提取了深度瓶颈特征和传统声学特征,并利用遗传算法对这两种特征进行融合,在不同语言场景下都能取得较高的情感识别性能。为实现以上目的,本专利技术提供了一种基于深度特征与声学特征寻优融合的语音情感识别方法,包括以下步骤:步骤1、输入语料库中的语音信号,对语音信号进行预处理并提取语音信号的声学特征;步骤2、提取语音信号的傅里叶系数特征,将其作为DNN输入,训练一个DNN用于提取语音信号的深度瓶颈特征;步骤3、采用Fisher准则对提取的声学特征以及深度瓶颈特征进行特征选择,降低特征冗余度,得到情感区分度高的优质特征;步骤4、采用遗传算法实现声学特征与深度瓶颈特征的寻优融合,声学特征表征情感信息的物理层面信息,深度瓶颈特征表征与情感分类标签信息高度相关的信息,两者融合提升语音情感识别效果;步骤5、根据寻优结果将测试数据进行组合,得到融合的测试特征集,将其作为支持向量机(SupportVectorMachine,SVM)的输入,对SVM进行训练,将训练得到的SVM用于实现语音情感识别,并对所提出的基于寻优融合的语音情感识别方法进行性能评估。本专利技术的进一步改进在于,所述步骤1包括:步骤1-1:对每一句输入的时域连续语音信号进行采样,然后采用预加重、分帧加窗、端点检测技术对语音信号进行预处理,得到预处理后的信号;步骤1-2:计算预处理后语音信号的声学特征,声学特征包括MFCC、基音频率、过零率、短时能量;步骤1-3:计算每条语音的统计特征,即分别对每条语音的各帧信号进行统计,统计特征包含最大值、最小值、中值、方差、均值,最后得到的统计特征即是每条语音的声学特征。本专利技术的进一步改进在于,所述步骤2包括:步骤2-1:先计算预处理后语音信号的傅里叶系数特征,将得到的傅里叶系数特征作为DNN的输入;步骤2-2:首先对DNN进行无监督的预训练,然后引入有监督的误差反向传播进行参数的微调,得到训练好的DNN模型;步骤2-3:将所有训练语音信号重新输入到训练完成的DNN,获取DNN在第三层的输出,也即是瓶颈层的输出,此输出即是每一帧语音信号的深度瓶颈特征;步骤2-4:计算每帧训练语音的深度瓶颈特征的统计特征,得到特征即是每条语音的深度瓶颈特征,统计特征包含最大值、最小值、均值、方差、中值。本专利技术的进一步改进在于,所述步骤3包括:步骤3-1:根据步骤1、步骤2中所得到的声学特征以及深度瓶颈特征,采用Fisher准则分别计算声学特征和深度瓶颈特征中每一维特征的Fisher值;步骤3-2:将步骤3-1中由深度瓶颈特征以及声学特征得到Fisher值分别进行排序,删除Fisher值低于阈值P的深度瓶颈特征和声学特征,完成特征选择过程。本专利技术的进一步改进在于,根据前述任一项所述的语音情感识别方法,所述步骤4包括:步骤4-1:采用遗传算法对特征选择后的深度瓶颈特征和声学特征进行寻优融合,针对声学特征中的MFCC、短时能量、过零率、基音频率以及深度瓶颈特征分别标记为{x1,x2,x3,x4,x5},并针对每类特征赋予一个初始权值,设为{w1,w2,w3,w4,w5};步骤4-2:将初始权值与特征的加权融合作为遗传算法输入,即输入为{w1*x1,w2*x2,w3*x3,w4*x4,w5*x5},初始化遗传算法,并设置遗传算法的目标函数为识别率,启动遗传算法对融合权值进行寻优;步骤4-3:遗传算法输出权值寻优结果并保存,将其作为测试和训练SVM数据的融合权值,声学特征和深度瓶颈特征以此权值进行加权融合。本专利技术的进一步改进在于,所述步骤4-2包括:采用遗传算法对权值组合进行寻优,具体步骤如下:A.初始化权重,对权重组合进行二进制编码,并生成初始种群;B.解码得到权重组合,并以加本文档来自技高网
...

【技术保护点】
1.一种基于深度特征与声学特征寻优融合的语音情感识别方法,其特征在于,包括以下步骤:/n步骤1、输入语料库中的语音信号,对语音信号进行预处理并提取语音信号的声学特征;/n步骤2、提取语音信号的傅里叶系数特征,将其作为DNN输入,训练一个DNN用于提取语音信号的深度瓶颈特征;/n步骤3、采用Fisher准则对提取的声学特征以及深度瓶颈特征进行特征选择,降低特征冗余度,得到情感区分度高的优质特征;/n步骤4、采用遗传算法实现声学特征与深度瓶颈特征的寻优融合,声学特征表征情感信息的物理层面信息,深度瓶颈特征表征与情感分类标签信息高度相关的信息,两者融合提升语音情感识别效果;/n步骤5、根据寻优结果将测试数据进行组合,得到融合的测试特征集,将其作为支持向量机(Support Vector Machine,SVM)的输入,对SVM进行训练,将训练得到的SVM用于实现语音情感识别,并对所提出的基于寻优融合的语音情感识别方法进行性能评估。/n

【技术特征摘要】
1.一种基于深度特征与声学特征寻优融合的语音情感识别方法,其特征在于,包括以下步骤:
步骤1、输入语料库中的语音信号,对语音信号进行预处理并提取语音信号的声学特征;
步骤2、提取语音信号的傅里叶系数特征,将其作为DNN输入,训练一个DNN用于提取语音信号的深度瓶颈特征;
步骤3、采用Fisher准则对提取的声学特征以及深度瓶颈特征进行特征选择,降低特征冗余度,得到情感区分度高的优质特征;
步骤4、采用遗传算法实现声学特征与深度瓶颈特征的寻优融合,声学特征表征情感信息的物理层面信息,深度瓶颈特征表征与情感分类标签信息高度相关的信息,两者融合提升语音情感识别效果;
步骤5、根据寻优结果将测试数据进行组合,得到融合的测试特征集,将其作为支持向量机(SupportVectorMachine,SVM)的输入,对SVM进行训练,将训练得到的SVM用于实现语音情感识别,并对所提出的基于寻优融合的语音情感识别方法进行性能评估。


2.根据权利要求1所述的语音情感识别方法,其特征在于:所述步骤1包括:
步骤1-1:对每一句输入的时域连续语音信号进行采样,然后采用预加重、分帧加窗、端点检测技术对语音信号进行预处理,得到预处理后的信号;
步骤1-2:计算预处理后语音信号的声学特征,声学特征包括MFCC、基音频率、过零率、短时能量;
步骤1-3:计算每条语音的统计特征,即分别对每条语音的各帧信号进行统计,统计特征包含最大值、最小值、中值、方差、均值,最后得到的统计特征即是每条语音的声学特征。


3.根据权利要求1所述的语音情感识别方法,其特征在于:所述步骤2包括:
步骤2-1:先计算预处理后语音信号的傅里叶系数特征,将得到的傅里叶系数特征作为DNN的输入;
步骤2-2:首先对DNN进行无监督的预训练,然后引入有监督的误差反向传播进行参数的微调,得到训练好的DNN模型;
步骤2-3:将所有训练语音信号重新输入到训练完成的DNN,获取DNN在第三层的输出,也即是瓶颈层的输出,此输出即是每一帧语音信号的深度瓶颈特征;
步骤2-4:计算每帧训练语音的深度瓶颈特征的统计特征,得到特征即是每条语音的深度瓶颈特征,统计特征包含最大值、最小值、均值、方差、中值。


4.根据权利要求3所述的语音情感识别方法,其特征在于:所述步骤3包括:
步骤3-1:根据步骤1、步骤2中所得到的声学特征以及深度瓶颈特征,采用Fisher准则分别计算声学特征和深度瓶颈特征中每一维特征的Fisher值;
步骤3-2:将步骤3-1中由深度瓶颈特征以及声学特征得到Fisher值分别进行排序,删除Fisher值低于阈值P的深度瓶颈特征和声学特征,完成特征选择过程。


5.根据权利要求1-4任一项所述的语音情感识别方法,其特征在于:所述步骤4包括:
步骤4-1:采用遗传算法对特征选择后的深度瓶颈特征和声学特征进行寻优融合,针对声学特征中的MFCC、短时能量、过零率、基音频率以及深度瓶颈特征分别标记为{x1,x2,x3,x4,x5},并针对每类特征赋予一个初始权值,设为{w1...

【专利技术属性】
技术研发人员:孙林慧黄译庆傅升李平安
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1