基于冗余特征和多词典表示的语音情感识别方法及系统技术方案

技术编号:14875097 阅读:92 留言:0更新日期:2017-03-23 22:47
本发明专利技术公开了一种基于冗余特征和多词典表示的语音情感识别方法和系统,主要涉及语音信号处理和模式识别领域。该发明专利技术技术方案主要包括如下要点:1)提取基音频率特征、超音段响度特征、谱特征中的频率子带能量系数特征、线性谱频率特征以及小波变换后的多尺度特征,并将这些特征首尾相接形成一个冗余特征向量;2)然后基于这些冗余特征学习多类多个分析和综合词典对;3)并选取具有最小重构误差的那一对词典的类别作为测试语音的情感类别。与传统的基于单一或少数特征和单词典表示的语音情感识别方法相比,该发明专利技术综合利用了冗余特征的区分能力和多词典表示的强大表示能力,从而达到提高语音情感识别率的目的,可以广泛地应用于人机交互等领域。

【技术实现步骤摘要】

本专利技术属于语音情感识别领域,涉及一种基于冗余特征和多词典表示的语音情感识别方法及系统
技术介绍
语音作为最主要的交流手段之一,在新型的人机交互领域受到越来越广泛的关注。若想让计算机理解人类的意思,就要让计算机模仿人们最常见的沟通方式。如今人类的沟通方式已经变得多种多样,而人们最主要的交流方式就是说话。人在说话时,便将自己的情感隐藏在语音信号之中,所以语音是人在表达自己情感和想法的最好媒介。语音情感识别是实现基于语音的智人工交互的重要步骤之一,因此让计算机有效地识别人类话语中的情感,对于更好地实现人机交互是一个行之有效的方法。我国在语音情感识别领域的研究还是取得了重大的进展,国内许多高校和国家重点实验室都对语音情感识别进行了深入的分析与研究。从2000年起,清华大学的蔡红莲教授对超音段特征进行了深入的研究,并使用高斯混合模型(GMM)和概率神经网络(PNN)分类器对汉语的普通话情感进行识别。最后的结果表明,超音段特征能较好地将不同的情感状态区分开来,他们的实验中识别结果准确率达到了76.7%。从2001年起,东南大学的赵力教授针对惊奇、悲伤、高兴、愤怒4种语音情感信号的小样本数据,提出了将语音情感的全局特征和时序基频(F0)特征相结合的方式来进行语音情感识别,并取得了较好的识别结果,识别率达到80%。在情感特征提取方面,由于某些情感的相似性,单一类型的特征不能将语音情感进行很好的区分,因而寻找合适的情感特征组合有利于系统性能的进一步改善。在特征表示或分类方面,基于词典的表示方法受到了广泛的关注,这是因为词典具有强大的表示能力并且具有自适应学习能力。然而,在当前基于词典表示的方法中,绝大多数方法都只使用一个词典,因而表示能力受到限制。为了解决当前方法中存在的特征抽取和表示的不足,本专利技术提出了冗余特征抽取方案和多词典表示方法,并提出了基于冗余特征和多词典表示的语音情感识别系统。一些词典用于分解,另一些词典用于综合表示。利用多个词典,从而可以充分挖掘冗余特征中的区分性特征,又可以适当地削除特征冗余带来的不利影响;同时基于多词典的表示使分类更容易,可以基于类别重构误差最小化来简单地完成分类识别任务。
技术实现思路
本专利技术的目的是针对当前单一类型特征的有限区分能力和单词典表示的有限表示能力,提供一种基于冗余特征和多词典表示的语音情感识别方法。该方法提取基音频率特征(F0)、超音段响度(Loudness)特征、谱特征中的MEL频率子带能量系数(MFBECS)特征、线性谱频率(LSF)特征以及小波变换后的多尺度特征,并将这些特征组合在一起形成冗余特征,然后基于这些冗余特征学习多类多个分析和综合词典对,并选取具有最小重构误差的那一对词典的类别作为测试语音的情感类别,最终提高语音情感识别率。为实现上述目的,本专利技术采用的技术方案是:一种基于冗余特征和多词典表示的语音情感识别系统,包括以下步骤:(1)对训练样本库中每个语音情感信号进行预处理,得到语音情感数据帧。(2)对(1)中的语音情感数据帧进行基音频率特征、超音段响度特征、谱特征中的MEL频率子带能量系数特征、线性谱频率特征以及多尺度小波变换特征抽取,并进行特征组合,得到训练样本的冗余特征向量。(3)对(2)中所提取的情感冗余特征向量进行归一化并用主成分分析法(PCA)进行降维,再进行表示词典和分析词典学习,得到多词典对。(4)对测试样本语音情感信号进行预处理,如(2)中的特征提取,并形成冗余特征向量,再进行归一化以及PCA降维。(5)使用学习到的多类多字典对来对(4)中的测试样本冗余特征向量进行重构,并根据最小重构误差所对应的词典对的类别来对该语音情感样本的类别进行判别。所述步骤(1)中的预处理步骤如下:(11)对语音情感信号的音频文件进行解码处理,将其转换成PCM格式的波形文件,再对语音情信号进行重采样处理。(12)对(11)中得到的语音信号预加重处理,提高情感信号的高频分量。(13)对(12)中得到的语音信号进行汉明窗分帧处理。所述步骤(2)中的冗余特征抽取以及归一化和PCA降维具体步骤如下:对预处理后的语音情感信号进行响度(Loudness)特征、谱特征中的MFBECS特征和LSF特征提取。对(13)中预处理后的每一帧情感信号进行傅里叶变换,求得时域点对应的频谱,并对每个频率及其所有倍频谐波成分进行叠加。叠加公式如下所示:其中,R为要考虑的谐波数量,本专利技术中该参数取15;参数c的作用是在统计谐波总和能量时,降低谐波能量的影响,本专利技术中该值取0.85。针对谐波叠加的能量,在给定的基频范围内(fmin,fmax)进行极大值的寻找。为了提取更准确的F0特征,为了消除二倍频的影响,本专利技术提出改进的谐波和计算公式如下:利用上述公式从而完成F0特征提取。(24)使用Gabor带通滤波器对(13)中预处理后的语音情感数据帧进行十七个临界带的滤波处理。Gabor带通滤波器的具体公式如下所示:其中,Sx为输入的语音情感信号的方差,Sy的取值为1。(25)对每个情感数据帧的每一个临界带进行三层小波包变换(WPT),从而获得相应的小波系数。(26)对17个临界带的每个小波系数进行自相关系数的计算,从而得到多尺度小波变换特征,共136维。完成基于小波变换的多尺度特征提取。(27)直接将以上得到的不同的情感特征首尾相连形成一个较长的列向量,从而得到情感特征组合,也就是冗余情感特征。所述步骤(3)中的多类多词典对学习的具体步骤如下:对所提取的冗余情感特征向量进行归一化以及PCA降维。(31)使用训练样本的语音情感的冗余特征数据构建情感模型。本专利技术引进变量XK,使得Xk=PkYk,对目标函数进行优化。目标函数为:其中Dk=[d1,d2…dl]∈Rd×l,Pk∈Rl×d分别表示第k类训练样本得到的合成字典和分析字典。D=[D1,…Dk,…DC]是合成字典,P=[P1,…Pk,…PC]是分析字典。其中C类的训练样本数据d表示训练样本的特征维数,NK表示第k类的样本总个数,λ为标量参数,N表示训练样本的总个数di是合成矩阵D的第i个列向量。(33)使用训练样本数据训练字典对,得到合成字典D以及分析字典P。具体步骤如下:步骤1.输入:C个目标类的训练语音情感样本构成的数据矩阵Y=[Y1,…YK,…YC],所需的参数λ、λ1及/(字典的个数)。步骤2.初始化:随机初始化Dk∈Rd×l和Pk∈Rl×d,这两个矩阵均具有归一化的F范数。步骤3.固定D与P,使用公式对X进行更新。步骤4.固定D与X,使用公式对P进行更新。步骤5.固定X与P,使用公式对D进行更新。步骤6.断定是否收敛。若收敛,则转到步骤7;否则步骤3,继续对D、P、X进行更新。步骤7.输出:分析字典P,合成字典D。所述步骤(4)中的测试样本语音情感信号预处理、冗余特征提取、归一化以及PCA降维的具体步骤如下:对测试样本语音情感信号进行预处理并抽取响度(Loudness)特征、MFBECS特征、LSF特征、F0特征以及小波变换特征,将得到的情感特征首尾相接形成一个列向量,也就是冗余特征,再进行归一化以及PCA降维。所述步骤(5)中使用得到的字典对对测试样本进行重构的具体步骤如下:使用得到的字典对来对测试样本进行重构,并根据最小重构本文档来自技高网
...
基于冗余特征和多词典表示的语音情感识别方法及系统

【技术保护点】
一种基于冗余特征和多类多词典表示的语音情感识别系统,其特征在于,所述方法包括:(1)对训练样本库中每个语音情感信号进行预处理,得到语音情感数据帧;(2)对(1)中的语音情感数据帧进行特征抽取,包括小波特征、基于改进的谐波总和算法的F0特征、响度(Loudness)特征、谱特征中的MEL频率子带能量系数(MFBECS)特征和线性谱频率(LSF)特征,然后将各特征首尾相接形成一列特征向量,从而得到训练样本冗余特征向量;(3)对(2)中所提取的情感特征向量进行归一化以及用主成分分析法(PCA)进行降维,再进行多类多词典表示学习,得到多词典对;(4)对测试样本语音情感信号进行预处理,如(2)中的特征提取,并进行特征向量组合,再进行归一化以及PCA降维;(5)使用得到的词典对来对(4)中得到的测试样本进行重构,并根据最小重构误差来对该语音情感样本的类别进行判别。

【技术特征摘要】
1.一种基于冗余特征和多类多词典表示的语音情感识别系统,其特征在于,所述方法包括:(1)对训练样本库中每个语音情感信号进行预处理,得到语音情感数据帧;(2)对(1)中的语音情感数据帧进行特征抽取,包括小波特征、基于改进的谐波总和算法的F0特征、响度(Loudness)特征、谱特征中的MEL频率子带能量系数(MFBECS)特征和线性谱频率(LSF)特征,然后将各特征首尾相接形成一列特征向量,从而得到训练样本冗余特征向量;(3)对(2)中所提取的情感特征向量进行归一化以及用主成分分析法(PCA)进行降维,再进行多类多词典表示学习,得到多词典对;(4)对测试样本语音情感信号进行预处理,如(2)中的特征提取,并进行特征向量组合,再进行归一化以及PCA降维;(5)使用得到的词典对来对(4)中得到的测试样本进行重构,并根据最小重构误差来对该语音情感样本的类别进行判别。2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中具体包括:(11)对语音情感信号的音频文件进行解码处理,将其转换成PCM格式的波形文件,再对...

【专利技术属性】
技术研发人员:漆进胡顺达彭杰
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1