当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于核半监督判别分析的语音情感识别方法技术

技术编号:9619097 阅读:216 留言:0更新日期:2014-01-30 07:11
本发明专利技术公开了一种基于核半监督判别分析的语音情感识别方法,对经预处理的语音样本中语音情感特征提取后,进行特征筛选、KSDA维数约简和分类。在训练阶段,对全监督训练样本集使用KSDA进行维数约简,将表示训练样本不同关系信息的嵌入图结合起来,并使用核化数据映射,实现对语音情感特征维数约简的优化,再用低维样本训练多类SVM分类器;在测试阶段,依次使用训练阶段特征筛选得到的特征及维数约简得到的数据映射方式,对各测试样本获取其低维特征,再使用训练得到的分类器进行分类判决,得到测试样本的类别。与现有方法相比,本发明专利技术的方法在语音情感特征维数约简中增加了降维的有效性,使语音情感识别系统的识别率性能得到了提升。

A speech emotion recognition method based on kernel semi supervised discriminant analysis

The invention discloses a speech emotion identification method based on kernel semi supervised discriminant analysis, which extracts feature, KSDA dimension reduction and classification for speech emotion feature extracted from pretreated speech samples. In the training phase, the supervision of the training sample set with KSDA dimension reduction, will represent the training sample different relationship information embedding graph together, and the use of nuclear data mapping, realize the optimization of speech emotion feature dimension reduction, then the low dimensional sample to train the multi class SVM classifier; in the testing stage, the order of data mapping the use of characteristics and dimension reduction training stage feature selection obtained, to obtain the low dimensional feature of each test sample, then use the classifier for classification, the test sample category. Compared with the existing methods, the present method increases the dimensionality reduction effectiveness in the dimensionality reduction of the speech emotion feature, and improves the recognition rate of the speech emotion recognition system.

【技术实现步骤摘要】
—种基于核半监督判别分析的语音情感识别方法
本专利技术属于语音情感识别领域,特别是涉及。
技术介绍
语音情感识别(Speech Emotion Recognition,简称SER,)涉及到语音信号处理、模式识别、机器学习以及心理学等交叉学科,目前已成为了一个得到了较多关注的领域。大量算法被提出用于语音情感识别,并经过实验验证了其有效性。常用的标准数据库包括柏林(Berlin)语音情感库、AIBO数据库、SUSAS语料库等,所涉及到的基本情感类型包括平静、恐惧、生气、愉悦、烦躁、惊讶等。在人机交互(HMI)中,机器需要根据交流对象的语音信号,经过处理之后提取出信号样本的情感特征,进行语音情感类型的识别,根据识别的结果给出相应的反应策略;同样,机器也可以根据各类样本特征分析的结果,自动生成带某种情感成分的语音信号,从而提高人机交互系统的性能。在航天员培训训练过程中及航天器在轨阶段,语音情感识别也具有重要的意义,可以及时检测出负面情感,从而尽早进行干预和情绪疏导,排除由负面情绪所带来的安全隐患。此外,在呼叫中心、儿童的心理疾病诊疗等方面语音情感识别方法同样能够为相关人员提供一定的初步诊断筛选依据。目前很多语音情感识别算法都是基于原始特征直接通过分类器进行分类识别,常用的分类器如高斯混合模型(GMM)、隐马尔可夫模型(HMM)、支持向量机(SVM)等,虽然能取得一些效果,但由于语音情感原始特征的维数一般较高,而且原始特征中一般会含有一些对情感分类无用的特征,所以对普通的语音情感样本的准确分类存在着较大的局限性。传统的语音情感识别方法还采用了一些特征筛选的措施,但由于缺乏对原始特征的线性或非线性变换,语音情感的维数仍然太高,所以仍无法提供较为准确的语音情感特征。当前的研究成果中,流形学习算法已经成为模式识别与机器学习中的维数约简常用方法。常见的基本流形学习算法包括局部线性嵌入(Locally Linear Embedding,简称LLE)、等距线性映射(Isomap)、局部保持投影(Locally Preserve Pro jection,简称LPP)和随机近邻嵌入(Stochastic Neighbor Embedding,简称SNE)等。其中很多流形学习算法都与判别分析、瑞利(Rayleigh)商、谱图学习等相关算法具有密切联系。较多的心理学研究表明,语音情感空间具有较低的维度,目前以三维及多维情绪空间理论为主,这为流形学习算法在语音情感识别中应用提供了依据,即语音情感空间在利用流行学习算法将其降到较低维度时仍然能保持并加强对于样本情绪的表达。但是,在当前的研究成果中还存在下列问题:大部分方法都是直接基于基本的流形学习算法如 LLE、Isomap、LPP、边界 Fisher 分析(Marginal Fisher Analysis,简称 MFA)等,或是主成分分析(Principal Component Analysis,简称PCA)、线性判别分析(LinerDiscriminant Analysis,简称LDA)等简单的维数约简算法及其不同的数据映射形式,无论是基本的流行学习算法还是简单的维数约减算法都仅仅使用单一的嵌入图及其相似模型的学习,而忽略了对于嵌入图的优化。由于一个嵌入图反映了训练样本的某种方面的关系,就必然会忽略其他方面的特性,所以单一的嵌入图并不能完全反映训练样本的特征空间结构,造成语音情感的识别效果不佳。
技术实现思路
要解决的技术问题:针对现有技术的不足,本专利技术提供,解决现有技术中语音情感的维数较高,无法提供较为准确的语音情感特征;基本的流行学习算法中仅利用单一嵌入图及其相似模型进行学习时不能完全反应训练样本的特征空间结构导致语音情感识别率低的技术问题。技术方案:为解决上述技术问题,本专利技术采用以下技术方案:,将语音情感数据库中若干个语音样本任意划分为训练样本集和测试样本集,包括顺序执行的以下步骤:步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的时域信号进行分帧;步骤二,语音情感特征提取:提取经步骤一处理后的每个语音样本中的语音情感特征,按照提取方式的不同分为能量、基音、过零率、时长、共振峰和Mel频率倒谱系数(MelFrequency Cepstrum Coefficient,简称MFCC)共6大类语音情感特征组成每个语音样本的原始语音情感特征向量,其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围;对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量;步骤三,特征筛选:对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量;步骤四,基于核半监督判别分析KSDA的特征维数约简:对经步骤三特征筛选后得到的训练样本的特征筛选后语音情感特征向量集X = [X1, X2,, χΝ]使用KSDA对X进行维数约简训练,生成核方法的降维映射阵A,同时求解得到X的低维样本集ATK,Gram阵K选用Gauss核函数;步骤五,训练两类SVM分类器:对训练样本中的N个分属于N。个种类的语音样本,取每两类组合训练得到I个两类SVM分类器,共得到N。(Nc-1) /2个两类SVM分类器;步骤六,测试:利用经步骤五训练完成的SVM分类器每个测试样本进行测试,具体包括顺序执行的以下步骤:(I)对经步骤三得到的每个测试样本的特征筛选后语音情感特征向量使用核方法的降维映射阵A进行维数约简,得到Χ'1经过维数约简后的低维样本为ΑτΚρ对于一个测试样本本文档来自技高网
...

【技术保护点】
一种基于核半监督判别分析的语音情感识别方法,其特征在于:将语音情感数据库中若干个语音样本任意划分为训练样本集和测试样本集,包括顺序执行的以下步骤:步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的时域信号进行分帧;步骤二,语音情感特征提取:提取经步骤一处理后的每个语音样本中的语音情感特征,按照提取方式的不同分为能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量;对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量;步骤三,特征筛选:对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量;步骤四,基于KSDA的特征维数约简:对经步骤三特征筛选后得到的训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]使用KSDA对X进行维数约简训练,生成核方法的降维映射阵A,同时求解得到X的低维样本集ATK,Gram阵K选用Gauss核函数;步骤五,训练两类SVM分类器:假设训练样本集中有N个分属于Nc个种类的语音样本,在训练样本集中任取两个种类的语音样本,进行组合训练得到1个两类SVM分类器,共得到Nc(Nc?1)/2个两类SVM分类器;步骤六,测试:利用经步骤五训练完成的SVM分类器每个测试样本进行测试,具体包括顺序执行的以下步骤:(1)对经步骤三得到的每个测试样本的特征筛选后语音情感特征向量使用核方法的降维映射阵A进行维数约简,得到经过维数约简后的低维样本为ATKi,对于一个测试样本Ki=[K(xitest,x1),K(xitest,x2),...,K(xitest,xN)]T,Gram阵K选用步骤四中所述的Gauss核函数;(2)使用多类SVM分类器投票进行分类:将每个测试样本的低维样本ATKi经所有得到的两类SVM分类器分类之后得到Nc(Nc?1)/2个判断结果,得票最多的判断结果即判决为对应的测试样本所属的情感类别;若出现相同最多票数,则仅选择由最多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进行判断,得到新一轮判断结果,上述方法依次递减两类SVM分类器的个数直到得到一个唯一的最多票数即判决为对应测试样本所属的情感类别;如一个测试样本的低维样本按此 过程仍有相同最大票数的类别判决时,则在这几类中随机决定对应测试样本的类别。FDA0000410225290000011.jpg,FDA0000410225290000012.jpg,FDA0000410225290000013.jpg...

【技术特征摘要】
1.一种基于核半监督判别分析的语音情感识别方法,其特征在于:将语音情感数据库中若干个语音样本任意划分为训练样本集和测试样本集,包括顺序执行的以下步骤: 步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的时域信号进行分帧; 步骤二,语音情感特征提取:提取经步骤一处理后的每个语音样本中的语音情感特征,按照提取方式的不同分为能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量;对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量; 步骤三,特征筛选:对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量; 步骤四,基于KSDA的特征维数约简:对经步骤三特征筛选后得到的训练样本的特征筛选后语音情感特征向量集X = [X1, X2,, xN]使用KSDA对X进行维数约简训练,生成核方法的降维映射阵A,同时求解得到X的低维样本集ATK, Gram阵K选用Gauss核函数; 步骤五,训练两类SVM分类器:假设训练样本集中有N个分属于N。个种类的语音样本,在训练样本集中任取两个种类的语音样本,进行组合训练得到I个两类SVM分类器,共得到Nc (Nc-1) /2个两类SVM分类器; 步骤六,测试:利用经步骤五训练完成的SVM分类器每个测试样本进行测试,具体包括顺序执行的以下步骤: (1)对经步骤三得到的每个测试样本Xfif的特征筛选后语音情感特征向量使用核方法的降维映射阵A进行维数约简,得到xitest经过维数约简后的低维样本为ATKi对于一个测试样本 2.根据权利要求1所述的一种基于核半监督判别分析的语音情感识别方法,其特征在于:步骤二中原始语音情感特征向量中的语音情感特征分布如下: 1-80维:能量序列的统计特征和一阶、二阶抖动;能量一阶、二阶差分序列的统计特征;三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征;三个不同频带内能量序列的一阶、二阶抖动; 81-101维:基音序列的统计特征和一阶、二阶抖动;基音一阶、二阶差分序列的统计特征;基首序列斜率;102-121维:过零率...

【专利技术属性】
技术研发人员:郑文明徐新洲赵力魏昕余华黄程韦刘健刚
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1