一种基于核半监督判别分析的语音情感识别方法技术

技术编号：9619097 阅读：228 留言：0更新日期：2014-01-30 07:11

本发明专利技术公开了一种基于核半监督判别分析的语音情感识别方法，对经预处理的语音样本中语音情感特征提取后，进行特征筛选、KSDA维数约简和分类。在训练阶段，对全监督训练样本集使用KSDA进行维数约简，将表示训练样本不同关系信息的嵌入图结合起来，并使用核化数据映射，实现对语音情感特征维数约简的优化，再用低维样本训练多类SVM分类器；在测试阶段，依次使用训练阶段特征筛选得到的特征及维数约简得到的数据映射方式，对各测试样本获取其低维特征，再使用训练得到的分类器进行分类判决，得到测试样本的类别。与现有方法相比，本发明专利技术的方法在语音情感特征维数约简中增加了降维的有效性，使语音情感识别系统的识别率性能得到了提升。

A speech emotion recognition method based on kernel semi supervised discriminant analysis

The invention discloses a speech emotion identification method based on kernel semi supervised discriminant analysis, which extracts feature, KSDA dimension reduction and classification for speech emotion feature extracted from pretreated speech samples. In the training phase, the supervision of the training sample set with KSDA dimension reduction, will represent the training sample different relationship information embedding graph together, and the use of nuclear data mapping, realize the optimization of speech emotion feature dimension reduction, then the low dimensional sample to train the multi class SVM classifier; in the testing stage, the order of data mapping the use of characteristics and dimension reduction training stage feature selection obtained, to obtain the low dimensional feature of each test sample, then use the classifier for classification, the test sample category. Compared with the existing methods, the present method increases the dimensionality reduction effectiveness in the dimensionality reduction of the speech emotion feature, and improves the recognition rate of the speech emotion recognition system.

全部详细技术资料下载

【技术实现步骤摘要】
—种基于核半监督判别分析的语音情感识别方法
本专利技术属于语音情感识别领域，特别是涉及。
技术介绍
语音情感识别(Speech Emotion Recognition,简称SER,)涉及到语音信号处理、模式识别、机器学习以及心理学等交叉学科，目前已成为了一个得到了较多关注的领域。大量算法被提出用于语音情感识别，并经过实验验证了其有效性。常用的标准数据库包括柏林(Berlin)语音情感库、AIBO数据库、SUSAS语料库等，所涉及到的基本情感类型包括平静、恐惧、生气、愉悦、烦躁、惊讶等。在人机交互(HMI)中，机器需要根据交流对象的语音信号，经过处理之后提取出信号样本的情感特征，进行语音情感类型的识别，根据识别的结果给出相应的反应策略；同样，机器也可以根据各类样本特征分析的结果，自动生成带某种情感成分的语音信号，从而提高人机交互系统的性能。在航天员培训训练过程中及航天器在轨阶段，语音情感识别也具有重要的意义，可以及时检测出负面情感，从而尽早进行干预和情绪疏导，排除由负面情绪所带来的安全隐患。此外，在呼叫中心、儿童的心理疾病诊疗等方面语音情感识别方法同样能够为相关人员提供一定的初步诊断筛选依据。目前很多语音情感识别算法都是基于原始特征直接通过分类器进行分类识别，常用的分类器如高斯混合模型(GMM)、隐马尔可夫模型(HMM)、支持向量机(SVM)等，虽然能取得一些效果，但由于语音情感原始特征的维数一般较高，而且原始特征中一般会含有一些对情感分类无用的特征，所以对普通的语音情感样本的准确分类存在着较大的局限性。传统的语音情感识别方法还采用了一些特征筛选的措...

【技术保护点】
一种基于核半监督判别分析的语音情感识别方法，其特征在于：将语音情感数据库中若干个语音样本任意划分为训练样本集和测试样本集，包括顺序执行的以下步骤：步骤一，语音样本预处理：对语音样本进行预加重，然后对预加重后的语音样本的时域信号进行分帧；步骤二，语音情感特征提取：提取经步骤一处理后的每个语音样本中的语音情感特征，按照提取方式的不同分为能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量；对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量；步骤三，特征筛选：对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选，去除规整化语音情感特征向量中对语音情感分析贡献较小的特征，得到每个语音样本的特征筛选后语音情感特征向量；步骤四，基于KSDA的特征维数约简：对经步骤三特征筛选后得到的训练样本的特征筛选后语音情感特征向量集X＝[x1,x2,...,xN]使用KSDA对X进行维数约简训练，生成核方法的降维映射阵A，同时求解得到X的低维样本集ATK，Gram阵K选用Gauss核函数；步...

【技术特征摘要】
1.一种基于核半监督判别分析的语音情感识别方法，其特征在于:将语音情感数据库中若干个语音样本任意划分为训练样本集和测试样本集，包括顺序执行的以下步骤: 步骤一，语音样本预处理:对语音样本进行预加重，然后对预加重后的语音样本的时域信号进行分帧；步骤二，语音情感特征提取:提取经步骤一处理后的每个语音样本中的语音情感特征，按照提取方式的不同分为能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量；对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量；步骤三，特征筛选:对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选，去除规整化语音情感特征向量中对语音情感分析贡献较小的特征，得到每个语音样本的特征筛选后语音情感特征向量；步骤四，基于KSDA的特征维数约简:对经步骤三特征筛选后得到的训练样本的特征筛选后语音情感特征向量集X = [X1, X2,, xN]使用KSDA对X进行维数约简训练，生成核方法的降维映射阵A,同时求解得到X的低维样本集ATK, Gram阵K选用Gauss核函数；步骤五，训练两类SVM分类器:假设训练样本集中有N个分属于N。个种类的语音样本，在训练样本集中任取两个种类的语音样本，进行组合训练得到I个两类SVM分类器，共得到Nc (Nc-1) /2个两类SVM分类器；步骤六，测试:利用经步骤五训练完成的SVM分类器每个测试样本进行测试，具体包括顺序执行的以下步骤: (1)对经步骤三得到的每个测试样本Xfif的特征筛选后语音情感特征向量使用核方法的降维映射阵A进行维数约简，得到xitest经过维数约简后的低维样本为ATKi对于一个测试样本 2.根据权利要求1所述的一种基于核半监督判别分析的语音情感识别方法，其特征在于:步骤二中原始语音情感特征向量中的语音情感特征分布如下: 1-80维:能量序列的统计特征和一阶、二阶抖动；能量一阶、二阶差分序列的统计特征；三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征；三个不同频带内能量序列的一阶、二阶抖动； 81-101维:基音序列的统计特征和一阶、二阶抖动；基音一阶、二阶差分序列的统计特征；基首序列斜率；102-121维:过零率...

【专利技术属性】
技术研发人员：郑文明，徐新洲，赵力，魏昕，余华，黄程韦，刘健刚，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人