当前位置: 首页 > 专利查询>江苏大学专利>正文

一种基于无监督域适应的语音情感识别方法技术

技术编号:14737708 阅读:422 留言:0更新日期:2017-03-01 11:12
本发明专利技术公开了一种基于无监督域适应的语音情感识别方法,提出的模型包括:特征提取,情感标签预测,域标签预测。特征提取:首先将原始输入数据分解成两块特征,情感判别特征和情感无关特征,然后将情感判别特征进行层次非线性转换得到高层情感特征。将高层情感特征用于情感标签和域标签的预测。利用梯度下降法对整个模型的参数进行更新,得到特征提取层的各层权重。然后,进行特征提取,源域有标签样本通过训练好的特征提取层得到高层情感特征。最后,进行分类器SVM的训练,将源域有标签样本的高层情感特征和相对应的情感标签输入到SVM中训练,训练好的SVM可用于目标域测试样本的分类。解决了语音情感识别中训练样本和测试样本数据分布不同的问题。

【技术实现步骤摘要】

本专利技术属于情感识别领域,具体涉及一种基于无监督域适应的语音情感识别方法
技术介绍
传统的语音情感识别模型通常依赖于一个共同的假设:训练数据(源域数据)和测试数据(目标域数据)来自同一个数据库,即两个域具有相同的数据分布。但在实际情况下,这个条件很难满足,这主要是由于从不同设备和条件下收集到的语音数据存在很大的差异,这就使得训练数据和测试数据具有不同的数据分布,如果还是用传统的语音情感识别模型进行训练和测试,将会产生很大的性能衰退。域适应方法可以很好的解决这个问题。但在特征学习过程中,大部分的域适应方法没有考虑到标签信息。同时,在这些域适应方法中,传统语音情感识别的一些优势(如在提取特征的过程中考虑说话人、内容、环境等与情感无关的因素)也被忽略了。本专利技术通过一个简单的前向神经网络模型,提取出情感判别和域不变的特征。具体的,为了排除情感无关因素的影响,先将输入数据分解成两部分:情感判别特征和情感无关特征。然后情感相关特征进行层次非线性转换得到高层情感特征。为了使高层情感特征具有情感判别性和域不变性,将高层情感特征分别用于情感标签预测和域标签预测。
技术实现思路
本专利技术的目的在于提供一种基于无监督域适应的语音情感识别方法,使得学到的特征尽可能排除情感无关因素的影响,并且具有情感判别性和域不变性。为了解决以上问题,本专利技术首先对原始语音样本进行预处理,得到一个384维特征作为输入数据。然后将输入特征映射成两种特征:情感判别特征和情感无关特征;情感判别特征是和情感相关的特征、有助于情感分类的特征;情感无关特征是体现说话人变化、环境噪音等一些与情感变化无关因素、不利于情感分类的特征。将情感判别特征进行层次非线性转换得到高层情感特征,高层情感特征分别用于情感标签和域标签的预测,并用梯度下降法进行模型参数的更新。具体技术方案如下:一种基于无监督域适应的语音情感识别方法,包括如下步骤:S1,语音样本预处理:按照INTERSPEECH2009情感挑战赛的要求,利用开源工具包openEAR从原始语音样本中提取384维特征,替代原始语音样本作为输入数据;S2,模型训练:所述模型包括三部分:特征提取,情感标签预测,域标签预测;源域的有标签样本和目标域的无标签训练样本通过S1得到相应的384维特征作为模型的输入数据;具体实现包括如下:在模型的特征提取层,输入数据通过不同的权重映射成两种特征:情感判别特征和情感无关特征;然后情感判别特征通过层次非线性转换得到高层情感特征;源域有标签样本的高层情感特征用于情感标签的预测,源域和目标域样本的高层情感特征用于域标签的预测;最后更新模型的参数,将两个标签预测器的损失进行反向传播,用梯度下降法进行参数的更新;S3,特征提取:利用S2中训练好的特征提取层的参数,将源域有标签训练样本的384维特征转换成高层情感特征;S4,分类器训练:利用S3中源域有标签训练样本的高层情感特征和相对应的情感标签,进行分类器SVM的训练;S5,语音情感识别:对任意一个目标域的语音测试样本,首先利用步骤S1提取384维特征作为输入数据,然后通过S2中训练好的特征提取层得到高层情感特征,最后输入到S4训练好的SVM中进行分类。进一步地,所述步骤S2中所述特征提取层的实现包括如下:S2.1,设有N+1层,第n层有k(n)个结点,h(n)表示第n层的特征表示,n∈[0,1,...,N];对于第零层,假设h(0)=x,x为输入样本;那么第n层的特征表示为:其中W(n)∈Rk(n)×k(n-1)表示权重矩阵,b(n)∈Rk(n)表示偏置,表示非线性激活函数;S2.2,为了消除提取到的特征掺杂一些情感无关的因素,引进一个正交项来解开情感判别因素和其他无关因素;对于输入x,把它映射成两块特征:一块编码输入数据的判别因素,另一块编码输入数据的其他因素,w是权重矩阵,c是偏置;参数分别是θe={W(1),b(1)本文档来自技高网...
一种基于无监督域适应的语音情感识别方法

【技术保护点】
一种基于无监督域适应的语音情感识别方法,其特征在于,包括如下步骤:S1,语音样本预处理:按照INTERSPEECH 2009情感挑战赛的要求,利用开源工具包openEAR从原始语音样本中提取384维特征,替代原始语音样本作为输入数据;S2,模型训练:所述模型包括三部分:特征提取,情感标签预测,域标签预测;源域的有标签样本和目标域的无标签训练样本通过S1得到相应的384维特征作为模型的输入数据;具体实现包括如下:在模型的特征提取层,输入数据通过不同的权重映射成两种特征:情感判别特征和情感无关特征;然后情感判别特征通过层次非线性转换得到高层情感特征;源域有标签样本的高层情感特征用于情感标签的预测,源域和目标域样本的高层情感特征用于域标签的预测;最后更新模型的参数,将两个标签预测器的损失进行反向传播,用梯度下降法进行参数的更新;S3,特征提取:利用S2中训练好的特征提取层的参数,将源域有标签训练样本的384维特征转换成高层情感特征;S4,分类器训练:利用S3中源域有标签训练样本的高层情感特征和相对应的情感标签,进行分类器SVM的训练;S5,语音情感识别:对任意一个目标域的语音测试样本,首先利用步骤S1提取384维特征作为输入数据,然后通过S2中训练好的特征提取层得到高层情感特征,最后输入到S4训练好的SVM中进行分类。...

【技术特征摘要】
1.一种基于无监督域适应的语音情感识别方法,其特征在于,包括如下步骤:S1,语音样本预处理:按照INTERSPEECH2009情感挑战赛的要求,利用开源工具包openEAR从原始语音样本中提取384维特征,替代原始语音样本作为输入数据;S2,模型训练:所述模型包括三部分:特征提取,情感标签预测,域标签预测;源域的有标签样本和目标域的无标签训练样本通过S1得到相应的384维特征作为模型的输入数据;具体实现包括如下:在模型的特征提取层,输入数据通过不同的权重映射成两种特征:情感判别特征和情感无关特征;然后情感判别特征通过层次非线性转换得到高层情感特征;源域有标签样本的高层情感特征用于情感标签的预测,源域和目标域样本的高层情感特征用于域标签的预测;最后更新模型的参数,将两个标签预测器的损失进行反向传播,用梯度下降法进行参数的更新;S3,特征提取:利用S2中训练好的特征提取层的参数,将源域有标签训练样本的384维特征转换成高层情感特征;S4,分类器训练:利用S3中源域有标签...

【专利技术属性】
技术研发人员:毛启容薛文韬高利剑N鲁瓦申自强詹永照
申请(专利权)人:江苏大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1