【技术实现步骤摘要】
本专利技术属于情感识别领域,具体涉及一种基于无监督域适应的语音情感识别方法。
技术介绍
传统的语音情感识别模型通常依赖于一个共同的假设:训练数据(源域数据)和测试数据(目标域数据)来自同一个数据库,即两个域具有相同的数据分布。但在实际情况下,这个条件很难满足,这主要是由于从不同设备和条件下收集到的语音数据存在很大的差异,这就使得训练数据和测试数据具有不同的数据分布,如果还是用传统的语音情感识别模型进行训练和测试,将会产生很大的性能衰退。域适应方法可以很好的解决这个问题。但在特征学习过程中,大部分的域适应方法没有考虑到标签信息。同时,在这些域适应方法中,传统语音情感识别的一些优势(如在提取特征的过程中考虑说话人、内容、环境等与情感无关的因素)也被忽略了。本专利技术通过一个简单的前向神经网络模型,提取出情感判别和域不变的特征。具体的,为了排除情感无关因素的影响,先将输入数据分解成两部分:情感判别特征和情感无关特征。然后情感相关特征进行层次非线性转换得到高层情感特征。为了使高层情感特征具有情感判别性和域不变性,将高层情感特征分别用于情感标签预测和域标签预测。
技术实现思路
本专利技术的目的在于提供一种基于无监督域适应的语音情感识别方法,使得学到的特征尽可能排除情感无关因素的影响,并且具有情感判别性和域不变性。为了解决以上问题,本专利技术首先对原始语音样本进行预处理,得到一个384维特征作为输入数据。然后将输入特征映射成两种特征:情感判别特征和情感无关特征;情感判别特征是和情感相关的特征、有助于情感分类的特征;情感无关特征是体现说话人变化、环境噪音等一些与情感变化无 ...
【技术保护点】
一种基于无监督域适应的语音情感识别方法,其特征在于,包括如下步骤:S1,语音样本预处理:按照INTERSPEECH 2009情感挑战赛的要求,利用开源工具包openEAR从原始语音样本中提取384维特征,替代原始语音样本作为输入数据;S2,模型训练:所述模型包括三部分:特征提取,情感标签预测,域标签预测;源域的有标签样本和目标域的无标签训练样本通过S1得到相应的384维特征作为模型的输入数据;具体实现包括如下:在模型的特征提取层,输入数据通过不同的权重映射成两种特征:情感判别特征和情感无关特征;然后情感判别特征通过层次非线性转换得到高层情感特征;源域有标签样本的高层情感特征用于情感标签的预测,源域和目标域样本的高层情感特征用于域标签的预测;最后更新模型的参数,将两个标签预测器的损失进行反向传播,用梯度下降法进行参数的更新;S3,特征提取:利用S2中训练好的特征提取层的参数,将源域有标签训练样本的384维特征转换成高层情感特征;S4,分类器训练:利用S3中源域有标签训练样本的高层情感特征和相对应的情感标签,进行分类器SVM的训练;S5,语音情感识别:对任意一个目标域的语音测试样本,首先利 ...
【技术特征摘要】
1.一种基于无监督域适应的语音情感识别方法,其特征在于,包括如下步骤:S1,语音样本预处理:按照INTERSPEECH2009情感挑战赛的要求,利用开源工具包openEAR从原始语音样本中提取384维特征,替代原始语音样本作为输入数据;S2,模型训练:所述模型包括三部分:特征提取,情感标签预测,域标签预测;源域的有标签样本和目标域的无标签训练样本通过S1得到相应的384维特征作为模型的输入数据;具体实现包括如下:在模型的特征提取层,输入数据通过不同的权重映射成两种特征:情感判别特征和情感无关特征;然后情感判别特征通过层次非线性转换得到高层情感特征;源域有标签样本的高层情感特征用于情感标签的预测,源域和目标域样本的高层情感特征用于域标签的预测;最后更新模型的参数,将两个标签预测器的损失进行反向传播,用梯度下降法进行参数的更新;S3,特征提取:利用S2中训练好的特征提取层的参数,将源域有标签训练样本的384维特征转换成高层情感特征;S4,分类器训练:利用S3中源域有标签...
【专利技术属性】
技术研发人员:毛启容,薛文韬,高利剑,N鲁瓦,申自强,詹永照,
申请(专利权)人:江苏大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。