基于数据增强的语音情感识别方法、装置以及设备制造方法及图纸

技术编号:37497523 阅读:24 留言:0更新日期:2023-05-07 09:34
本发明专利技术涉及语音情感识别领域,特别涉及一种基于数据增强的语音情感识别方法、装置以及设备,对若干个语音训练样本数据进行数据增强,通过解决语音训练样本数据集的数据稀疏以及类间不平衡的问题,并通过提取语音训练样本数据的经验特征、深度特征,实现了人类先验知识和深度学习的互补优势的充分利用,克服语音训练样本数据集的数据稀疏导致的情感信息提取不全面不充分的问题,提高了模型训练的精准性,以提高对语音进行情感识别的精准度。以提高对语音进行情感识别的精准度。以提高对语音进行情感识别的精准度。

【技术实现步骤摘要】
基于数据增强的语音情感识别方法、装置以及设备


[0001]本专利技术涉及语音情感识别领域,特别涉及是一种基于数据增强的语音情感识别方法、装置、设备以及存储介质。

技术介绍

[0002]情感计算已经成为人类情感的自动识别、解释和汇编领域中一个活跃的跨学科研究领域,而语音情感识别(Speech Emotion Recognition,SER)在自然的人机交互中起到了关键作用。语音情感识别旨在从语音信号中解码情感内容,即获取一段音频样本,从样本中提取出包含情感的特征,基于这些特征判断该样本所属的情感类别。
[0003]随着语音情感识别和深度学习技术的进一步发展,许多基于深度学习技术的模型被提出以更好地提升语音情感识别的性能。而当前广泛使用的情感语音数据库面临着数据稀疏、类间不平衡的问题,但现有的模型多集中于在稀疏数据中提取更多的情感特征或是单纯增广稀疏数据集,很容易导致模型过拟合或性能提升有限,从而对语音信号的情感识别的精准度造成了影响。

技术实现思路

[0004]基于此,本专利技术的目的在于,提供一种基于数据增强的语音情感识别方法、装置、设备以及存储介质,对若干个语音训练样本数据进行数据增强,通过解决语音训练样本数据集的数据稀疏以及类间不平衡的问题,并通过提取语音训练样本数据的经验特征、深度特征,实现了人类先验知识和深度学习的互补优势的充分利用,克服语音训练样本数据集的数据稀疏导致的情感信息提取不全面不充分的问题,提高了模型训练的精准性,以提高对语音进行情感识别的精准度。
[0005]第一方面,本申请实施例提供了一种基于数据增强的语音情感识别方法,包括以下步骤:构建神经网络模型,其中,所述神经网络模型包括数据增强模块、特征提取模块以及情感识别模块;获得语音训练样本数据集以及语音参考样本数据集,其中,所述语音训练样本数据集包括若干个语音训练样本数据;所述语音参考样本数据集包括与所述语音训练样本数据集中的各个情感域对应的若干个语音参考样本数据;将所述语音训练样本数据集以及语音参考样本数据集输入至所述数据增强模块中,基于若干个情感域对应的若干个所述语音参考样本数据,对若干个所述语音训练样本数据进行数据增强,构建语音增强样本数据集,其中,所述语音增强样本数据集包括若干个增强后的语音训练样本数据;将所述语音增强样本数据集输入至所述特征提取模块中进行特征提取,获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的经验特征以及深度特征;将各个所述增强后的语音训练样本数据对应的经验特征以及深度特征输入至所
述情感识别模块中,获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据;获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的真实情感标签数据,根据各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据、真实情感标签数据以及预设的损失函数,对所述神经网络模型进行训练,获得目标神经网络模型;获得待识别的语音数据,将所述待识别的语音数据输入至所述目标神经网络模型中,获得所述待识别的语音数据的情感识别结果。
[0006]第二方面,本申请实施例提供了一种基于数据增强的语音情感识别装置,包括:模型构建模块,用于构建神经网络模型,其中,所述神经网络模型包括数据增强模块、特征提取模块以及情感识别模块;数据获得模块,用于获得语音训练样本数据集以及语音参考样本数据集,其中,所述语音训练样本数据集包括若干个语音训练样本数据;所述语音参考样本数据集包括与所述语音训练样本数据集中的各个情感域对应的若干个语音参考样本数据;数据增强模块,用于将所述语音训练样本数据集以及语音参考样本数据集输入至所述数据增强模块中,基于若干个情感域对应的若干个所述语音参考样本数据,对若干个所述语音训练样本数据进行数据增强,构建语音增强样本数据集,其中,所述语音增强样本数据集包括若干个增强后的语音训练样本数据;特征提取模块,用于将所述语音增强样本数据集输入至所述特征提取模块中进行特征提取,获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的经验特征以及深度特征;情感标签预测模块,用于将各个所述增强后的语音训练样本数据对应的经验特征以及深度特征输入至所述情感识别模块中,获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据;模型训练模块,用于获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的真实情感标签数据,根据各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据、真实情感标签数据以及预设的损失函数,对所述神经网络模型进行训练,获得目标神经网络模型;情感识别模块,用于获得待识别的语音数据,将所述待识别的语音数据输入至所述目标神经网络模型中,获得所述待识别的语音数据的情感识别结果。
[0007]第三方面,本申请实施例提供了一种计算机设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的基于数据增强的语音情感识别方法的步骤。
[0008]第四方面,本申请实施例提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于数据增强的语音情感识别方法的步骤。
[0009]在本申请实施例中,提供一种基于数据增强的语音情感识别方法、装置、设备以及存储介质,对若干个语音训练样本数据进行数据增强,通过解决语音训练样本数据集的数据稀疏以及类间不平衡的问题,并通过提取语音训练样本数据的经验特征、深度特征,实现
了人类先验知识和深度学习的互补优势的充分利用,克服语音训练样本数据集的数据稀疏导致的情感信息提取不全面不充分的问题,提高了模型训练的精准性,以提高对语音进行情感识别的精准度。
[0010]为了更好地理解和实施,下面结合附图详细说明本专利技术。
附图说明
[0011]图1为本申请一个实施例提供的基于数据增强的语音情感识别方法的流程示意图;图2为本申请一个实施例提供的基于数据增强的语音情感识别方法的流程中S3的示意图;图3为本申请一个实施例提供的基于数据增强的语音情感识别方法的流程中S4的示意图;图4为本申请一个实施例提供的基于数据增强的语音情感识别方法的流程中S5的示意图;图5为本申请一个实施例提供的基于数据增强的语音情感识别方法的流程中S7的示意图;图6为本申请一个实施例提供的基于数据增强的语音情感识别装置的结构示意图;图7为本申请一个实施例提供的计算机设备的结构示意图。
具体实施方式
[0012]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0013]在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据增强的语音情感识别方法,其特征在于,包括以下步骤:构建神经网络模型,其中,所述神经网络模型包括数据增强模块、特征提取模块以及情感识别模块;获得语音训练样本数据集以及语音参考样本数据集,其中,所述语音训练样本数据集包括若干个语音训练样本数据;所述语音参考样本数据集包括与所述语音训练样本数据集中的各个情感域对应的若干个语音参考样本数据;将所述语音训练样本数据集以及语音参考样本数据集输入至所述数据增强模块中,构建语音增强样本数据集,其中,所述语音增强样本数据集包括若干个增强后的语音训练样本数据以及若干个语音训练样本数据;各个所述增强后的语音训练样本数据为基于各个情感域对应的语音参考样本数据,对对应所述语音训练样本数据进行增强后的数据;将所述语音增强样本数据集输入至所述特征提取模块中进行特征提取,获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的经验特征以及深度特征;将各个所述增强后的语音训练样本数据对应的经验特征以及深度特征输入至所述情感识别模块中,获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据;获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的真实情感标签数据,根据各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据、真实情感标签数据以及预设的损失函数,对所述神经网络模型进行训练,获得目标神经网络模型;获得待识别的语音数据,将所述待识别的语音数据输入至所述目标神经网络模型中,获得所述待识别的语音数据的情感识别结果。2.根据权利要求1所述的基于数据增强的语音情感识别方法,其特征在于:所述数据增强模块包括风格编码单元、基频提取单元以及数据合成单元;所述将所述语音训练样本数据集以及语音参考样本数据集输入至所述数据增强模块中,构建语音增强样本数据集,包括步骤:将所述语音参考样本数据集输入至所述风格编码单元中进行编码,构建风格编码训练集,其中,所述风格编码训练集包括各个所述情感域的语音参考样本数据对应的风格编码数据;将所述语音训练样本数据集输入至所述基频提取单元中进行基频提取,构建基频训练集,其中,所述基频训练集包括各个所述语音训练样本数据对应的基频数据;将所述语音训练样本数据集、风格编码训练集以及基频训练集输入至所述数据合成单元中,根据预设的数据合并算法,将每个所述语音训练样本数据,分别与对应所述语音训练样本数据对应的基频数据以及每个所述情感域的语音参考样本数据对应的风格编码数据进行数据合并,获得每个语音训练样本数据对应的若干个增强后的语音训练样本数据,其中,所述数据合并算法为:式中,Y为所述增强后的语音训练样本数据,N为所述语音训练样本数据的数目,为第
n个语音训练样本数据,K为所述情感域的数目,k表示为第k个情感域,为所述风格编码数据,为所述基频数据。3.根据权利要求1所述的基于数据增强的语音情感识别方法,其特征在于:所述特征提取模块包括经验提取模块以及深度特征提取模块,其中,所述经验提取模块包括手工特征提取模块以及编码模块;所述将所述语音增强样本数据集输入至所述特征提取模块中进行特征提取,获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的经验特征以及深度特征,包括步骤:将各个所述增强后的语音训练样本数据以及语音训练样本数据输入至所述手工特征提取模块中进行手工特征提取,获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的手工特征集,其中,所述手工特征集包括梅尔频率倒谱系数、基频特征、频谱质心、过零率、均方根能量、谱平面、梅尔谱图以及色谱图;将各个所述增强后的语音训练样本数据以及语音训练样本数据对应的手工特征集输入至所述编码模块进行编码,获得各个所述增强后的...

【专利技术属性】
技术研发人员:黄佩瑶唐小煜林逸鑫龚雅云
申请(专利权)人:华南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1