语音情绪模型的训练方法、表情驱动方法、电子设备及介质技术

技术编号:37859633 阅读:7 留言:0更新日期:2023-06-15 20:49
本申请公开了一种语音情绪模型的训练方法、表情驱动方法、电子设备及介质,涉及人工智能技术领域。模型训练方法包括,接收样本,所述样本包括音频数据和视频数据;根据所述音频数据和所述视频数据获取表情点位标签;获取所述音频数据中的多个音频特征;将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络,得到表情点位训练值;根据所述表情点位标签和所述表情点位训练值训练所述卷积神经网络,得到训练后的语音情绪识别模型。本申请的方法可以减少模型训练中的过拟合问题。申请的方法可以减少模型训练中的过拟合问题。申请的方法可以减少模型训练中的过拟合问题。

【技术实现步骤摘要】
语音情绪模型的训练方法、表情驱动方法、电子设备及介质


[0001]本专利技术涉及人工智能领域,特别涉及一种语音情绪模型的训练方法、表情驱动方法、电子设备及介质。

技术介绍

[0002]在面部表情情绪识别以及唇音识别中,语音情绪模型在接收音频数据后输出面部表情,输出的面部表情可以和音频数据实现唇音同步。
[0003]在相关技术中,对于语音情绪模型的训练,通常采用单特征输入的方式进行训练。例如,在网络端采用全连接或者VGG结构的单一音频特征输入的卷积神经网络的深度学习模型系统。通过提取单一音频的特征,在特征提取网络中训练,将训练好的语音情绪模型结合输入的面部表情表情点位,来驱动生成面部表情以及实现唇音同步。在上述方法中,语音情绪模型会过于依赖单一的特征,容易造成过拟合。

技术实现思路

[0004]本申请提供了一种语音情绪模型的训练方法、表情驱动方法、电子设备及介质,可以减少模型训练中的过拟合问题。
[0005]本申请的第一方面公开了音情绪识别模型的训练方法,应用于电子设备,所述方法包括,接收样本,所述样本包括音频数据和视频数据;根据所述音频数据和所述视频数据获取表情点位标签;获取所述音频数据中的多个音频特征;将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络,得到表情点位训练值;根据所述表情点位标签和所述表情点位训练值训练所述卷积神经网络,得到训练后的语音情绪识别模型。
[0006]在上述第一方面的一种可能的实现中,所述方法还包括,将所述多个音频特征中的每个音频特征输入至包括至少三层结构的二维卷积层,其中,所述至少三层结构的每一层的第二维和第三维相等,并且从所述至少三层结构中的第三层开始,每层的通道数为前二层的通道数之和。
[0007]在上述第一方面的一种可能的实现中,将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络训练包括,将与所述每个音频特征对应的卷积层的通道数和所述情绪特征的通道数进行合并级联,得到级联后的卷积层。
[0008]在上述第一方面的一种可能的实现中,所述方法还包括,对所述级联后的卷积层进行降维处理。
[0009]在上述第一方面的一种可能的实现中,所述方法还包括,将所述级联后的卷积层的输出输入至池化层和全连接层。
[0010]在上述第一方面的一种可能的实现中,所述多个音频特征包括梅尔频率倒谱系数、Gammatone滤波器倒谱系数、线性判别倒谱系数中的至少两种。
[0011]在上述第一方面的一种可能的实现中,所述方法还包括,将所述多个音频特征中的一个音频特征和所述情绪特征并行输入第二卷积神经网络训练;设置所述卷积神经网络
和所述第二卷积神经网络的权重,并根据所述权重的自适应训练得到所述训练后的语音情绪识别模型。
[0012]本申请的第二方面公开了一种表情驱动方法,所述方法包括,获取虚拟数字人的音频数据;提取所述音频数据中的多个音频特征;将所述多个音频特征输入至语音情绪识别模型进行识别,得到识别结果;根据所述识别结果,驱动所述虚拟数字人做出相应的表情,其中所述语音情绪识别模型是根据本申请第一方面所述的训练方法训练得到。
[0013]本申请的第三方面公开了一种语音情绪识别模型的训练装置,所述装置包括,接收模块,用于接收样本,所述样本包括音频数据和视频数据;采集模块,用于根据所述音频数据和所述视频数据获取表情点位标签,以及获取所述音频数据中的多个音频特征;训练模块,用于将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络,得到表情点位训练值,以及根据所述表情点位标签和所述表情点位训练值训练所述卷积神经网络,得到训练后的语音情绪识别模型。
[0014]在上述第三方面的一种可能的实现中,所述装置还包括,级联模块,用于将与所述每个音频特征对应的卷积层的通道数和所述情绪特征的通道数进行合并级联,得到级联后的卷积层。
[0015]本申请的第四方面公开了一种电子设备,所述设备包括存储有计算机可执行指令的存储器和处理器;当所述指令被所述处理器执行时,使得所述设备实施根据本申请第一和第二方面的方法。
[0016]本申请的第五方面公开了一种计算机可读介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本申请第一方面和第二方面的方法。
[0017]本申请的第六方面公开了一种计算机程序产品,所述计算机程序被处理器执行时实现本申请第一方面和第二方面的方法。
[0018]本申请提供的语音情绪模型的训练方法、表情驱动方法、电子设备及介质,根据样本获取表情点位标签,并获取样本中的多个音频特征,通过将多个音频特征和情绪特征并行地输入至卷积神经网络进行训练。通过将训练值和表情点位标签的差异来训练卷积神经网络,得到训练后的语音情绪识别模型。通过多个特征并行输入模型以训练的方法可以在网络模型的输入端尽可能获取多的特征信息,以解决单特征输入造成过的拟合问题。
附图说明
[0019]图1为相关技术中的语音情绪模型的示意图;
[0020]图2为本申请一个实施例的语音情绪识别模型的训练方法200的流程示意图;
[0021]图3为本申请一个实施例的语音情绪模型的音频特征输入结构300的示意图;
[0022]图4为本申请一个实施例的多个特征并行输入卷积神经网络的示意图;
[0023]图5为本申请一个实施例的语音情绪识别模型的训练方法500的示意图
[0024]图6为本申请的一个实施例的语音情绪识别模型的示意图;
[0025]图7为本申请的一个实施例的表情驱动方法700的流程示意图;
[0026]图8为本申请的一个实施例的电子设备800的框图。
具体实施方式
[0027]下面结合具体实施例和附图对本申请做进一步说明。可以理解的是,本公开的说明性实施例包括但不限于语音情绪模型的训练方法、表情驱动方法、电子设备及介质,此处描述的具体实施例仅仅是为了解释本申请,而非对本申请的限定。此外,为了便于描述,附图中仅示出了与本申请相关的部分而非全部的结构或过程。另外,本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
[0028]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
[0029]图1示出了在面部表情情绪识别以及唇音识别领域中,语音情绪模型的示意图。语音情绪模型101在接收音频数据102后输出面部表情103,输出的面部表情103可以和音频数据实现唇音同步。
[0030]在相关技术中,对于语音情绪模型101的训练,通常采用单特征输入的方式进行训练,语音情绪模型101会过于依赖单一的特征,容易造成过拟合。
[0031]为了解决上述问题,本申请的一个实施例提供了一种语音情绪识别模型的训练方法200,能够改善模型训练过程中的过拟合,参见图2。方法200包括如下步骤。
[0032]S210本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音情绪识别模型的训练方法,应用于电子设备,其特征在于,所述方法包括,接收样本,所述样本包括音频数据和视频数据;根据所述音频数据和所述视频数据获取表情点位标签;获取所述音频数据中的多个音频特征;将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络,得到表情点位训练值;根据所述表情点位标签和所述表情点位训练值训练所述卷积神经网络,得到训练后的语音情绪识别模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括,将所述多个音频特征中的每个音频特征输入至包括至少三层结构的二维卷积层,其中,所述至少三层结构的每一层的第二维和第三维相等,并且从所述至少三层结构中的第三层开始,每层的通道数为前二层的通道数之和。3.根据权利要求1所述的方法,其特征在于,将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络训练包括,将与所述每个音频特征对应的卷积层的通道数和所述情绪特征的通道数进行合并级联,得到级联后的卷积层。4.根据权利要求3所述的方法,其特征在于,所述方法还包括,对所述级联后的卷积层进行降维处理。5.根据权利要求3所述的方法,其特征在于,所述方法还包括,将所述级联后的卷积层的输出输入至池化层和全连接层。6.根据权利要求1所述的方法,其特征在于,所述多个音频特征包括梅尔频率倒谱系数、Gammatone滤波器倒谱系数、线性判别倒谱系数中的至少两种。7.根据权利要求1所述的方法,其特征在于,所述方法还包括,将所述多个音频特征中的一个音频特征和所述情绪特征并行输入第二卷积神经网络训练;设置所述卷积神经网络和所述第二卷积神经网络的权重,并根据所述权重的自适应训练...

【专利技术属性】
技术研发人员:黄子龙范会善王炼余学武周永吉章铃娜姜京京赵新阳贺文明
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1