语音情绪模型的训练方法、表情驱动方法、电子设备及介质技术

技术编号：37859633 阅读：7 留言：0更新日期：2023-06-15 20:49

本申请公开了一种语音情绪模型的训练方法、表情驱动方法、电子设备及介质，涉及人工智能技术领域。模型训练方法包括，接收样本，所述样本包括音频数据和视频数据；根据所述音频数据和所述视频数据获取表情点位标签；获取所述音频数据中的多个音频特征；将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络，得到表情点位训练值；根据所述表情点位标签和所述表情点位训练值训练所述卷积神经网络，得到训练后的语音情绪识别模型。本申请的方法可以减少模型训练中的过拟合问题。申请的方法可以减少模型训练中的过拟合问题。申请的方法可以减少模型训练中的过拟合问题。

全部详细技术资料下载

【技术实现步骤摘要】
语音情绪模型的训练方法、表情驱动方法、电子设备及介质

[0001]本专利技术涉及人工智能领域，特别涉及一种语音情绪模型的训练方法、表情驱动方法、电子设备及介质。

技术介绍

[0002]在面部表情情绪识别以及唇音识别中，语音情绪模型在接收音频数据后输出面部表情，输出的面部表情可以和音频数据实现唇音同步。
[0003]在相关技术中，对于语音情绪模型的训练，通常采用单特征输入的方式进行训练。例如，在网络端采用全连接或者VGG结构的单一音频特征输入的卷积神经网络的深度学习模型系统。通过提取单一音频的特征，在特征提取网络中训练，将训练好的语音情绪模型结合输入的面部表情表情点位，来驱动生成面部表情以及实现唇音同步。在上述方法中，语音情绪模型会过于依赖单一的特征，容易造成过拟合。

技术实现思路

[0004]本申请提供了一种语音情绪模型的训练方法、表情驱动方法、电子设备及介质，可以减少模型训练中的过拟合问题。
[0005]本申请的第一方面公开了音情绪识别模型的训练方法，应用于电子设备，所述方法包括，接收样本，所述样本包括音频数据和视频数据；根据所述音频数据和所述视频数据获取表情点位标签；获取所述音频数据中的多个音频特征；将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络，得到表情点位训练值；根据所述表情点位标签和所述表情点位训练值训练所述卷积神经网络，得到训练后的语音情绪识别模型。
[0006]在上述第一方面的一种可能的实现中，所述方法还包括，将所述多个音频特征中的每个音频特征输...

【技术保护点】

【技术特征摘要】
1.一种语音情绪识别模型的训练方法，应用于电子设备，其特征在于，所述方法包括，接收样本，所述样本包括音频数据和视频数据；根据所述音频数据和所述视频数据获取表情点位标签；获取所述音频数据中的多个音频特征；将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络，得到表情点位训练值；根据所述表情点位标签和所述表情点位训练值训练所述卷积神经网络，得到训练后的语音情绪识别模型。2.根据权利要求1所述的方法，其特征在于，所述方法还包括，将所述多个音频特征中的每个音频特征输入至包括至少三层结构的二维卷积层，其中，所述至少三层结构的每一层的第二维和第三维相等，并且从所述至少三层结构中的第三层开始，每层的通道数为前二层的通道数之和。3.根据权利要求1所述的方法，其特征在于，将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络训练包括，将与所述每个音频特征对应的卷积层的通道数和所述情绪特征的通道数进行合并级联，得到级联后的卷积层。4.根据权利要求3所述的方法，其特征在于，所述方法还包括，对所述级联后的卷积层进行降维处理。5.根据权利要求3所述的方法，其特征在于，所述方法还包括，将所述级联后的卷积层的输出输入至池化层和全连接层。6.根据权利要求1所述的方法，其特征在于，所述多个音频特征包括梅尔频率倒谱系数、Gammatone滤波器倒谱系数、线性判别倒谱系数中的至少两种。7.根据权利要求1所述的方法，其特征在于，所述方法还包括，将所述多个音频特征中的一个音频特征和所述情绪特征并行输入第二卷积神经网络训练；设置所述卷积神经网络和所述第二卷积神经网络的权重，并根据所述权重的自适应训练...

【专利技术属性】
技术研发人员：黄子龙，范会善，王炼，余学武，周永吉，章铃娜，姜京京，赵新阳，贺文明，
申请(专利权)人：建信金融科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人