情感识别模型的训练方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：26344862 阅读：15 留言：0更新日期：2020-11-13 21:03

本申请提供了一种情感识别模型的训练方法、装置、计算机设备和存储介质，该方法包括：获取通过源模型生成的源音频的源音频特征；源模型，是根据携带情感类别标注的第一领域下的所述源音频，训练得到的情感识别模型；在每轮迭代训练中，通过当前的目标特征提取网络，生成目标音频的目标音频特征；目标音频是未携带情感类别标注的第二领域下的音频；将目标音频特征和源音频特征输入至当前的对抗网络，得到对抗损失；所述对抗网络，用于区分所述目标音频特征和所述源音频特征所属的音频源；根据所述对抗损失对所述对抗网络和目标特征提取网络进行训练；根据迭代停止时的目标特征提取网络，确定目标情感识别模型。本方案能够节省人工标注成本。

全部详细技术资料下载

【技术实现步骤摘要】
情感识别模型的训练方法、装置、计算机设备和存储介质
本申请涉及语音处理
和机器学习
，特别是涉及一种情感识别模型的训练方法、装置、计算机设备和存储介质。
技术介绍
随着语音处理技术的发展，出现了情感识别技术。情感识别技术，即指通过计算机算法从音视频中自动分析说话人的情感状态(如：积极,消极,喜悦,愤怒等)。情感识别技术在多个领域有着重要应用。例如，电话客服场景中的客户满意度评估及坐席服务态度评估,或者，视频中任务角色的情感表达统计等场景中都会使用到情感识别技术。目前大多通过机器学习，训练情感识别模型来进行情感识别。传统方法中，在训练适用于某一领域下的情感识别模型时，是通过人工手动针对音频文件添加大量的标注，然后基于标注后的音频文件进行机器学习训练。然而，人工手动添加大量标注会导致很高的成本。因此，传统方法成本过高是亟待解决的问题。
技术实现思路
基于此，有必要针对上述技术问题，提供一种能够节省成本的情感识别模型的训练方法、装置、计算机设备和存储介质。一种情感识别模型的训练方法，包括：获取通过源模型生成的源音频的源音频特征；源模型，是根据携带情感类别标注的第一领域下的源音频，训练得到的情感识别模型；在每轮迭代训练中，通过当前的目标特征提取网络，生成目标音频的目标音频特征；目标音频是未携带情感类别标注的第二领域下的音频；将目标音频特征和源音频特征输入至当前的对抗网络，得到对抗损失；对抗网络，用于区分目标音频特征和源音频特征所属的音频源；根据对...

【技术保护点】
1.一种情感识别模型的训练方法，其特征在于，所述方法包括：/n获取通过源模型生成的源音频的源音频特征；所述源模型，是根据携带情感类别标注的第一领域下的所述源音频，训练得到的情感识别模型；/n在每轮迭代训练中，通过当前的目标特征提取网络，生成目标音频的目标音频特征；所述目标音频是未携带情感类别标注的第二领域下的音频；/n将所述目标音频特征和源音频特征输入至当前的对抗网络，得到对抗损失；所述对抗网络，用于区分所述目标音频特征和所述源音频特征所属的音频源；/n根据所述对抗损失对所述对抗网络和目标特征提取网络进行训练；/n根据迭代停止时的目标特征提取网络，确定目标情感识别模型。/n

【技术特征摘要】
1.一种情感识别模型的训练方法，其特征在于，所述方法包括：
获取通过源模型生成的源音频的源音频特征；所述源模型，是根据携带情感类别标注的第一领域下的所述源音频，训练得到的情感识别模型；
在每轮迭代训练中，通过当前的目标特征提取网络，生成目标音频的目标音频特征；所述目标音频是未携带情感类别标注的第二领域下的音频；
将所述目标音频特征和源音频特征输入至当前的对抗网络，得到对抗损失；所述对抗网络，用于区分所述目标音频特征和所述源音频特征所属的音频源；
根据所述对抗损失对所述对抗网络和目标特征提取网络进行训练；
根据迭代停止时的目标特征提取网络，确定目标情感识别模型。

2.根据权利要求1所述的方法，其特征在于，所述源模型包括源特征提取网络和情感分类器；所述源音频特征，是通过所述源特征提取网络生成得到的；
所述目标特征提取网络与所述源特征提取网络的网络结构一致，且首轮迭代训练前的目标特征提取网络的参数，与所述源特征提取网络的参数一致；
所述根据迭代停止时的目标特征提取网络，确定目标情感识别模型包括：
根据所述情感分类器和迭代停止时的目标特征提取网络，得到目标情感识别模型。

3.根据权利要求2所述的方法，其特征在于，所述获取通过源模型生成的源音频特征包括：
获取源音频的源初级特征；
将所述源初级特征输入至所述源特征提取网络进行特征提取处理，生成源音频特征；
所述通过当前的目标特征提取网络，生成目标音频的目标音频特征包括：
获取目标音频的目标初级特征；
将所述目标初级特征输入至当前的目标特征提取网络进行特征提取处理，生成目标音频特征。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：
按照预设分帧长度和预设窗口滑动步长，从所述源音频或所述目标音频中，提取预设数量的源音频帧或目标音频帧；
对各所述源音频帧或目标音频帧进行初级特征提取处理，得到所述源音频帧的第一初级特征或所述目标音频帧的第二初级特征；
根据各所述源音频帧的所述第一初级特征和所述源音频帧所对应的时间，生成二维特征矩阵作为所述源音频的源初级特征；或，根据各所述目标音频帧的所述第二初级特征和所述目标音频帧所对应的时间，生成二维特征矩阵作为所述目标音频的目标初级特征。

5.根据权利要求4所述的方法，其特征在于，在所述按照预设分帧长度和预设窗口滑动步长，从所述源音频或所述目标音频中，提取预设数量的源音频帧或目标音频帧之前，所述方法还包括：
获取原始目标音频或原始源音频；
对所述原始目标音频或所述原始源音频进行预处理，得到初始目标音频或初始源音频；
按照预设采样率，对所述初始目标音频或初始源音频进行采样处理，得到目标音频或源音频。

6.根据权利要求3所述的方法，其特征在于，所述源特征提取网络为具有预设数量个卷积层的二维卷积神经网络；所述源音频特征为一维的源音频特征向量；
所述将所述源初级特征输入至所述源特征提取网络进行特征提取处理，生成源音频特征包括：
将所述源初级特征输入至所述源特征提取网络中进行卷积处理，并将由所述源特征提取网络中的前一卷积层进行卷积处理所提取的音频特征，输入至后一卷积层中进行卷积处理；
将最后一层卷积层输出的音频特征进行平整化处理，生成一维的源音频特征向量。

7.根据权利要求2所述的方法，其特征在于，所述根据所述对抗损失对所述对抗网络和目标特征提取网络进行训练，包括：
当针对对抗网络进行训练时，根据所述对抗损失调整所述对抗网络的参数，并保持所述当前的目标特征提取网络的参数不变；
当针对目标特征提取网络进行训练时，根据所述对抗损失调整所述目标特征提取网络的参数，并保持所述当前的对抗网络的参数不...

【专利技术属性】
技术研发人员：陆昱，彭子轩，刘云峰，
申请(专利权)人：深圳追一科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人