情感识别模型的训练方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:26344862 阅读:15 留言:0更新日期:2020-11-13 21:03
本申请提供了一种情感识别模型的训练方法、装置、计算机设备和存储介质,该方法包括:获取通过源模型生成的源音频的源音频特征;源模型,是根据携带情感类别标注的第一领域下的所述源音频,训练得到的情感识别模型;在每轮迭代训练中,通过当前的目标特征提取网络,生成目标音频的目标音频特征;目标音频是未携带情感类别标注的第二领域下的音频;将目标音频特征和源音频特征输入至当前的对抗网络,得到对抗损失;所述对抗网络,用于区分所述目标音频特征和所述源音频特征所属的音频源;根据所述对抗损失对所述对抗网络和目标特征提取网络进行训练;根据迭代停止时的目标特征提取网络,确定目标情感识别模型。本方案能够节省人工标注成本。

【技术实现步骤摘要】
情感识别模型的训练方法、装置、计算机设备和存储介质
本申请涉及语音处理
和机器学习
,特别是涉及一种情感识别模型的训练方法、装置、计算机设备和存储介质。
技术介绍
随着语音处理技术的发展,出现了情感识别技术。情感识别技术,即指通过计算机算法从音视频中自动分析说话人的情感状态(如:积极,消极,喜悦,愤怒等)。情感识别技术在多个领域有着重要应用。例如,电话客服场景中的客户满意度评估及坐席服务态度评估,或者,视频中任务角色的情感表达统计等场景中都会使用到情感识别技术。目前大多通过机器学习,训练情感识别模型来进行情感识别。传统方法中,在训练适用于某一领域下的情感识别模型时,是通过人工手动针对音频文件添加大量的标注,然后基于标注后的音频文件进行机器学习训练。然而,人工手动添加大量标注会导致很高的成本。因此,传统方法成本过高是亟待解决的问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够节省成本的情感识别模型的训练方法、装置、计算机设备和存储介质。一种情感识别模型的训练方法,包括:获取通过源模型生成的源音频的源音频特征;源模型,是根据携带情感类别标注的第一领域下的源音频,训练得到的情感识别模型;在每轮迭代训练中,通过当前的目标特征提取网络,生成目标音频的目标音频特征;目标音频是未携带情感类别标注的第二领域下的音频;将目标音频特征和源音频特征输入至当前的对抗网络,得到对抗损失;对抗网络,用于区分目标音频特征和源音频特征所属的音频源;根据对抗损失对对抗网络和目标特征提取网络进行训练;根据迭代停止时的目标特征提取网络,确定目标情感识别模型。在其中一个实施例中,源模型包括源特征提取网络和情感分类器;源音频特征,是通过源特征提取网络生成得到的;目标特征提取网络与源特征提取网络的网络结构一致,且首轮迭代训练前的目标特征提取网络的参数,与源特征提取网络的参数一致;根据迭代停止时的目标特征提取网络,确定目标情感识别模型包括:根据情感分类器和迭代停止时的目标特征提取网络,得到目标情感识别模型。在其中一个实施例中,获取通过源模型生成的源音频特征包括:获取源音频的源初级特征;将源初级特征输入至源特征提取网络进行特征提取处理,生成源音频特征;通过当前的目标特征提取网络,生成目标音频的目标音频特征包括:获取目标音频的目标初级特征;将目标初级特征输入至当前的目标特征提取网络进行特征提取处理,生成目标音频特征。在其中一个实施例中,还包括:按照预设分帧长度和预设窗口滑动步长,从源音频或目标音频中,提取预设数量的源音频帧或目标音频帧;对各源音频帧或目标音频帧进行初级特征提取处理,得到源音频帧的第一初级特征或目标音频帧的第二初级特征;根据各源音频帧的第一初级特征和源音频帧所对应的时间,生成二维特征矩阵作为源音频的源初级特征;或,根据各目标音频帧的第二初级特征和目标音频帧所对应的时间,生成二维特征矩阵作为目标音频的目标初级特征。在其中一个实施例中,在按照预设分帧长度和预设窗口滑动步长,从源音频或目标音频中,提取预设数量的源音频帧或目标音频帧之前,方法还包括:获取原始目标音频或原始源音频;对原始目标音频或原始源音频进行预处理,得到初始目标音频或初始源音频;按照预设采样率,对初始目标音频或初始源音频进行采样处理,得到目标音频或源音频。在其中一个实施例中,源特征提取网络为具有预设数量个卷积层的二维卷积神经网络;源音频特征为一维的源音频特征向量;将源初级特征输入至源特征提取网络进行特征提取处理,生成源音频特征包括:将源初级特征输入至源特征提取网络中进行卷积处理,并将由源特征提取网络中的前一卷积层进行卷积处理所提取的音频特征,输入至后一卷积层中进行卷积处理;将最后一层卷积层输出的音频特征进行平整化处理,生成一维的源音频特征向量。在其中一个实施例中,根据对抗损失对对抗网络和目标特征提取网络进行训练,包括:当针对对抗网络进行训练时,根据对抗损失调整对抗网络的参数,并保持当前的目标特征提取网络的参数不变;当针对目标特征提取网络进行训练时,根据对抗损失调整目标特征提取网络的参数,并保持当前的对抗网络的参数不变。在其中一个实施例中,源模型通过源模型训练步骤得到,源模型训练步骤包括:获取训练集;训练集中包括携带情感类别标注的源音频;在源模型的每轮迭代训练中,对源音频进行初级特征提取处理,并将提取的源初级特征输入至待训练的源特征提取网络中,输出源音频特征;将输出的源音频特征输入至待训练的情感分类器,输出情感类别预测结果;根据情感类别预测结果和情感类别标注之间的差异,确定损失值,并根据损失值调整源特征提取网络和情感分类器的参数;根据迭代停止时的源特征提取网络和情感分类器,得到最终的源模型。在其中一个实施例中,目标情感识别模型包括目标特征提取网络和与源模型共用的情感分类器。该方法还包括:对待识别音频进行初级特征提取处理;将提取的待识别音频的初级特征,输入至目标情感识别模型中的目标特征提取网络中进行特征提取,得到待识别音频的音频特征;将待识别音频的音频特征输入至情感分类器中,得到待识别音频所对应的情感类别。一种情感识别模型的训练装置,包括:获取模块,用于获取通过源模型生成的源音频的源音频特征;源模型,是预先根据携带情感类别标注的第一领域下的源音频,训练得到的情感识别模型;训练模块,用于在每轮迭代训练中,通过当前的目标特征提取网络,生成目标音频的目标音频特征;目标音频是未携带情感类别标注的第二领域下的音频;将目标音频特征和源音频特征输入至当前的对抗网络,得到对抗损失;对抗网络,用于区分目标音频特征和源音频特征所属的音频源;根据对抗损失对对抗网络和目标特征提取网络进行训练;模型确定模块,用于根据迭代停止时的目标特征提取网络,确定目标情感识别模型。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请各实施例中所述的情感识别模型的训练方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请各实施例中所述的情感识别模型的训练方法的步骤。上述情感识别模型的训练方法、装置、计算机设备和存储介质,在迭代训练第二领域下的目标特征提取网络时,将第一领域下已根据标注的源音频训练的源模型生成的源音频特征、以及当前的目标特征提取网络对未携带标注的目标音频提取的目标音频特征,输入至当前的用于区分目标音频特征和源音频特征所属音频源的对抗网络,得到对抗损失;根据对抗损失对对抗网络和目标特征提取网络进行训练,从而得到第二领域下的目标情感识别模型。即,不需要对第二领域下的目标音频进行情感类别标注,通过使用第一领域下根据标注数据训练的源模型进行本文档来自技高网...

【技术保护点】
1.一种情感识别模型的训练方法,其特征在于,所述方法包括:/n获取通过源模型生成的源音频的源音频特征;所述源模型,是根据携带情感类别标注的第一领域下的所述源音频,训练得到的情感识别模型;/n在每轮迭代训练中,通过当前的目标特征提取网络,生成目标音频的目标音频特征;所述目标音频是未携带情感类别标注的第二领域下的音频;/n将所述目标音频特征和源音频特征输入至当前的对抗网络,得到对抗损失;所述对抗网络,用于区分所述目标音频特征和所述源音频特征所属的音频源;/n根据所述对抗损失对所述对抗网络和目标特征提取网络进行训练;/n根据迭代停止时的目标特征提取网络,确定目标情感识别模型。/n

【技术特征摘要】
1.一种情感识别模型的训练方法,其特征在于,所述方法包括:
获取通过源模型生成的源音频的源音频特征;所述源模型,是根据携带情感类别标注的第一领域下的所述源音频,训练得到的情感识别模型;
在每轮迭代训练中,通过当前的目标特征提取网络,生成目标音频的目标音频特征;所述目标音频是未携带情感类别标注的第二领域下的音频;
将所述目标音频特征和源音频特征输入至当前的对抗网络,得到对抗损失;所述对抗网络,用于区分所述目标音频特征和所述源音频特征所属的音频源;
根据所述对抗损失对所述对抗网络和目标特征提取网络进行训练;
根据迭代停止时的目标特征提取网络,确定目标情感识别模型。


2.根据权利要求1所述的方法,其特征在于,所述源模型包括源特征提取网络和情感分类器;所述源音频特征,是通过所述源特征提取网络生成得到的;
所述目标特征提取网络与所述源特征提取网络的网络结构一致,且首轮迭代训练前的目标特征提取网络的参数,与所述源特征提取网络的参数一致;
所述根据迭代停止时的目标特征提取网络,确定目标情感识别模型包括:
根据所述情感分类器和迭代停止时的目标特征提取网络,得到目标情感识别模型。


3.根据权利要求2所述的方法,其特征在于,所述获取通过源模型生成的源音频特征包括:
获取源音频的源初级特征;
将所述源初级特征输入至所述源特征提取网络进行特征提取处理,生成源音频特征;
所述通过当前的目标特征提取网络,生成目标音频的目标音频特征包括:
获取目标音频的目标初级特征;
将所述目标初级特征输入至当前的目标特征提取网络进行特征提取处理,生成目标音频特征。


4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
按照预设分帧长度和预设窗口滑动步长,从所述源音频或所述目标音频中,提取预设数量的源音频帧或目标音频帧;
对各所述源音频帧或目标音频帧进行初级特征提取处理,得到所述源音频帧的第一初级特征或所述目标音频帧的第二初级特征;
根据各所述源音频帧的所述第一初级特征和所述源音频帧所对应的时间,生成二维特征矩阵作为所述源音频的源初级特征;或,根据各所述目标音频帧的所述第二初级特征和所述目标音频帧所对应的时间,生成二维特征矩阵作为所述目标音频的目标初级特征。


5.根据权利要求4所述的方法,其特征在于,在所述按照预设分帧长度和预设窗口滑动步长,从所述源音频或所述目标音频中,提取预设数量的源音频帧或目标音频帧之前,所述方法还包括:
获取原始目标音频或原始源音频;
对所述原始目标音频或所述原始源音频进行预处理,得到初始目标音频或初始源音频;
按照预设采样率,对所述初始目标音频或初始源音频进行采样处理,得到目标音频或源音频。


6.根据权利要求3所述的方法,其特征在于,所述源特征提取网络为具有预设数量个卷积层的二维卷积神经网络;所述源音频特征为一维的源音频特征向量;
所述将所述源初级特征输入至所述源特征提取网络进行特征提取处理,生成源音频特征包括:
将所述源初级特征输入至所述源特征提取网络中进行卷积处理,并将由所述源特征提取网络中的前一卷积层进行卷积处理所提取的音频特征,输入至后一卷积层中进行卷积处理;
将最后一层卷积层输出的音频特征进行平整化处理,生成一维的源音频特征向量。


7.根据权利要求2所述的方法,其特征在于,所述根据所述对抗损失对所述对抗网络和目标特征提取网络进行训练,包括:
当针对对抗网络进行训练时,根据所述对抗损失调整所述对抗网络的参数,并保持所述当前的目标特征提取网络的参数不变;
当针对目标特征提取网络进行训练时,根据所述对抗损失调整所述目标特征提取网络的参数,并保持所述当前的对抗网络的参数不...

【专利技术属性】
技术研发人员:陆昱彭子轩刘云峰
申请(专利权)人:深圳追一科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1