【技术实现步骤摘要】
语音处理模型的训练方法和装置以及语音处理方法和装置
[0001]本公开涉及音频
,更具体地说,涉及一种语音处理模型的训练方法和装置以及语音处理方法和装置。
技术介绍
[0002]近几年,基于深度神经网络的语音增强方法已经取得了非凡的发展,它的增强能力要大大超出传统的基于信号处理的语音增强方法,但所带来的代价是计算量的增加。尤其是将其部署到手机等移动端上时,由于部分手机的计算能力有限,不能承载如此大的计算量,无法应用于对语音信号的实时处理的场景,这成为阻碍其落地的一个重要因素。
技术实现思路
[0003]本公开提供一种语音处理模型的训练方法和装置以及语音处理方法和装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。
[0004]根据本公开实施例的第一方面,提供一种语音处理模型的训练方法,所述语音处理模型包括语音增强网络和掩膜比预测网络,所述训练方法包括:获取音频样本数据,其中,所述每个音频样本数据包括干净语音信号和含噪语音信号,所述含噪语音信号是通过将所述干净语音信号与噪声信号进行加性混合而获得的;对所述含噪语音信号的幅度谱执行跳帧抽取,得到第一语音帧序列;将第一语音帧序列输入所述语音增强网络,得到估计的与第一语音帧序列对应的掩膜比,其中,掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值;将估计的与第一语音帧序列对应的掩膜比输入所述掩膜比预测网络,得到估计的与第二语音帧序列对应的掩膜比,其中,第二语音帧序列包括所述含噪语音信号的幅度谱中未被抽取的帧;将估计的与第一语音帧序列 ...
【技术保护点】
【技术特征摘要】
1.一种语音处理模型的训练方法,其特征在于,所述语音处理模型包括语音增强网络和掩膜比预测网络,所述训练方法包括:获取音频样本数据,其中,所述每个音频样本数据包括干净语音信号和含噪语音信号,所述含噪语音信号是通过将所述干净语音信号与噪声信号进行加性混合而获得的;对所述含噪语音信号的幅度谱执行跳帧抽取,得到第一语音帧序列;将第一语音帧序列输入所述语音增强网络,得到估计的与第一语音帧序列对应的掩膜比,其中,掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值;将估计的与第一语音帧序列对应的掩膜比输入所述掩膜比预测网络,得到估计的与第二语音帧序列对应的掩膜比,其中,第二语音帧序列包括所述含噪语音信号的幅度谱中未被抽取的帧;将估计的与第一语音帧序列对应的掩膜比和估计的与第二语音帧序列对应的掩膜比融合,得到估计的完整掩膜比;根据所述估计的完整掩膜比和所述含噪语音信号的幅度谱,确定估计的增强语音信号的幅度谱,并根据所述估计的增强语音信号的幅度谱与所述干净语音信号的幅度谱确定所述语音处理模型的损失函数;通过根据所述损失函数调整所述语音增强网络和所述掩膜比预测网络的参数,对所述语音处理模型进行训练。2.如权利要求1所述的训练方法,其特征在于,所述对所述含噪语音信号的幅度谱执行跳帧抽取,得到第一语音帧序列,包括:每预定帧数从所述含噪语音信号的幅度谱抽取一帧;根据帧索引顺序,将抽取的帧重新组合成为第一语音帧序列。3.如权利要求2所述的训练方法,其特征在于,所述每预定帧数从所述含噪语音信号的幅度谱抽取一帧,包括:根据帧索引顺序,将所述含噪语音信号的幅度谱划分为多个帧组,其中,每个帧组包括所述预定帧数的帧;抽取所述多个帧组中的每个帧组的第一帧。4.如权利要求2所述的训练方法,其特征在于,所述预定帧数为2,第一语音帧序列包括奇数帧,第二语音帧序列包括偶数帧。5.一种语音处理方法,其特征在于,所述语音处理方法基于包括语音增强网络和掩膜比预测网络的语音处理模型执行,所述语音处理方法包括:获取待处理语音信号的当前语音帧;在所述待处理语音信号的当前语音帧属于第一语音帧的情况下,在第一模式下对当前语音帧执行处理,或者在所述待处理语音信号的当前语音帧属于第二语音帧的情况下,在第二模式下对当前语音帧执行处理,其中,第一语音帧包括通过对从所述待处理语音信号进行跳帧确定的帧,第二语音帧包括所述待处理语音信号中非第一语音帧的帧;输出处理后的当前语音帧;其中,所述在第一模式下对当前语音帧执行处理,包括:将当前语音帧的幅度谱输入所述语音增强网络,得到估计的与当前语音帧对应的掩膜比,其中,掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值;
将估计的与当前语音帧相应的掩膜比与当前语音帧的幅度谱相乘,再与当前语音帧的相位谱结合,得到处理后的当前语音帧;其中,所述在第二模式下对当前语音帧执行处理,包括:将当前语音帧的前一个第一语音帧在第一模式下得到的估计的掩膜比输入所述掩膜比预测网络,得到估计的与当前语音帧相应的掩膜比;将估计的与当前语音帧相应的掩膜比与当前语音帧的幅度谱相乘,再与当前语音帧的相位谱结合,得到处理后的当前语音帧。6.一种语音处理模型的训练装置,其特征在于,所述语音处理模型包括语音增强网络和掩膜比预测网络,所述训练装置包括:获取单元,被配置为:获取音频样本数据,其中,所述每个...
【专利技术属性】
技术研发人员:任新蕾,郑羲光,李楠,张晨,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。