一种提高收敛速度和处理性能的模型压缩方法和系统技术方案

技术编号:24582836 阅读:19 留言:0更新日期:2020-06-21 01:21
本发明专利技术提出了一种提高收敛速度和处理性能的模型压缩方法和系统,属于语音降噪处理技术领域。所述模型压缩方法的Teacher模型训练阶段、模型参数迁移及Student模型训练阶段和测试阶段;所述模型压缩系统包括Teacher模型训练模块、Student模型训练模块和模型测试模块。

A method and system of model compression to improve convergence rate and processing performance

【技术实现步骤摘要】
一种提高收敛速度和处理性能的模型压缩方法和系统
本专利技术提出了一种提高收敛速度和处理性能的模型压缩方法和系统,属于语音降噪处理

技术介绍
语音降噪是将混合语音中的噪声和人声分离出来,在尽可能完整保留人声部分的同时尽可能多的去除噪声部分。这可以有效提高语音通信或语音交互的质量,使人或机器在嘈杂的环境下也能听到清晰、干净的语音。随着基于深度学习的降噪方法在移动设备上的全面应用,降低模型的参数量的任务也越来越重要。传统的降噪方法在非平稳噪声环境下很难取得很好的效果,尤其对于瞬态的噪声更是无能为力,当前基于深度学习技术的降噪方法可以有效的去除快变的噪声,取得更好的语音降噪效果,而目前主流的基于深度学习技术的降噪方法表现良好,但模型参数量比较大,且会有冗余,对计算资源的消耗比较严重。在移动设备上运行时,对功耗的要求就比较苛刻,所以在保证降噪性能几乎不变的前提下,模型压缩变的尤为重要。随着模型参数量的减小,如果重新训练模型,由于参数初始化的问题,模型的性能或许会有较大的性能损失,且训练时的收敛速度比较慢,模型压缩、调优的时间代价比较大。
技术实现思路
本专利技术提供了一种提高收敛速度和处理性能的模型压缩方法和系统,用以解决现有的主模型训练过程中,模型压缩直接训练后的训练效果不稳定且模型训练收敛速度慢的问题,所采取的技术方案如下:一种提高收敛速度和处理性能的模型压缩方法,所述模型压缩方法的过程包括:步骤1、利用带噪语音mix作为语音训练数据,结合带噪语音mix的实际掩膜mask_r对Teacher模型进行训练,获得训练收敛后的Teacher模型;步骤2、对Student模型中的模型参数进行参数量压缩,并利用训练收敛后的Teacher模型参数对压缩后的Student模型进行初始化,并结合带噪语音mix的实际掩膜mask_r对Student模型进行指导训练,获得训练收敛后的Student模型;步骤3、利用带噪的测试语音对训练收敛后的Student模型进行测试,并获得训练收敛后Student模型的测试数据。进一步地,步骤1所述获得训练收敛后的Teacher模型的过程包括:步骤101、选取带噪语音mix作为Teacher模型训练阶段的语音训练数据,对所述带噪语音mix进行特征提取,获取所述带噪语音mix的语音特征;步骤102、将所述带噪语音mix和带噪语音对应的纯净语音进行计算,获得带噪语音mix的实际掩膜mask_r;步骤103、将步骤101获得的带噪语音mix的语音特征和步骤102获得的实际掩膜mask_r分别输入到Teacher模型中,Teacher模型通过所述带噪语音mix的特征和实际掩膜mask_r对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第一次估计掩膜mask;步骤104、将步骤103获得的第一次估计掩膜mask和步骤102获得的实际掩膜mask_r进行比较,计算获取掩膜第一误差值e1;步骤105、将步骤104获得的掩膜误差值e1输入到Teacher模型中,所述Teacher模型根据掩膜第一误差值e1对所述带噪语音mix的特征和实际掩膜mask_r的数据处理过程进行参数调整,使第一次估计掩膜mask无限趋近于实际掩膜mask_r;步骤106、通过掩膜第一误差值e1和实际掩膜mask_r对Teacher模型进行不断训练使其收敛,待Teacher模型训练收敛后,保存收敛后的Teacher模型以备后用。进一步地,步骤2所述获得训练收敛后的Student模型的过程包括:步骤201、建立一个Student模型,所述Student模型的架构与Teacher模型相同,但是Student模型中每个隐含层内的节点数量比Teacher模型中每个隐含层的节点数量少;然后将训练收敛后的Teacher模型中的部分参数迁移至Student模型中,利用所述Teacher模型参数对压缩后的Student模型进行初始化;步骤202、将所述带噪语音mix进行特征提取后获得的语音特征输入至完成初始化的Student模型中;Student模型通过所述带噪语音mix的语音特征和训练收敛后的Teacher模型参数对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第二次估计掩膜mask_s;步骤203、将步骤202获得的第二次估计掩膜mask_s与所述带噪语音mix的实际掩膜mask_r进行比较,计算获得掩膜第二误差值e2;步骤204、将步骤203获得的掩膜第二误差值e2输入至Student模型中,所述Student模型根据掩膜第二误差值e2对所述带噪语音mix的语音特征和训练收敛后的Teacher模型参数的数据处理过程进行参数调整,使第二次估计掩膜mask_s无限趋近于实际掩膜mask_r;步骤205、通过掩膜第二误差值e2和实际掩膜mask_r对Student模型进行不断训练使其收敛,待Student模型训练收敛后,保存训练收敛后的Student模型。进一步地,步骤3所述对训练收敛后的Student模型进行测试的过程包括:步骤301、对带噪的测试语音进行特征提取,获取所述测试语音的语音特征;将所述测试语音的语音特征输入至训练收敛后的Student模型;步骤302、所述训练收敛后的Student模型根据测试语音的语音特征对测试语音的掩膜进行预测,获得与所述测试语音的语音特征对应的测试语音掩膜mask_c;步骤303、对所述测试语音进行短时傅里叶变换(STFT),获得所述测试语音的频谱;步骤304、将步骤302获得的测试语音掩膜mask_c与步骤303获得的测试语音的频谱进行乘积运算,并将乘积结果进行逆短时傅立叶变换(ISTFT)获得测试语音降噪处理后的增强语音,完成训练收敛后的Student模型的测试;所述增强语音体现的语音质量数据即为所述练收敛后Student模型的测试数据。一种提高收敛速度和处理性能的模型压缩方法对应的模型压缩系统,所述模型压缩系统包括:Teacher模型训练模块,用于利用带噪语音mix作为语音训练数据,结合带噪语音mix的实际掩膜mask_r对Teacher模型进行训练,获得训练收敛后的Teacher模型;Student模型训练模块,用于利用训练收敛后的Teacher模型参数对压缩后的Student模型进行初始化,并结合带噪语音mix的实际掩膜mask_r对Student模型进行指导训练,获得训练收敛后的Student模型;模型测试模块,用于利用带噪的测试语音对训练收敛后的Student模型进行测试,并获得训练收敛后Student模型的测试数据。进一步地,所述Teacher模型训练模块包括:特征提取模块,用于对所述带噪语音mix进行特征提取获取所述带噪语音mix的语音特征;实际掩膜获取模块,用于将所述带噪语音mix和带噪语音对应的纯净语音进行计算,获得带噪语音mix的实际掩膜mask_r;...

【技术保护点】
1.一种提高收敛速度和处理性能的模型压缩方法,其特征在于,所述模型压缩方法的过程包括:/n步骤1、利用带噪语音mix作为语音训练数据,结合带噪语音mix的实际掩膜mask_r对Teacher模型进行训练,获得训练收敛后的Teacher模型;/n步骤2、对Student模型中的模型参数进行参数量压缩,并利用训练收敛后的Teacher模型参数对压缩后的Student模型进行初始化,并结合带噪语音mix的实际掩膜mask_r对Student模型进行指导训练,获得训练收敛后的Student模型;/n步骤3、利用带噪的测试语音对训练收敛后的Student模型进行测试,并获得训练收敛后Student模型的测试数据。/n

【技术特征摘要】
1.一种提高收敛速度和处理性能的模型压缩方法,其特征在于,所述模型压缩方法的过程包括:
步骤1、利用带噪语音mix作为语音训练数据,结合带噪语音mix的实际掩膜mask_r对Teacher模型进行训练,获得训练收敛后的Teacher模型;
步骤2、对Student模型中的模型参数进行参数量压缩,并利用训练收敛后的Teacher模型参数对压缩后的Student模型进行初始化,并结合带噪语音mix的实际掩膜mask_r对Student模型进行指导训练,获得训练收敛后的Student模型;
步骤3、利用带噪的测试语音对训练收敛后的Student模型进行测试,并获得训练收敛后Student模型的测试数据。


2.根据权利要求1所述模型压缩方法,其特征在于,步骤1所述获得训练收敛后的Teacher模型的过程包括:
步骤101、选取带噪语音mix作为Teacher模型训练阶段的语音训练数据,对所述带噪语音mix进行特征提取,获取所述带噪语音mix的语音特征;
步骤102、将所述带噪语音mix和带噪语音对应的纯净语音进行计算,获得带噪语音mix的实际掩膜mask_r;
步骤103、将步骤101获得的带噪语音mix的语音特征和步骤102获得的实际掩膜mask_r分别输入到Teacher模型中,Teacher模型通过所述带噪语音mix的特征和实际掩膜mask_r对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第一次估计掩膜mask;
步骤104、将步骤103获得的第一次估计掩膜mask和步骤102获得的实际掩膜mask_r进行比较,计算获取掩膜第一误差值e1;
步骤105、将步骤104获得的掩膜误差值e1输入到Teacher模型中,所述Teacher模型根据掩膜第一误差值e1对所述带噪语音mix的特征和实际掩膜mask_r的数据处理过程进行参数调整,使第一次估计掩膜mask无限趋近于实际掩膜mask_r;
步骤106、通过掩膜第一误差值e1和实际掩膜mask_r对Teacher模型进行不断训练使其收敛,待Teacher模型训练收敛后,保存收敛后的Teacher模型以备后用。


3.根据权利要求1所述模型压缩方法,其特征在于,步骤2所述获得训练收敛后的Student模型的过程包括:
步骤201、建立一个Student模型,所述Student模型的架构与Teacher模型相同,但是Student模型中每个隐含层内的节点数量比Teacher模型中每个隐含层的节点数量少;然后将训练收敛后的Teacher模型中的部分参数迁移至Student模型中,利用所述Teacher模型参数对压缩后的Student模型进行初始化;
步骤202、将所述带噪语音mix进行特征提取后获得的语音特征输入至完成初始化的Student模型中;Student模型通过所述带噪语音mix的语音特征和训练收敛后的Teacher模型参数对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第二次估计掩膜mask_s;
步骤203、将步骤202获得的第二次估计掩膜mask_s与所述带噪语音mix的实际掩膜mask_r进行比较,计算获得掩膜第二误差值e2;
步骤204、将步骤203获得的掩膜第二误差值e2输入至Student模型中,所述Student模型根据掩膜第二误差值e2对所述带噪语音mix的语音特征和训练收敛后的Teacher模型参数的数据处理过程进行参数调整,使第二次估计掩膜mask_s无限趋近于实际掩膜mask_r;
步骤205、通过掩膜第二误差值e2和实际掩膜mask_r对Student模型进行不断训练使其收敛,待Student模型训练收敛后,保存训练收敛后的Student模型。


4.根据权利要求1所述模型压缩方法,其特征在于,步骤3所述对训练收敛后的Student模型进行测试的过程包括:
步骤301、对带噪的测试语音进行特征提取,获取所述测试语音的语音特征;将所述测试语音的语音特征输入至训练收敛后的Student模型;
步骤302、所述训练收敛后的Student模型根据测试语音的语音特征对测试语音的掩膜进行预测,获得与所述测试语音的语音特征对应的测试语音掩膜mask_c;
步骤303、对所述测试语音进行短时傅里叶变换,获得所述测试语音的频谱;
步骤304、将步骤302获得的测试语音掩膜mask_c与步骤303获得的测试语音的频谱进行乘积运算,并将乘积结果进行逆短时傅立叶变换获得测试语...

【专利技术属性】
技术研发人员:李庆龙
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1