语音分离方法、装置及存储介质制造方法及图纸

技术编号：36573493 阅读：17 留言：0更新日期：2023-02-04 17:31

本申请公开了一种语音分离方法、装置及存储介质，该方法包括：获取第一语谱图和多个第二语谱图，第一语谱图为原始语音信号的语谱图，多个第二语谱图为从原始语音信号中分离出来的多个原分离语音信号的语谱图；利用校正模型基于第一语谱图对多个第二语谱图的原相位和原幅度进行校正，得到多个第二语谱图对应的校正相位和校正幅度，其中校正模型包括二维卷积模块；根据多个第二语谱图的原相位和原幅度以及对应的校正相位和校正幅度，得到多个校正后的第二语谱图；根据多个校正后的第二语谱图，得到多个校正的分离语音信号。通过这种方式，本申请能够减小分离语音信号与真实的分离源语音信号的差别。源语音信号的差别。源语音信号的差别。

全部详细技术资料下载

【技术实现步骤摘要】
语音分离方法、装置及存储介质

[0001]本申请涉及计算机
，尤其涉及一种语音分离方法、语音分离装置及存储介质。

技术介绍

[0002]语音分离的目的是从混合语音中分离每个说话人的源信号。近年来，基于深度学习的方法在语音分离领域取得令人瞩目的成就。目前主流语音分离的方法是基于时域模型的方法，时域模型的输入是语音的波形，通过神经网络预测得到分离源的波形。但是基于时域模型预测得到的分离语音信号的语谱图经常出现一些明显的幅度和相位的错误，使分离语音信号与真实的分离源语音信号差别很大。

技术实现思路

[0003]基于此，本申请实施例提供一种语音分离方法、语音分离装置及存储介质，能够减小分离语音信号与真实的分离源语音信号的差别。
[0004]第一方面，本申请提供一种语音分离方法，所述方法包括：获取第一语谱图和多个第二语谱图，所述第一语谱图为原始语音信号的语谱图，多个所述第二语谱图为从所述原始语音信号中分离出来的多个原分离语音信号的语谱图；利用校正模型基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正，得到多个所述第二语谱图对应的校正相位和校正幅度，其中所述校正模型包括二维卷积模块；根据多个所述第二语谱图的原相位和原幅度以及对应的校正相位和校正幅度，得到多个校正后的第二语谱图；根据多个所述校正后的第二语谱图，得到多个校正的分离语音信号。
[0005]第二方面，本申请提供一种语音分离装置，所述装置包括存储器以及处理器；所述存储器用于存储计算机程序；所述处理器用于执行所述计算机程序并...

【技术保护点】

【技术特征摘要】
1.一种语音分离方法，其特征在于，所述方法包括：获取第一语谱图和多个第二语谱图，所述第一语谱图为原始语音信号的语谱图，多个所述第二语谱图为从所述原始语音信号中分离出来的多个原分离语音信号的语谱图；利用校正模型基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正，得到多个所述第二语谱图对应的校正相位和校正幅度，其中所述校正模型包括二维卷积模块；根据多个所述第二语谱图的原相位和原幅度以及对应的校正相位和校正幅度，得到多个校正后的第二语谱图；根据多个所述校正后的第二语谱图，得到多个校正的分离语音信号。2.根据权利要求1所述的方法，其特征在于，所述校正模型还包括时域频域校正模块，所述时域频域校正模块用于确定所述第二语谱图的时间方向和频率方向的依赖关系；所述利用校正模型基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正，得到多个所述第二语谱图对应的校正相位和校正幅度，包括：利用所述二维卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正，得到多个所述第二语谱图对应的校正相位和校正幅度。3.根据权利要求2所述的方法，其特征在于，所述校正模型还包括密集连接扩张卷积模块；所述利用所述二维卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正，得到多个所述第二语谱图对应的校正相位和校正幅度，包括：利用所述二维卷积模块、所述密集连接扩张卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正，得到多个所述第二语谱图对应的校正相位和校正幅度。4.根据权利要求3所述的方法，其特征在于，所述二维卷积模块包括第一二维卷积模块和第二二维卷积模块，所述密集连接扩张卷积模块包括第一密集连接扩张卷积模块和第二密集连接扩张卷积模块，所述第一密集连接扩张卷积模块和所述第二密集连接扩张卷积模块均包括四个二维扩张卷积子模块；所述利用所述二维卷积模块、所述密集连接扩张卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正，得到多个所述第二语谱图对应的校正相位和校正幅度，包括：将所述第一语谱图、多个所述第二语谱图进行拼接，得到拼接语谱图；将所述拼接语谱图输入所述第一二维卷积模块；将所述第一二维卷积模块的输出结果输入所述第一密集连接扩张卷积模块；将所述第一密集连接扩张卷积模块的输出结果输入所述时域频域校正模块；将所述时域频域校正模块的输出结果输入所述第二密集连接扩张卷积模块；将所述第二密集连接扩张卷积模块的输出结果输入所述第二二维卷积模块；根据所述第二二维卷积模块的输出结果，得到多个所述第二语谱图对应的校正相位和校正幅度。
5.根据权利要求4所述的方法，其特征在于，所述时域频域校正模块包括第一结构重塑子模块、双向长短期记忆子模块、第二结构重塑子模块、多头自注意力子模块以及第三结构重塑子模块；所述将所述第一密集连接扩张卷积模块的输出结果输入所述时域频域校正模块，包括：将所述第一密集连接扩张卷积模块的输出结果输入所述第一结构重塑子模块，以对所述第一密集连接扩张卷积模块的输出结果进行第一结构重塑；将所述第一结构重塑子模块的输出结果输入所述双向长短期记忆子模块；将所述双向长短期记忆子模块的输出结果输入所述第二结构重塑子模块，以对所述双向长短期记忆子模块的输出结果进行第二结构重塑；将所述第二结构重塑子模块的输出结果输入所述多头自注意力子模块；将所述多头自注意力子模块的输出结果输入所述第三结构重塑子模块，以对所述多头自注意力子模块的输出结果进行第三结构重塑；所述将所述时域频域校...

【专利技术属性】
技术研发人员：康世胤，吴志勇，童玮男，朱佳旭，陈鋆，
申请(专利权)人：清华大学深圳国际研究生院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人