语音分离方法、装置及存储介质制造方法及图纸

技术编号:36573493 阅读:17 留言:0更新日期:2023-02-04 17:31
本申请公开了一种语音分离方法、装置及存储介质,该方法包括:获取第一语谱图和多个第二语谱图,第一语谱图为原始语音信号的语谱图,多个第二语谱图为从原始语音信号中分离出来的多个原分离语音信号的语谱图;利用校正模型基于第一语谱图对多个第二语谱图的原相位和原幅度进行校正,得到多个第二语谱图对应的校正相位和校正幅度,其中校正模型包括二维卷积模块;根据多个第二语谱图的原相位和原幅度以及对应的校正相位和校正幅度,得到多个校正后的第二语谱图;根据多个校正后的第二语谱图,得到多个校正的分离语音信号。通过这种方式,本申请能够减小分离语音信号与真实的分离源语音信号的差别。源语音信号的差别。源语音信号的差别。

【技术实现步骤摘要】
语音分离方法、装置及存储介质


[0001]本申请涉及计算机
,尤其涉及一种语音分离方法、语音分离装置及存储介质。

技术介绍

[0002]语音分离的目的是从混合语音中分离每个说话人的源信号。近年来,基于深度学习的方法在语音分离领域取得令人瞩目的成就。目前主流语音分离的方法是基于时域模型的方法,时域模型的输入是语音的波形,通过神经网络预测得到分离源的波形。但是基于时域模型预测得到的分离语音信号的语谱图经常出现一些明显的幅度和相位的错误,使分离语音信号与真实的分离源语音信号差别很大。

技术实现思路

[0003]基于此,本申请实施例提供一种语音分离方法、语音分离装置及存储介质,能够减小分离语音信号与真实的分离源语音信号的差别。
[0004]第一方面,本申请提供一种语音分离方法,所述方法包括:获取第一语谱图和多个第二语谱图,所述第一语谱图为原始语音信号的语谱图,多个所述第二语谱图为从所述原始语音信号中分离出来的多个原分离语音信号的语谱图;利用校正模型基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,其中所述校正模型包括二维卷积模块;根据多个所述第二语谱图的原相位和原幅度以及对应的校正相位和校正幅度,得到多个校正后的第二语谱图;根据多个所述校正后的第二语谱图,得到多个校正的分离语音信号。
[0005]第二方面,本申请提供一种语音分离装置,所述装置包括存储器以及处理器;所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现如上所述的语音分离方法。
[0006]第三方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上所述的语音分离方法。
[0007]本申请实施例提供了一种语音分离方法、语音分离装置及存储介质,由于利用包括二维卷积模块的校正模型基于原始语音信号的第一语谱图对分离出来的多个原分离语音信号的第二语谱图的原相位和原幅度进行校正,根据多个第二语谱图的原相位和原幅度以及对应的校正相位和校正幅度得到多个校正后的第二语谱图,进而得到多个校正的分离语音信号,通过这种方式,能够减小分离语音信号与真实的分离源语音信号的差别。
附图说明
[0008]图1是本申请语音分离方法一实施例的流程示意图;图2是本申请语音分离方法中校正模型一实施例的示意图;图3是本申请语音分离方法另一实施例的流程示意图;图4是本申请语音分离方法中校正模型另一实施例的示意图;图5是本申请语音分离方法又一实施例的流程示意图;图6是本申请语音分离方法中校正模型又一实施例的示意图;图7是本申请语音分离方法又一实施例的流程示意图;图8是本申请语音分离方法中校正模型又一实施例的示意图;图9是本申请语音分离方法又一实施例的流程示意图;图10是本申请语音分离方法又一实施例的流程示意图;图11是本申请语音分离装置一实施例的框图。
具体实施方式
[0009]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0010]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0011]目前主流语音分离的方法是基于时域模型的方法,时域模型的输入是语音的波形,通过神经网络预测得到分离源的波形。但是基于时域模型预测得到的分离语音信号的语谱图经常出现一些明显的幅度和相位的错误,使分离语音信号与真实的分离源语音信号差别很大。
[0012]本申请旨在解决上述技术问题,由于利用包括二维卷积模块的校正模型基于原始语音信号的第一语谱图对分离出来的多个原分离语音信号的第二语谱图的原相位和原幅度进行校正,根据多个第二语谱图的原相位和原幅度以及对应的校正相位和校正幅度得到多个校正后的第二语谱图,进而得到多个校正的分离语音信号,通过这种方式,能够减小分离语音信号与真实的分离源语音信号的差别。
[0013]下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
[0014]参见图1,图1是本申请语音分离方法一实施例的流程示意图,所述方法包括:步骤S101、步骤S102、步骤S103以及步骤S104。
[0015]步骤S101:获取第一语谱图和多个第二语谱图,所述第一语谱图为原始语音信号的语谱图,多个所述第二语谱图为从所述原始语音信号中分离出来的多个原分离语音信号的语谱图。
[0016]语音信号可以是指语音的波形信号,原始语音信号可以是未经分离的混合语音信号,原分离语音信号可以是从原始语音信号分离得到的语音信号。语谱图是语音信号的时


频率表示方法,语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音能量,语谱图采用二维平面表达三维信息,能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。第一语谱图为原始语音信号的语谱图,第二语谱图为原分离语音信号的语谱图。
[0017]由于本申请实施例需要对相位和幅度进行校正,语谱图包括频域信息,因此首先需要获取原始语音信号的第一语谱图以及获取从所述原始语音信号中分离出来的多个原分离语音信号的第二语谱图。
[0018]步骤S102:利用校正模型基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,其中所述校正模型包括二维卷积模块。
[0019]二维卷积模块可以是指二维卷积层,在二维卷积层中,一个二维输入数组和一个二维核(kernel)数组通过互相关运算输出一个二维数组。由于互相关运算的结果能够反映两个信号之间相似性的度量,因此,以所述第一语谱图为对照,可以利用包括二维卷积模块的校正模型对多个所述第二语谱图的原相位和原幅度进行校正,得到的多个所述第二语谱图对应的校正相位和校正幅度。校正相位和校正幅度可以理解为原相位和原幅度与真实相位和真实幅度之间的偏差。任意一段语音波形在STFT(Short

Time Fourier Transform,短时傅里叶变换)后会成为一个复数矩阵,可以具体表示为实部和虚部,或者幅度和相位;本申请实施例中,二维卷积模块的输入为第一语谱图的原相位和原幅度,以及多个第二语谱图的原相位和原幅度,或者二维卷积模块的输入为第一语谱图的虚部和实部,以及多个第二语谱图的虚部和实部。其中,相位、幅度与实部、虚部的关系为:相位是a,幅度是b,实部是c,虚部是d,那么实部c=b * cos(a),虚部d=b * sin(a)。第一语谱图为原始语音信号的语谱图,掩藏着多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音分离方法,其特征在于,所述方法包括:获取第一语谱图和多个第二语谱图,所述第一语谱图为原始语音信号的语谱图,多个所述第二语谱图为从所述原始语音信号中分离出来的多个原分离语音信号的语谱图;利用校正模型基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,其中所述校正模型包括二维卷积模块;根据多个所述第二语谱图的原相位和原幅度以及对应的校正相位和校正幅度,得到多个校正后的第二语谱图;根据多个所述校正后的第二语谱图,得到多个校正的分离语音信号。2.根据权利要求1所述的方法,其特征在于,所述校正模型还包括时域频域校正模块,所述时域频域校正模块用于确定所述第二语谱图的时间方向和频率方向的依赖关系;所述利用校正模型基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,包括:利用所述二维卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度。3.根据权利要求2所述的方法,其特征在于,所述校正模型还包括密集连接扩张卷积模块;所述利用所述二维卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,包括:利用所述二维卷积模块、所述密集连接扩张卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度。4.根据权利要求3所述的方法,其特征在于,所述二维卷积模块包括第一二维卷积模块和第二二维卷积模块,所述密集连接扩张卷积模块包括第一密集连接扩张卷积模块和第二密集连接扩张卷积模块,所述第一密集连接扩张卷积模块和所述第二密集连接扩张卷积模块均包括四个二维扩张卷积子模块;所述利用所述二维卷积模块、所述密集连接扩张卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,包括:将所述第一语谱图、多个所述第二语谱图进行拼接,得到拼接语谱图;将所述拼接语谱图输入所述第一二维卷积模块;将所述第一二维卷积模块的输出结果输入所述第一密集连接扩张卷积模块;将所述第一密集连接扩张卷积模块的输出结果输入所述时域频域校正模块;将所述时域频域校正模块的输出结果输入所述第二密集连接扩张卷积模块;将所述第二密集连接扩张卷积模块的输出结果输入所述第二二维卷积模块;根据所述第二二维卷积模块的输出结果,得到多个所述第二语谱图对应的校正相位和校正幅度。
5.根据权利要求4所述的方法,其特征在于,所述时域频域校正模块包括第一结构重塑子模块、双向长短期记忆子模块、第二结构重塑子模块、多头自注意力子模块以及第三结构重塑子模块;所述将所述第一密集连接扩张卷积模块的输出结果输入所述时域频域校正模块,包括:将所述第一密集连接扩张卷积模块的输出结果输入所述第一结构重塑子模块,以对所述第一密集连接扩张卷积模块的输出结果进行第一结构重塑;将所述第一结构重塑子模块的输出结果输入所述双向长短期记忆子模块;将所述双向长短期记忆子模块的输出结果输入所述第二结构重塑子模块,以对所述双向长短期记忆子模块的输出结果进行第二结构重塑;将所述第二结构重塑子模块的输出结果输入所述多头自注意力子模块;将所述多头自注意力子模块的输出结果输入所述第三结构重塑子模块,以对所述多头自注意力子模块的输出结果进行第三结构重塑;所述将所述时域频域校...

【专利技术属性】
技术研发人员:康世胤吴志勇童玮男朱佳旭陈鋆
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1