System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及语音处理,特别涉及一种基于正负样本对比性隐式建模的回声消除方法及装置。
技术介绍
1、全双工语音通信系统中,远端用户的声音(即远端信号)经通信链路传播后被本地的扬声器所播放,本地的麦克风会捕捉这一声音,并将其与本地用户的语音(即近端语音)一起形成的混合信号传给远端,使远端用户听到自己刚才的声音。此现象被称为声学回声,是接收到的远端信号经扬声器播放后,经过扬声器和麦克风之间的回声路径形成的。回声信号会严重影响用户的通信感受。为提升通信质量,需要从混合信号中将回声信号去除。传统的回声消除方法利用数学模型和自适应算法,来估计声学回声路径,进而估计回声信号,并将其从本地混合信号中去除,但是传统回声消除方法对非线性回声的建模能力有限,无法有效去除非线性回声。
2、近年来,因深度学习所具有的强大的建模非线性关系的能力,其被广泛应用于回声消除领域。相较于传统的自适应回声消除方法,基于深度学习的回声消除方法无论是在回声消除方面还是在近端语音的保留方面都取得了较大的提升。现有的基于深度学习的回声消除方法接收远端信号和混合信号,输出近端语音,大多数模型通常只建模近端语音,而不对回声信号进行建模。但是,由于回声与语音的相似性,只建模近端语音的方法会导致严重的回声残余问题以及近端语音受损问题。一部分模型采用同时建模近端语音和回声的策略,取得了良好的性能提升,但是,额外建模回声增加了模型的计算复杂度,且回声成分并不是系统要保留的成分,因此同步建模回声分量和语音分量的方案会增加模型的冗余程度,以及产生过多的计算成本。
3、
技术实现思路
1、本申请提供一种基于正负样本对比性隐式建模的回声消除方法及装置,以解决现有的回声消除方法容易导致严重的回声残余问题以及近端语音受损问题,且模型的冗余程度和计算成本较高等问题。
2、本申请第一方面实施例提供一种基于正负样本对比性隐式建模的回声消除方法,包括以下步骤:获取目标全双工语音通信系统的混合信号和远端信号,并对所述混合信号和所述远端信号进行短时傅里叶变换,分别得到所述混合信号和所述远端信号对应的时频谱信息,且提取所述时频谱信息对应的初始表征;根据预设对比性自注意力策略获取所述初始特征对应的中间表征和隐空间下的语音信息和回声信息,并通过所述语音信息和所述回声信息确定正样本和负样本,且基于所述正样本、所述负样本和预设对比学习损失函数,构建语音预测模型,并将所述中间表征输入至所述语音预测模型,以生成映射表征;解码所述映射表征,以生成所述目标全双工语音通信系统的预测语音幅度谱,并基于所述预测语音幅度谱、所述时频谱信息和预设相位重建子网络,得到所述目标全双工语音通信系统的估计相位,且对所述预测语音幅度谱和所述估计相位进行逆短时傅里叶变换,以生成消除所述回声信息的所述目标全双工语音通信系统的预测语音信号。
3、可选地,在本申请的一个实施例中,所述根据预设对比性自注意力策略获取所述初始特征对应的中间表征和隐空间下的语音信息和回声信息,包括:解耦所述初始表征,以得到解耦结果,且对所述解耦结果中的查询数据和键数据进行矩阵相乘处理,以生成特征谱图;基于所述特征谱图和所述解耦结果中的值数据,获取所述中间表征;对所述特征谱图进行掩码生成操作,以获取所述特征谱图对应的掩码,并根据所述掩码和预设特征阈值生成所述语音信息和所述回声信息。
4、可选地,在本申请的一个实施例中,所述解码所述映射表征,以生成所述目标全双工语音通信系统的预测语音幅度谱,包括:基于预设跳跃连接策略和预设的解码网络层,对所述映射表征进行解码,以生成所述映射表征对应的掩码;将所述映射表征对应的掩码与所述混合信号的时频谱信息中的幅度谱进行逐点相乘,得到所述目标全双工语音通信系统的预测语音幅度谱。
5、可选地,在本申请的一个实施例中,所述基于所述预测语音幅度谱、所述时频谱信息和预设相位重建子网络,得到所述目标全双工语音通信系统的估计相位,且对所述预测语音幅度谱和所述估计相位进行逆短时傅里叶变换,以生成消除所述回声信息的所述目标全双工语音通信系统的预测语音信号,包括:合并所述预测语音幅度谱和所述时频谱信息,得到合并结果,并将所述合并结果输入至所述预设相位重建子网络,以输出所述目标全双工语音通信系统的估计相位;对所述预测语音幅度谱和所述估计相位进行逆短时傅里叶变换,得到目标语音波形;基于预设幅度损失函数、预设si-snr损失函数和预设对比学习损失函数,构建联合损失函数,以通过所述联合损失函数、所述预测语音幅度谱和所述目标语音波形获取所述目标全双工语音通信系统的预测语音信号。
6、本申请第二方面实施例提供一种基于正负样本对比性隐式建模的回声消除装置,包括:提取单元,用于获取目标全双工语音通信系统的混合信号和远端信号,并对所述混合信号和所述远端信号进行短时傅里叶变换,分别得到所述混合信号和所述远端信号对应的时频谱信息,且提取所述时频谱信息对应的初始表征;建模模块,用于预设对比性自注意力策略获取所述初始特征对应的中间表征和隐空间下的语音信息和回声信息,并通过所述语音信息和所述回声信息确定正样本和负样本,且基于所述正样本、所述负样本和预设对比学习损失函数,构建语音预测模型,并将所述中间表征输入至所述语音预测模型,以生成映射表征;生成模块,用于解码所述映射表征,以生成所述目标全双工语音通信系统的预测语音幅度谱,并基于所述预测语音幅度谱、所述时频谱信息和预设相位重建子网络,得到所述目标全双工语音通信系统的估计相位,且对所述预测语音幅度谱和所述估计相位进行逆短时傅里叶变换,以生成消除所述回声信息的所述目标全双工语音通信系统的预测语音信号。
7、可选地,在本申请的一个实施例中,所述建模模块包括:解耦单元,用于解耦所述初始表征,以得到解耦结果,且对所述解耦结果中的查询数据和键数据进行矩阵相乘处理,以生成特征谱图;获取单元,用于基于所述特征谱图和所述解耦结果中的值数据,获取所述中间表征;掩码单元,用于对所述特征谱图进行掩码生成操作,以获取所述特征谱图对应的掩码,并根据所述掩码和预设特征阈值生成所述语音信息和所述回声信息。
8、可选地,在本申请的一个实施例中,所述生成模块包括:解码单元,用于基于预设跳跃连接策略和预设的解码网络层,对所述映射表征进行解码,以生成所述映射表征对应的掩码;相乘单元,用于将所述映射表征对应的掩码与所述混合信号的时频谱信息中的幅度谱进行逐点相乘,得到所述目标全双工语音通信系统的预测语音幅度谱。
9、可选地,在本申请的一个实施例中,所述生成模块还包括:合并单元,用于合并所述预测语音幅度谱和所述时频谱信息,得到合并结果,并将所述合并结果输入至所述预设相位重建子网络,以输出所述目标全双工语音通信系统的估计相位;变换单元,用于对所述预测语音幅度谱和所述估计相位进行逆短时傅里叶变换,得到目标语音波形;预测单元,用于基于预设幅度损失本文档来自技高网...
【技术保护点】
1.一种基于正负样本对比性隐式建模的回声消除方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述根据预设对比性自注意力策略获取所述初始特征对应的中间表征和隐空间下的语音信息和回声信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述解码所述映射表征,以生成所述目标全双工语音通信系统的预测语音幅度谱,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述预测语音幅度谱、所述时频谱信息和预设相位重建子网络,得到所述目标全双工语音通信系统的估计相位,且对所述预测语音幅度谱和所述估计相位进行逆短时傅里叶变换,以生成消除所述回声信息的所述目标全双工语音通信系统的预测语音信号,包括:
5.一种基于正负样本对比性隐式建模的回声消除装置,其特征在于,包括:
6.根据权利要求5所述的装置,其特征在于,所述建模模块包括:
7.根据权利要求6所述的装置,其特征在于,所述生成模块包括:
8.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-4任一项所述的基于正负样本对比性隐式建模的回声消除方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被执行,以用于实现如权利要求1-4任一项所述的基于正负样本对比性隐式建模的回声消除方法。
...【技术特征摘要】
1.一种基于正负样本对比性隐式建模的回声消除方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述根据预设对比性自注意力策略获取所述初始特征对应的中间表征和隐空间下的语音信息和回声信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述解码所述映射表征,以生成所述目标全双工语音通信系统的预测语音幅度谱,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述预测语音幅度谱、所述时频谱信息和预设相位重建子网络,得到所述目标全双工语音通信系统的估计相位,且对所述预测语音幅度谱和所述估计相位进行逆短时傅里叶变换,以生成消除所述回声信息的所述目标全双工语音通信系统的预测语音信号,包括:
5.一种基于正负样本对比性隐式建模的回声消除装置,其特征...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。