当前位置: 首页 > 专利查询>北京大学专利>正文

引入基频线索的生成式语音分离方法和装置制造方法及图纸

技术编号:37162157 阅读:16 留言:0更新日期:2023-04-06 22:28
本发明专利技术公开了一种引入基频线索的生成式语音分离方法和装置。本发明专利技术开创性地利用基频线索作为条件,结合混合语音提供的频谱细节信息,使用生成式神经网络生成目标说话人语音,与传统通过估计混合语音的时频掩膜来提取目标语音的方法相比,分离语音的音质和可懂度得到提高。相比于同时分离所有说话人语音的方法,本发明专利技术通过引入基频线索解决了现有方法中说话人数目不确定和难以确定网络输出与真实说话人之间对应关系的问题。本发明专利技术依托于听觉加工机制和神经网络结构,取得了与当前最优方法可比的性能,为机器在复杂场景中解决语音分离任务提供了可能。离任务提供了可能。离任务提供了可能。

【技术实现步骤摘要】
引入基频线索的生成式语音分离方法和装置


[0001]本专利技术属于语音信号处理
,涉及语音分离技术,具体涉及一种引入基频线索的生成式语音分离方法和装置。

技术介绍

[0002]语音作为交互媒介体现出高效性和直接性的优势,随着人工智能算法的进步和应用,以语音作为交互方式的智能设备得到了飞速的应用和发展,国外有苹果的Siri、谷歌的GoogleHome和亚马逊的Echo,国内有百度的小度、小米的小爱和天猫精灵。然而,真实的声学场景通常是复杂的,环境噪声、人声干扰以及回声、混响都会严重降低语音的可懂度和音质,影响智能语音设备的功能,如语音识别、说话人识别等进一步影响人机交互的体验。因此,在复杂声学场景下,从混合语音信号中分离目标语音是至关重要的。
[0003]人的听觉系统具有强大的抗干扰能力,即在复杂的声学场景中能够识别特定说话人的语音,而忽略其他声音(人声或非人声)的干扰,这一现象也被称为“鸡尾酒会问题”。但对于机器来说,具备这样的抗干扰能力却十分困难,复杂声学场景下的语音交互仍然具有挑战。
[0004]近年来,随着深度学习的进步,深度神经网络开始被应用于解决上述问题,这加速了该领域的发展。研究者们将上述“鸡尾酒会问题”抽象为语音分离任务,目标是构建从多说话人的混合语音到分离语音的映射。现有的方法大多遵循以下范式:多说话人混合语音作为输入,通过深度神经网络学习每个说话人的语音表示,即将每个说话人的语音都进行分离。但不管是从可解释性还是泛化性,当前方法的性能与人类水平相比还存在一定的差距。
[0005]另外,目前基于神经网络的语音分离方法大都先对混合语音进行变换得到混合语音频谱作为输入,以目标说话人的时频掩膜作为网络输出,再将该时频掩膜与输入混合语音的频谱相乘,得到估计目标的频谱表示。该类方法存在的问题是,在某些时频区域,当前景语音(待分离语音)在较大程度上或完全被背景声(噪声等干扰声)掩蔽时,前景语音将无法从混合语音中恢复,背景声也无法完全去除。一方面,网络以时频掩膜而非直接以语音信号作为估计目标,掩膜估计的准确性会影响重构语音信号的性能。另一方面,时频掩膜要与混合语音的频谱经过额外的相乘操作后才能得到目标语音的频谱,这会进一步降低目标语音的信噪比。
[0006]多数语音分离的方法遵循将每个说话人都分离开的范式,分离系统缺乏条件作为指导,无法判断待分离的说话人,只能将所有说话人的语音都分离并一次性输出。再通过后续处理模块,如说话人识别,决定待分离的目标说话人语音。由于缺少条件,无法确定待分离的目标,从而难以确定网络的多个输出与目标说话人标签之间的对应关系,有些方法需要预先确定说话人数目,难以应对说话人数目未知的情形。

技术实现思路

[0007]针对现有方法的缺点,本专利技术提出一种引入基频线索的生成式语音分离方法和装置。
[0008]本专利技术提出了一种以听觉线索(基频)为条件的语音分离框架:输入为混合语音频谱和待分离说话人的基频线索,该线索将作为条件,引导着对应说话人语音的分离。该待分离的说话人可以是混合语音中包含的任意某个说话人,在实际应用中也可以是某个指定的说话人。
[0009]本专利技术开创性地利用基频线索作为条件,结合混合语音提供的频谱细节信息,将对应该基频的语音以生成的方式而非时频掩膜的方式得出。通过引入基频线索解决了说话人数目不确定和难以确定网络输出与真实说话人之间的对应关系的问题。从听觉层面来说,是模拟人耳根据存留在记忆中的对听觉目标的表示和显著性特征(此处指基频),将目标语音在脑中生成出来。因此,整个语音分离的过程不只是对目标语音的编码过程(现有的方法大多只包含这一过程),还包括基于给定说话人的基频线索。
[0010]本专利技术的技术方案为:
[0011]1)对于给定的混合语音,依次进行分帧、加窗、短时傅里叶变换操作,得到混合语音的短时傅里叶变换频谱(STFT频谱);
[0012]2)将1)中得到的频谱与目标说话人的基频轨迹序列输入生成器G1中,通过基频条件约束生成器生成目标说话人的语音频谱;
[0013]3)将2)中得到的目标说话人的语音频谱输入到生成器G2中,输入频谱经过一维反卷积模块、上采样模块和残差模块,再通过一维卷积和激活函数层,输出满足时域信号数值范围的表示,即目标说话人的语音;
[0014]4)将3)中生成的目标说话人的语音和目标说话人的基频轨迹序列输入到判别器中,判别器判断生成语音是否是真实目标说话人语音(即输出1/0表示真伪),以此为结果计算生成器G1、G2的优化目标函数值(即损失函数值),并以此为依据调整生成器G1、G2的参数,同时根据训练数据的真实标签计算判别器的优化目标函数值,以此为依据调整判别器参数;
[0015]5)训练时,循环执行步骤1)~4),直至生成器G1、G2和判别器各自的损失函数值趋于稳定,即达到收敛状态,此时固定生成器与判别器的参数设置;
[0016]6)测试时(即实际应用时),对于待进行语音分离的混合语音,以收敛状态下生成器G1、 G2的参数设置为标准,执行步骤1)~3),步骤3)中输出的语音即为最终分离出的目标说话人语音。
[0017]进一步地,生成器G1的输入为混合语音和基频条件,该基频约束生成器G1生成对应说话人语音的表示;生成器G1首先使用三层二维卷积,卷积核的大小为3,步长为2,每一层采用带有残差连接的残差网络结构,后接4层Transformer模块,每一层的输入特征维度为 512,其中自注意力部分使用8个head,前向层的维度为1024;卷积模块与Transformer模块之间加入线性层使得前者的输出维度与后者的输入维度匹配。
[0018]进一步地,生成器G2利用一组堆叠的反卷积模块和一维卷积将G1的输出幅度谱上采样为对应时域信号的维度,上采样的倍数由输入幅度谱的帧移决定;每个反卷积模块之后都连接一个残差模块,残差模块由三层带有扩张的一维卷积构成,通过设置不同的系数
(1,3,9),获得大小为27的感受野,以扩大对信号时间维度的感受能力,更好地建模时间维度的长距离依赖关系;生成器G2最后使用一层的一维卷积和tanh激活函数,输出满足时域信号数值范围的表示,该一维卷积的输出通道设置为1,对应全频带的时域信号。
[0019]进一步地,判别器D采用Transformer结构,采用基于分块级别的判别,即将输入时频表示看作是一张二维图,具有两个通道,第一个通道表示真或伪的目标语音幅度谱,第二个通道对应拼接的条件基频;将该输入分解为若干块,通过一个线性层将其展开成一个一维序列,在该序列的开头添加可学的位置编码和一个分类符号[cls],将其输入到一个3层的 Transformer模块中,最终,使用分类符[cls]给出真假判别结果。
[0020]进一步地,以混合语音序列和目标说话人的基频轨迹序列作为输入条件,利用条件生成对抗网络,生成对应该基频的目标说话人的语音;所述条件对抗生成网络由生成器和判别器组成,生成器旨在从混合语音的幅度谱中生成对应基频条件的时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种引入基频线索的生成式语音分离方法,其步骤包括:1)对于给定的混合语音,依次进行分帧、加窗、短时傅里叶变换操作,得到混合语音的短时傅里叶变换频谱;2)将1)中得到的频谱与目标说话人的基频轨迹序列输入生成器G1中,通过基频条件约束生成器生成目标说话人的语音频谱;3)将2)中得到的目标说话人的语音频谱输入到生成器G2中,输入频谱经过一维反卷积模块、上采样模块和残差模块,再通过一维卷积和激活函数层,输出满足时域信号数值范围的表示,即目标说话人的语音;4)将3)中生成的目标说话人的语音和目标说话人的基频轨迹序列输入到判别器中,判别器判断生成语音是否是真实目标说话人语音,以此为结果计算生成器G1、G2的优化目标函数值,并以此为依据调整生成器G1、G2的参数,同时根据训练数据的真实标签计算判别器的优化目标函数值,以此为依据调整判别器参数;5)训练时,循环执行步骤1)~4),直至生成器G1、G2和判别器各自的损失函数值趋于稳定,即达到收敛状态,此时固定生成器与判别器的参数设置;6)对于待进行语音分离的混合语音,以收敛状态下生成器G1、G2的参数设置为标准,执行步骤1)~3),步骤3)中输出的语音即为最终分离出的目标说话人语音。2.如权利要求1所述的方法,其特征在于,生成器G1的输入为混合语音和基频条件,该基频约束生成器G1生成对应说话人语音的表示;生成器G1首先使用三层二维卷积,卷积核的大小为3,步长为2,每一层采用带有残差连接的残差网络结构,后接4层Transformer模块,每一层的输入特征维度为512,其中自注意力部分使用8个head,前向层的维度为1024;卷积模块与Transformer模块之间加入线性层使得前者的输出维度与后者的输入维度匹配。3.如权利要求1所述的方法,其特征在于,生成器G2利用一组堆叠的反卷积模块和一维卷积将G1的输出幅度谱上采样为对应时域信号的维度,上采样的倍数由输入幅度谱的帧移决定;每个反卷积模块之后都连接一个残差模块,残差模块由三层带有扩张的一维卷积构成,通过设置不同的系数(1,3,9),获得大小为27的感受野,以扩大对信号时间维度的感受能力,更好地建模时间维度的长距离依赖关系;生成器G2最后使用一层的一维卷积和tanh激活函数,输出满足时域信号数值范围的表示,该一维卷积的输出通道设置为1,对应全频带的时域信号。4.如权利要求1所述的方法,其特征在于,判别器D采用Transformer结构,采用基于分块级别的判别,即将输入时频表示看作是一张二维图,具有两个通道,第一个通道表示真或伪的目标语音幅度谱,第二个通道对应拼接的条件基频;将该输入分解为若干块,通过一个线性层将其展开成一个一维序列,在该序列的开头添加可学的位置编码和一个分类符号[cls],将其输入到一个3层的Transformer模块中,最终,使用分类符[cls]给出真假判别结果。5.如权利要求1所述的方法,其特征在于,以混合语音序列和目标说话...

【专利技术属性】
技术研发人员:陈婧吴玺宏李想孙溢凡栗楠
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1