引入基频线索的生成式语音分离方法和装置制造方法及图纸

技术编号：37162157 阅读：16 留言：0更新日期：2023-04-06 22:28

本发明专利技术公开了一种引入基频线索的生成式语音分离方法和装置。本发明专利技术开创性地利用基频线索作为条件，结合混合语音提供的频谱细节信息，使用生成式神经网络生成目标说话人语音，与传统通过估计混合语音的时频掩膜来提取目标语音的方法相比，分离语音的音质和可懂度得到提高。相比于同时分离所有说话人语音的方法，本发明专利技术通过引入基频线索解决了现有方法中说话人数目不确定和难以确定网络输出与真实说话人之间对应关系的问题。本发明专利技术依托于听觉加工机制和神经网络结构，取得了与当前最优方法可比的性能，为机器在复杂场景中解决语音分离任务提供了可能。离任务提供了可能。离任务提供了可能。

全部详细技术资料下载

【技术实现步骤摘要】
引入基频线索的生成式语音分离方法和装置

[0001]本专利技术属于语音信号处理
，涉及语音分离技术，具体涉及一种引入基频线索的生成式语音分离方法和装置。

技术介绍

[0002]语音作为交互媒介体现出高效性和直接性的优势，随着人工智能算法的进步和应用，以语音作为交互方式的智能设备得到了飞速的应用和发展，国外有苹果的Siri、谷歌的GoogleHome和亚马逊的Echo，国内有百度的小度、小米的小爱和天猫精灵。然而，真实的声学场景通常是复杂的，环境噪声、人声干扰以及回声、混响都会严重降低语音的可懂度和音质，影响智能语音设备的功能，如语音识别、说话人识别等进一步影响人机交互的体验。因此，在复杂声学场景下，从混合语音信号中分离目标语音是至关重要的。
[0003]人的听觉系统具有强大的抗干扰能力，即在复杂的声学场景中能够识别特定说话人的语音，而忽略其他声音(人声或非人声)的干扰，这一现象也被称为“鸡尾酒会问题”。但对于机器来说，具备这样的抗干扰能力却十分困难，复杂声学场景下的语音交互仍然具有挑战。
[0004]近年来，随着深度学习的进步，深度神经网络开始被应用于解决上述问题，这加速了该领域的发展。研究者们将上述“鸡尾酒会问题”抽象为语音分离任务，目标是构建从多说话人的混合语音到分离语音的映射。现有的方法大多遵循以下范式：多说话人混合语音作为输入，通过深度神经网络学习每个说话人的语音表示，即将每个说话人的语音都进行分离。但不管是从可解释性还是泛化性，当前方法的性能与人类水平相比还存在一定的差距。
[...

【技术保护点】

【技术特征摘要】
1.一种引入基频线索的生成式语音分离方法，其步骤包括：1)对于给定的混合语音，依次进行分帧、加窗、短时傅里叶变换操作，得到混合语音的短时傅里叶变换频谱；2)将1)中得到的频谱与目标说话人的基频轨迹序列输入生成器G1中，通过基频条件约束生成器生成目标说话人的语音频谱；3)将2)中得到的目标说话人的语音频谱输入到生成器G2中，输入频谱经过一维反卷积模块、上采样模块和残差模块，再通过一维卷积和激活函数层，输出满足时域信号数值范围的表示，即目标说话人的语音；4)将3)中生成的目标说话人的语音和目标说话人的基频轨迹序列输入到判别器中，判别器判断生成语音是否是真实目标说话人语音，以此为结果计算生成器G1、G2的优化目标函数值，并以此为依据调整生成器G1、G2的参数，同时根据训练数据的真实标签计算判别器的优化目标函数值，以此为依据调整判别器参数；5)训练时，循环执行步骤1)～4)，直至生成器G1、G2和判别器各自的损失函数值趋于稳定，即达到收敛状态，此时固定生成器与判别器的参数设置；6)对于待进行语音分离的混合语音，以收敛状态下生成器G1、G2的参数设置为标准，执行步骤1)～3)，步骤3)中输出的语音即为最终分离出的目标说话人语音。2.如权利要求1所述的方法，其特征在于，生成器G1的输入为混合语音和基频条件，该基频约束生成器G1生成对应说话人语音的表示；生成器G1首先使用三层二维卷积，卷积核的大小为3，步长为2，每一层采用带有残差连接的残差网络结构，后接4层Transformer模块，每一层的输入特征维度为512，其中自注意力部分使用8个head，前向层的维度为1024；卷积模块与Transformer模块之间加入线性层使得前者的输出维度与后者的输入维度匹配。3.如权利要求1所述的方法，其特征在于，生成器G2利用一组堆叠的反卷积模块和一维卷积将G1的输出幅度谱上采样为对应时域信号的维度，上采样的倍数由输入幅度谱的帧移决定；每个反卷积模块之后都连接一个残差模块，残差模块由三层带有扩张的一维卷积构成，通过设置不同的系数(1,3,9)，获得大小为27的感受野，以扩大对信号时间维度的感受能力，更好地建模时间维度的长距离依赖关系；生成器G2最后使用一层的一维卷积和tanh激活函数，输出满足时域信号数值范围的表示，该一维卷积的输出通道设置为1，对应全频带的时域信号。4.如权利要求1所述的方法，其特征在于，判别器D采用Transformer结构，采用基于分块级别的判别，即将输入时频表示看作是一张二维图，具有两个通道，第一个通道表示真或伪的目标语音幅度谱，第二个通道对应拼接的条件基频；将该输入分解为若干块，通过一个线性层将其展开成一个一维序列，在该序列的开头添加可学的位置编码和一个分类符号[cls]，将其输入到一个3层的Transformer模块中，最终，使用分类符[cls]给出真假判别结果。5.如权利要求1所述的方法，其特征在于，以混合语音序列和目标说话...

【专利技术属性】
技术研发人员：陈婧，吴玺宏，李想，孙溢凡，栗楠，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人