基于扩散自编码器的噪声鲁棒语音合成方法技术

技术编号：44097272 阅读：16 留言：0更新日期：2025-01-21 12:30

本发明专利技术属于语音合成领域，涉及一种基于扩散自编码器的噪声鲁棒语音合成方法。包括构建噪声数据集，从噪声音频和干净的音频中提取梅尔谱特征作为训练集和测试集；进行扩散自编码器训练，使用带噪的梅尔谱特征作为输入，干净的梅尔谱特征作为输出，训练扩散自编码器模型，从而生成噪声鲁棒的隐特征；进行文本到特征的模型训练，使用文本数据集和扩散自编码器提取的隐特征来训练模型，该模型是基于FastSpeech2模型进一步处理得到的；进行语音合成模型的推理，输入测试文本，经过训练好的文本到特征模型，生成特征，再经过条件扩散模型，生成梅尔谱，最后使用声码器将梅尔谱还原成语音波形。本发明专利技术利用低质量的带噪数据，合成出具有高自然度和高质量的语音。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音合成领域，提供了一种噪声鲁棒的语音合成方法，基于低质量的带噪数据集训练一个扩散自编码器，提取出噪声无关的特征，用于合成干净的语音。

技术介绍

1、在公开可用的高质量数据集上训练的端到端的语音合成能够在各种应用场景中生成高质量的语音。然而，在日常场景中，例如在智能家居环境中，收集的语音数据表现出相对较低的质量。尽管这些数据不具备与专业录音室录制的语音相同的质量，但它们仍然包含了丰富的语义，对特定领域语音交互系统的开发非常有利。

2、针对使用低质量数据训练鲁棒语音合成的方法，常见的有通过语音增强技术增强数据集的音频质量。例如，语音增强模型增强低质量噪声数据，从而增强语音合成模型的训练数据集，并作为语音合成的预处理步骤。然而，大多数语音增强模型并不总是很适合语音合成任务。当增强语音时，它可能会导致额外的语音失真并损害说话人特性，特别是在低信噪比环境中，导致语音质量下降。除了直接采用语音增强方法外，使用大模型的自监督学习语音表征已成为鲁棒语音合成任务的一种很有前景的解决方案。自监督模型使用大量数据进行训练，这些数据可能包含丰富的语义信息。有些方法使用自监督模型表征作为传统声学特征的替代品，以实现鲁棒的语音合成。虽然自监督学习为解决鲁棒语音合成中的挑战提供了一种潜在的解决方案，但它仍然存在以下缺点：首先，存在领域自适应问题，自监督预训练语料库和语音合成训练数据之间的差异，如语种变化，可能会影响语音合成的质量；此外，虽然自监督表征包含丰富的语义信息，但它们可能导致源说话人泄漏，从而潜在地影响合成语音中的说话人相似度。

3、本方法使用低质量的噪声数据来训练扩散自编码器模型，以学习与噪声鲁棒的特征，利用该特征进行语音合成。

技术实现思路

1、本专利技术解决的技术问题是提供了一个针对在低质量的噪声数据的前提下的鲁棒语音合成技术，该方法采用扩散自编码器和文本到特征的模型，充分利用低质量的语音数据，能够合成高自然度和高质量的语音。

2、为解决上述
技术介绍
中提到的不足，本专利技术的技术方案是：基于扩散自编码器的噪声鲁棒语音合成方法，包括以下四个步骤：1)构建噪声数据集，从噪声音频和干净的音频中提取梅尔谱特征作为训练集和测试集；2)使用带噪的梅尔谱特征作为输入，干净的梅尔谱特征作为输出，训练扩散自编码器模型；3)使用文本数据集作为输入，特征作为目标输出，训练文本到特征的模型；4)进行语音合成模型的推理，输入文本，经过文本到特征模型生成鲁棒特征，条件扩散模型根据特征生成梅尔谱，最后将该梅尔谱经过声码器生成语音波形。

3、具体步骤如下：

4、第一:构建噪声数据集

5、选择ljspeech数据集作为干净的数据集，选择freesound数据集作为噪声数据来源，将噪声数据以5分贝到20分贝的信噪比添加到ljspeech数据集中构建噪声数据集；将干净的数据集和带噪的数据集混合作为混合数据集；并将所有音频采样率都转换为16khz；训练集和测试集的所有音频数据都要提取梅尔谱特征作为训练模型时的输入和目标输出数据。

6、第二:训练扩散自编码器模型

7、扩散自编码器模型由特征提取器和条件扩散模型组成，使用由干净的梅尔谱特征和带噪的梅尔谱特征组成的混合数据集作为输入数据，对应的干净的梅尔谱特征作为目标输出数据；

8、在整个扩散自编码器训练的过程中，特征提取器根据输入的梅尔谱特征生成隐特征；

9、根据提取的隐特征，条件扩散模型在训练过程中将目标梅尔谱特征加噪生成低维的噪声信息，从而学习噪声的分布；

10、在推理过程中，特征提取器根据输入的带噪的梅尔谱特征生成噪声鲁棒的隐特征，然后条件扩散模型先生成低维的随机噪声，再以隐特征作为条件，将随机噪声解码生成干净的梅尔谱特征；

11、通过使用混合的梅尔谱特征作为输入，干净的梅尔谱特征作为输出同时训练特征提取器和条件扩散模型，扩散自编码器能够生成噪声鲁棒的隐特征；

12、训练好的特征提取器能够根据低质量的数据生成噪声鲁棒的隐特征，且这些隐特征能够通过条件扩散模型还原成干净的梅尔谱特征；

13、最后使用hifi-gan声码器将梅尔谱特征还原成语音波形。

14、第三:训练文本到特征的模型

15、文本到特征的模型是在fastspeech2模型的基础上修改得到的，该模型包括音素嵌入模块，编码器，方差适配器和特征解码器；

16、在训练过程中，使用文本作为输入数据，扩散自编码器中特征提取器提取的特征作为目标输出数据；

17、首先，文本到特征模型将文本转化为音素，然后使用音素嵌入模块将音素转化为音素序列；

18、编码器将输入的音素序列转化为对应的潜在特征；

19、然后，方差适配器将时长，基频和能量信息添加到音素潜在序列中，确保能合成目标特征；

20、最后，特征解码器将潜在序列转化为鲁棒的特征。

21、第四:噪声鲁棒的语音合成模型

22、进行语音合成模型的推理，输入测试文本，经过训练好的文本到特征模型，生成特征，再经过条件扩散模型，生成梅尔谱，最后使用声码器将梅尔谱还原成语音波形。

23、有益效果：

24、本专利技术使用低质量的数据来训练扩散自编码器模型，以学习鲁棒的特征。

25、本专利技术提出的方法可以利用低质量的数据集生成噪声鲁棒的特征，从而合成高质量和高自然度的语音。

26、本专利技术为端到端的语音合成方法设计了一个文本到特征的预测模块，能够将文本转化为特征；方法将语音合成任务简化为两部分：文本到噪声鲁棒的特征的映射和特征到语音的映射；在语音合成模型推理的过程中，输入文本，经过文本到特征预测模块，生成噪声鲁棒的特征，该特征经过条件扩散模型生成梅尔谱特征；最后使用声码器将该梅尔谱特征还原为语音波形。

本文档来自技高网...

【技术保护点】

1.基于扩散自编码器的噪声鲁棒语音合成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于：所述步骤S1中，选择开源数据集LJSpeech作为干净的数据集，在LJSpeech数据集的基础上添加噪声，信噪比是-5分贝到20分贝，模拟真实的噪声环境，构建噪声数据集；对于干净的语音数据集和带噪的语音数据集，提取梅尔谱特征作为训练集和测试集。

3.根据权利要求1所述的方法，其特征在于：所述步骤S2中，使用带噪的梅尔谱特征作为输入，干净的梅尔谱特征作为输出，训练扩散自编码器模型；扩散自编码器由特征提取器和条件扩散模型组成；特征提取器的目标是从梅尔谱中提取到更抽象的深层特征，用于条件扩散模型的训练和学习，特征提取器由ResBlock网络、AttentionBlock网络、GroupNorm32网络、SiLU网络组成，能够从低质量的数据中提取除噪声之外的必要特征，并能建模时序依赖；条件扩散模型基于UNet网络，使用特征提取器提取的隐特征作为条件，将干净的梅尔谱特征编码为低维度的特征，该特征包含隐特征之外的信息，从而学习噪声的分布；

5.根据权利要求1所述的方法，其特征在于：所述步骤S4中，使用低质量的数据来训练扩散自编码器模型，以学习鲁棒的特征；为端到端的语音合成方法设计文本到特征预测模块，能够将文本转化为特征；将语音合成任务简化为两部分：文本到噪声鲁棒的特征的映射和特征到语音的映射；在语音合成模型推理的过程中，输入文本，经过文本到特征预测模块，生成噪声鲁棒的特征，该特征经过条件扩散模型生成梅尔谱特征；最后使用声码器将该梅尔谱特征还原为语音波形。

...

【技术特征摘要】

1.基于扩散自编码器的噪声鲁棒语音合成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于：所述步骤s1中，选择开源数据集ljspeech作为干净的数据集，在ljspeech数据集的基础上添加噪声，信噪比是-5分贝到20分贝，模拟真实的噪声环境，构建噪声数据集；对于干净的语音数据集和带噪的语音数据集，提取梅尔谱特征作为训练集和测试集。

3.根据权利要求1所述的方法，其特征在于：所述步骤s2中，使用带噪的梅尔谱特征作为输入，干净的梅尔谱特征作为输出，训练扩散自编码器模型；扩散自编码器由特征提取器和条件扩散模型组成；特征提取器的目标是从梅尔谱中提取到更抽象的深层特征，用于条件扩散模型的训练和学习，特征提取器由resblock网络、attentionblock网络、groupnorm32网络、silu网络组成，能够从低质量的数据中提取除噪声之外的必要特征，并能建模时序依赖；条件扩散模型基于unet...

【专利技术属性】
技术研发人员：王龙标，刘秋雨，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人