System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 语音克隆模型的训练方法、语音克隆方法及装置制造方法及图纸_技高网

语音克隆模型的训练方法、语音克隆方法及装置制造方法及图纸

技术编号:44397801 阅读:2 留言:0更新日期:2025-02-25 10:10
本发明专利技术公开了一种语音克隆模型的训练方法、语音克隆方法及装置,包括:构建文本对齐模块、第一音高提取模块、第二音高提取模块和韵律提取模块并分别进行训练,得到经训练的文本对齐模块、经训练的第一音高提取模块、经训练的第二音高提取模块和经训练的韵律提取模块;将其与语音风格扩散模块、解码器和随机时长预测模块结合构建得到语音克隆模型,采用第一训练数据集对语音克隆模型进行训练,得到经训练的语音克隆模型;采用第二训练数据集对经训练的语音克隆模型进行微调,得到经微调的语音克隆模型,只需提供时长至少为预设时长的参考语音即可克隆出接近目标音色的高质量语音。

【技术实现步骤摘要】

本专利技术涉及语音合成领域,具体涉及一种语音克隆模型的训练方法、语音克隆方法及装置


技术介绍

1、语音克隆技术是语音合成技术的分支应用,它允许通过使用少量目标说话人的语音样本来生成新的语音内容。通过语音克隆技术,用户可以输入任意的文本,然后系统会产生一个音频,其音色和语调与目标说话人的声音非常接近。这种技术的实用性非常广泛,包括但不限于个性化的虚拟助手、配音、个人音频内容创作等领域。

2、目前,语音克隆技术面临的最大挑战之一,是如何在使用更少的目标说话人的声音样本或在更短的准备时间内仍能生成高质量的合成语音。传统的方法通常依赖于自适应再训练,即使用目标说话人的语音数据对已有的语音合成模型进行微调。

3、虽然可以通过模型微调的方式实现语音克隆,但它有几个缺点。首先,它需要大量的目标说话人的语音样本,这在实际操作中可能难以快速获得。其次,这种方法通常需要较长的训练时间,这会延迟语音克隆的使用。最后,传统的自适应方法通常需要为每一个新的发音人单独创建和调整模型,这不仅增加了工作量,也增加了处理复杂性。


技术实现思路

1、本申请的目的在于针对上述提到的技术问题提出一种语音克隆模型的训练方法、语音克隆方法及装置。

2、第一方面,本专利技术提供了一种语音克隆模型的训练方法,包括以下步骤:

3、分别收集若干单个说话人语音数据和若干多说话人语音数据并分别进行预处理,得到第一训练数据集和第二训练数据集,第一训练数据集和第二训练数据集中的每条训练数据包括语音数据、文本数据及其对应的说话人id,其中语音数据的有效时长为预设时长;

4、构建文本对齐模块、第一音高提取模块、第二音高提取模块和韵律提取模块并分别进行训练,得到经训练的文本对齐模块、经训练的第一音高提取模块、经训练的第二音高提取模块和经训练的韵律提取模块;

5、将经训练的文本对齐模块、经训练的第一音高提取模块、经训练的第二音高提取模块和经训练的韵律提取模块与语音风格扩散模块、解码器和随机时长预测模块结合构建得到语音克隆模型,采用第一训练数据集对语音克隆模型进行训练,得到经训练的语音克隆模型;采用第二训练数据集对经训练的语音克隆模型进行微调,得到经微调的语音克隆模型;在语音克隆模型的训练和微调过程中,对第一训练数据集或第二训练数据集中的语音数据和参考语音分别提取第一mfcc特征和第二mfcc特征,将第一mfcc特征和第二mfcc特征分别输入到经训练的第一音高提取模块和经训练的第二音高提取模块,经训练的第一音高提取模块的输出特征和经训练的第二音高提取模块的输出特征输入到语音风格扩散模块,得到第一特征,将第一mfcc特征和第一训练数据集或第二训练数据集中的文本数据对应的音素输入到经训练的文本对齐模块,得到第二特征,第一训练数据集或第二训练数据集中的文本数据对应的音素依次经过经训练的韵律提取模块和随机时长预测模块,得到第三特征,将第一特征、第二特征和第三特征输入解码器,得到克隆语音,将克隆语音和第一mfcc特征分别输入到通用语音预训练模型进行对抗训练,反向传播更新语音风格扩散模块、解码器和随机时长预测模块的参数。

6、作为优选,文本对齐模块包括依次连接的第一卷积层、多层卷积序列层、卷积归一化层、第一全连接层、嵌入层、注意力机制层、lstm层和第二全连接层,多层卷积序列层包括依次连接的若干个卷积模块,每个卷积模块包括依次连接的第二卷积层、第一批归一化层和第一relu激活函数层,第一卷积层和卷积归一化层的卷积核大小为7×7,第二卷积层的卷积核大小为3×3;文本对齐模块的训练过程包括:将公开语音数据集中的语音数据进行预处理并提取对应的mfcc特征,再输入到文本对齐模块进行训练,直至收敛,得到经训练的文本对齐模块。

7、作为优选,第一音高提取模块和第二音高提取模块的结构相同,均包括依次连接的第一卷积序列层、第二批归一化层、第二relu激活函数层、第一残差块、第二残差块、第三残差块、第一池化层、第二卷积序列层、双向lsmt层和第三全连接层,第一卷积序列层包括依次连接的第三卷积层、第三批归一化层、第三relu激活函数层和第四卷积层,第二卷积序列层包括依次连接的第五卷积层、第四批归一化层、第四relu激活函数层和丢弃层,第一残差块、第二残差块和第三残差块采用残差块结构,残差块结构包括依次连接的预处理层、第三卷积序列层和第六卷积层,残差块结构的输入特征与第六卷积层的输出特征相加得到残差块的输出特征,预处理层包括第五批归一化层和第二池化层,第三卷积序列层包括依次连接的第七卷积层、第六批归一化层和第八卷积层,第三卷积层、第四卷积层、第七卷积层和第八卷积层的卷积核大小均为3×3,第五卷积层和第六卷积层的卷积核大小为1×1;第一音高提取模块和第二音高提取模块的训练过程包括:将公开语音数据集中的语音数据进行预处理并提取对应的mfcc特征,再分别输入到第一音高提取模块和第二音高提取模块进行训练,直至收敛,得到经训练的第一音高提取模块和经训练的第二音高提取模块。

8、作为优选,韵律提取模块包括预训练的bert模型、掩码预测器、单词预测器和乘法器,掩码预测器包括第四全连接层,单词预测器包括第五全连接层,预训练的bert模型的输出特征分别输入掩码预测器和单词预测器,掩码预测器的输出特征和单词预测器的输出特征输入乘法器,得到韵律提取模块的输出特征;韵律提取模块的训练过程包括:将公开语音数据集中的语音数据进行预处理并提取对应的mfcc特征,再输入到韵律提取模块进行训练,直至收敛,得到经训练的韵律提取模块。

9、作为优选,语音风格扩散模块包括依次连接的第一谱归一化层、残差块序列层、第五relu激活函数层、第二谱归一化层、平均池化层、第六relu激活函数层和第六全连接层,残差块序列层包括依次连接的4个残差模块,残差模块包括依次连接的第三谱归一化层、第七relu激活函数层、第四谱归一化层、第九卷积层、第八relu激活函数层和第五谱归一化层,残差模块的输入特征与第五谱归一化层的输出特征相加得到残差模块的输出特征。

10、第二方面,本专利技术提供了一种语音克隆模型的训练装置,包括:

11、数据处理模块,被配置为分别收集若干单个说话人语音数据和若干多说话人语音数据并分别进行预处理,得到第一训练数据集和第二训练数据集,第一训练数据集和第二训练数据集中的每条训练数据中语音数据的语音时长为预设时长;

12、组件构建模块,被配置为构建文本对齐模块、第一音高提取模块、第二音高提取模块和韵律提取模块并分别进行训练,得到经训练的文本对齐模块、经训练的第一音高提取模块、经训练的第二音高提取模块和经训练的韵律提取模块;

13、模型构建模块,被配置为将经训练的文本对齐模块、经训练的第一音高提取模块、经训练的第二音高提取模块和经训练的韵律提取模块与语音风格扩散模块、解码器和随机时长预测模块结合构建得到语音克隆模型,采用第一训练数据集对语音克隆模型进行训练,得到经训练的语音克隆模型;采用第二训练数据本文档来自技高网...

【技术保护点】

1.一种语音克隆模型的训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的语音克隆模型的训练方法,其特征在于,所述文本对齐模块包括依次连接的第一卷积层、多层卷积序列层、卷积归一化层、第一全连接层、嵌入层、注意力机制层、LSTM层和第二全连接层,所述多层卷积序列层包括依次连接的若干个卷积模块,每个卷积模块包括依次连接的第二卷积层、第一批归一化层和第一Relu激活函数层,所述第一卷积层和卷积归一化层的卷积核大小为7×7,所述第二卷积层的卷积核大小为3×3;所述文本对齐模块的训练过程包括:将公开语音数据集中的语音数据进行预处理并提取对应的MFCC特征,再输入到所述文本对齐模块进行训练,直至收敛,得到经训练的文本对齐模块。

3.根据权利要求1所述的语音克隆模型的训练方法,其特征在于,所述第一音高提取模块和第二音高提取模块的结构相同,均包括依次连接的第一卷积序列层、第二批归一化层、第二Relu激活函数层、第一残差块、第二残差块、第三残差块、第一池化层、第二卷积序列层、双向LSMT层和第三全连接层,所述第一卷积序列层包括依次连接的第三卷积层、第三批归一化层、第三Relu激活函数层和第四卷积层,所述第二卷积序列层包括依次连接的第五卷积层、第四批归一化层、第四Relu激活函数层和丢弃层,所述第一残差块、第二残差块和第三残差块采用残差块结构,所述残差块结构包括依次连接的预处理层、第三卷积序列层和第六卷积层,所述残差块结构的输入特征与所述第六卷积层的输出特征相加得到所述残差块的输出特征,所述预处理层包括第五批归一化层和第二池化层,所述第三卷积序列层包括依次连接的第七卷积层、第六批归一化层和第八卷积层,所述第三卷积层、第四卷积层、第七卷积层和第八卷积层的卷积核大小均为3×3,所述第五卷积层和第六卷积层的卷积核大小为1×1;所述第一音高提取模块和第二音高提取模块的训练过程包括:将公开语音数据集中的语音数据进行预处理并提取对应的MFCC特征,再分别输入到所述第一音高提取模块和第二音高提取模块进行训练,直至收敛,得到经训练的第一音高提取模块和经训练的第二音高提取模块。

4.根据权利要求1所述的语音克隆模型的训练方法,其特征在于,所述韵律提取模块包括预训练的BERT模型、掩码预测器、单词预测器和乘法器,所述掩码预测器包括第四全连接层,所述单词预测器包括第五全连接层,所述预训练的BERT模型的输出特征分别输入所述掩码预测器和单词预测器,所述掩码预测器的输出特征和单词预测器的输出特征输入所述乘法器,得到所述韵律提取模块的输出特征;所述韵律提取模块的训练过程包括:将公开语音数据集中的语音数据进行预处理并提取对应的MFCC特征,再输入到所述韵律提取模块进行训练,直至收敛,得到经训练的韵律提取模块。

5.根据权利要求1所述的语音克隆模型的训练方法,其特征在于,所述语音风格扩散模块包括依次连接的第一谱归一化层、残差块序列层、第五Relu激活函数层、第二谱归一化层、平均池化层、第六Relu激活函数层和第六全连接层,所述残差块序列层包括依次连接的4个残差模块,所述残差模块包括依次连接的第三谱归一化层、第七Relu激活函数层、第四谱归一化层、第九卷积层、第八Relu激活函数层和第五谱归一化层,所述残差模块的输入特征与所述第五谱归一化层的输出特征相加得到所述残差模块的输出特征。

6.一种语音克隆模型的训练装置,其特征在于,包括:

7.一种语音克隆方法,其特征在于,采用根据权利要求1-5中任一项所述的语音克隆模型的训练方法训练得到的经微调的语音克隆模型,包括以下步骤:

8.一种语音克隆装置,其特征在于,采用根据权利要求1-5中任一项所述的语音克隆模型的训练方法训练得到的经微调的语音克隆模型,包括:

9.一种电子设备,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。

...

【技术特征摘要】

1.一种语音克隆模型的训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的语音克隆模型的训练方法,其特征在于,所述文本对齐模块包括依次连接的第一卷积层、多层卷积序列层、卷积归一化层、第一全连接层、嵌入层、注意力机制层、lstm层和第二全连接层,所述多层卷积序列层包括依次连接的若干个卷积模块,每个卷积模块包括依次连接的第二卷积层、第一批归一化层和第一relu激活函数层,所述第一卷积层和卷积归一化层的卷积核大小为7×7,所述第二卷积层的卷积核大小为3×3;所述文本对齐模块的训练过程包括:将公开语音数据集中的语音数据进行预处理并提取对应的mfcc特征,再输入到所述文本对齐模块进行训练,直至收敛,得到经训练的文本对齐模块。

3.根据权利要求1所述的语音克隆模型的训练方法,其特征在于,所述第一音高提取模块和第二音高提取模块的结构相同,均包括依次连接的第一卷积序列层、第二批归一化层、第二relu激活函数层、第一残差块、第二残差块、第三残差块、第一池化层、第二卷积序列层、双向lsmt层和第三全连接层,所述第一卷积序列层包括依次连接的第三卷积层、第三批归一化层、第三relu激活函数层和第四卷积层,所述第二卷积序列层包括依次连接的第五卷积层、第四批归一化层、第四relu激活函数层和丢弃层,所述第一残差块、第二残差块和第三残差块采用残差块结构,所述残差块结构包括依次连接的预处理层、第三卷积序列层和第六卷积层,所述残差块结构的输入特征与所述第六卷积层的输出特征相加得到所述残差块的输出特征,所述预处理层包括第五批归一化层和第二池化层,所述第三卷积序列层包括依次连接的第七卷积层、第六批归一化层和第八卷积层,所述第三卷积层、第四卷积层、第七卷积层和第八卷积层的卷积核大小均为3×3,所述第五卷积层和第六卷积层的卷积核大小为1×1;所述第一音高提取模块和第二音高提取模块的训练过程包括:将公开语音数据集中的语音数据进行预处理并提取对应的mfcc特征,再分别输...

【专利技术属性】
技术研发人员:洪国强叶志坚肖龙源李稀敏
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1