语音转换模型的训练方法、装置、设备及介质制造方法及图纸

技术编号：43869364 阅读：23 留言：0更新日期：2024-12-31 18:55

本发明专利技术公开了一种语音转换模型的训练方法、装置、系统及介质，包括：由编码器将输入的梅尔谱进行处理，输出说话人嵌入、内容嵌入和隐编码，并将说话人嵌入、内容嵌入和隐编码输入至解码器；解码器接收到说话人嵌入、内容嵌入和隐编码后，通过特征融合和上采样操作生成重建梅尔谱；通过目标梅尔谱、说话人嵌入、内容嵌入和重建梅尔谱计算总损失值，根据总损失值更新模型参数。发明专利技术通过编码器得到说话人嵌入、内容嵌入和隐编码，解码器进行重建梅尔谱。根据目标梅尔谱、说话人嵌入、内容嵌入和重建梅尔谱计算损失值对模型进行训练，有效地避免音频信息受损和丢失，提高模型捕捉和模仿说话人的语音特征的能力，以及语音转换的自然度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音数据处理，应用于金融或医疗等对话场景中，尤其涉及一种语音转换模型的训练方法、装置、设备及存储介质。

技术介绍

1、语音转换技术是一种能够将源说话人的语音内容转换成保留说话内容同时具备目标说话人音色和语调特征的语音的技术。但是使用向量量化进行语音特征解耦可能会损失一些重要的音频特征，导致转换后的语音质量下降，听起来可能不够自然或有些机械。并且更换应用场景或说话人时，通常需要重新收集数据并训练模型，这不仅耗时而且成本较高。传统模型可能在特定数据集上表现良好，但在新的或不同的数据集上性能下降，缺乏足够的泛化能力。以及传统方法可能难以准确捕捉和复制目标说话人的所有语音特征，包括情感、语速等细微差别。传统模型的性能很大程度上依赖于训练数据的质量和多样性，如果训练数据不足或偏差，模型可能无法很好地学习和转换。

技术实现思路

1、本专利技术实施例的目的在于提出一种语音转换模型的训练方法、装置、设备及存储介质，以解决现有技术使用传统模型进行语音特征解耦时，出现音频特征损害和丢失，以及提高语音转换模型的自然度和适应性。

2、为了解决上述技术问题，本专利技术实施例提供语音转换模型的训练方法，采用了如下所述的技术方案：

3、一种语音转换模型的训练方法，包括下述步骤：

4、由编码器将输入的梅尔谱进行处理，输出说话人嵌入、内容嵌入和隐编码，并将所述说话人嵌入、内容嵌入和隐编码输入至解码器；

5、所述解码器接收到所述说话人嵌入、内容嵌入和隐编码

6、通过目标梅尔谱、说话人嵌入、内容嵌入和重建梅尔谱计算总损失值，根据总损失值更新模型参数，完成语音转换模型训练。

7、在一个实施例中，所述由编码器将输入的梅尔谱进行处理，输出说话人嵌入、内容嵌入和隐编码，并将所述说话人嵌入、内容嵌入和隐编码输入至解码器之前，包括：

8、获取训练语音数据，对所述训练语音数据预处理获得训练数据集；

9、将所述训练语音数据集转化为梅尔谱。

10、在一个实施例中，所述由编码器将输入的梅尔谱进行处理，输出说话人嵌入、内容嵌入和隐编码，并将所述说话人嵌入、内容嵌入和隐编码输入至解码器，包括：

11、所述编码器对梅尔谱进行特征提取获得隐编码；

12、对所述隐编码进行向量量化操作生成内容嵌入；

13、计算所述隐编码与所述内容嵌入的差值，获得说话人嵌入；

14、将所述说话人嵌入、内容嵌入和隐编码输入至解码器。

15、在一个实施例中，所述解码器接收到所述说话人嵌入、内容嵌入和隐编码后，通过特征融合和上采样操作生成重建梅尔谱，包括：

16、通过所述解码器将所述说话人嵌入和内容嵌入进行特征融合，得到特征嵌入；

17、将所述特征嵌入与所述隐编码相加，并进行上采样处理获得重建梅尔谱。

18、在一个实施例中，所述通过目标梅尔谱、说话人嵌入、内容嵌入和重建梅尔谱计算总损失值，包括：

19、根据所述梅尔谱与重建梅尔谱计算重建损失；

20、将所述说话人嵌入和内容嵌入输入对应的分类器计算分类损失；

21、计算对隐编码进行向量量化操作时的量化损失；

22、通过加权求和计算重建损失、分类损失和量化损失的总损失值。

23、在一个实施例中，所述根据总损失值更新模型参数，完成语音转换模型训练，包括：

24、使用反向传播算法根据总损失值计算模型参数的梯度；

25、通过优化算法根据梯度更新模型参数，完成语音转换模型训练。

26、在一个实施例中，所述通过目标梅尔谱、说话人嵌入、内容嵌入和重建梅尔谱计算总损失值，根据总损失值更新模型参数，完成语音转换模型训练的步骤之后，还包括：

27、由编码器根据目标说话人的梅尔谱获取目标说话人嵌入；

28、由编码器根据源说话人的梅尔谱获取源说话人内容嵌入和源说话人隐编码；

29、将所述源说话人内容嵌入、源说话人隐编码和目标说话人嵌入输入至对应层级解码器进行信息融合和上采样操作，输出目标说话人的特征梅尔谱，完成语音转换。

30、为了解决上述技术问题，本专利技术实施例还提供语音转换模型的训练装置，采用了如下所述的技术方案：

31、一种语音转换模型的训练装置，包括：

32、编码器模块，用于由编码器将输入的梅尔谱进行处理，输出说话人嵌入、内容嵌入和隐编码，并将所述说话人嵌入、内容嵌入和隐编码输入至解码器；

33、解码器模块，用于所述解码器接收到所述说话人嵌入、内容嵌入和隐编码后，通过特征融合和上采样操作生成重建梅尔谱；

34、模型训练模块，用于通过目标梅尔谱、说话人嵌入、内容嵌入和重建梅尔谱计算总损失值，根据总损失值更新模型参数，完成语音转换模型训练。

35、为了解决上述技术问题，本专利技术实施例还提供一种计算机设备，采用了如下所述的技术方案：

36、一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述所述的语音转换模型的训练方法的步骤。

37、为了解决上述技术问题，本专利技术实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

38、一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上述所述的语音转换模型的训练方法的步骤。

39、与现有技术相比，本专利技术实施例主要有以下有益效果：

40、本专利技术实施例所述语音转换模型的训练方法，通过由编码器将输入的梅尔谱进行处理，输出说话人嵌入、内容嵌入和隐编码，并将说话人嵌入、内容嵌入和隐编码输入至解码器；解码器接收到说话人嵌入、内容嵌入和隐编码后，通过特征融合和上采样操作生成重建梅尔谱；通过目标梅尔谱、说话人嵌入、内容嵌入和重建梅尔谱计算总损失值，根据总损失值更新模型参数。专利技术通过编码器得到说话人嵌入、内容嵌入和隐编码，解码器进行重建梅尔谱。根据目标梅尔谱、说话人嵌入、内容嵌入和重建梅尔谱计算损失值对模型进行训练，有效地避免音频信息受损和丢失，提高模型捕捉和模仿说话人的语音特征的能力，以及语音转换的自然度。

本文档来自技高网...

【技术保护点】

1.一种语音转换模型的训练方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的语音转换模型的训练方法，其特征在于，所述由编码器将输入的梅尔谱进行处理，输出说话人嵌入、内容嵌入和隐编码，并将所述说话人嵌入、内容嵌入和隐编码输入至解码器之前，包括：

3.根据权利要求1或2所述的语音转换模型的训练方法，其特征在于，所述由编码器将输入的梅尔谱进行处理，输出说话人嵌入、内容嵌入和隐编码，并将所述说话人嵌入、内容嵌入和隐编码输入至解码器，包括：

4.根据权利要求1所述的语音转换模型的训练方法，其特征在于，所述解码器接收到所述说话人嵌入、内容嵌入和隐编码后，通过特征融合和上采样操作生成重建梅尔谱，包括：

5.根据权利要求1所述的语音转换模型的训练的方法，其特征在于，所述通过目标梅尔谱、说话人嵌入、内容嵌入和重建梅尔谱计算总损失值，包括：

6.根据权利要求5所述的语音转换模型的训练方法，其特征在于，所述根据总损失值更新模型参数，完成语音转换模型训练，包括：

7.根据权利要求1所述的语音转换模型的训练方法，其特征在于，所

8.一种语音转换模型的训练装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的语音转换模型的训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的语音转换模型的训练方法的步骤。

...

【技术特征摘要】

1.一种语音转换模型的训练方法，其特征在于，包括下述步骤：

5.根据权利要求1所述的语音转换模型的训练的方法，其特征在于，所述通过目标梅尔谱、说话人嵌入、内容嵌入和重建梅尔谱计算总损失值，包括：

【专利技术属性】
技术研发人员：刘航驿，李俊杰，陈闽川，王少军，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人