语音合成、语音识别方法、训练方法、装置、电子设备、存储介质制造方法及图纸

技术编号：41177249 阅读：2 留言：0更新日期：2024-05-07 22:12

本申请公开一种语音生成模型训练方法，包括：获取训练数据集；从所述训练数据集选取多条数据条目，生成多个批处理数据条目集，其中，每个批处理数据条目集中有纯文本数据条目、纯音频数据条目和文本音频对数据条目；对所述批处理数据条目集中的数据条目进行离散编码处理，生成多条数据条目离散编码；根据所述多个批处理数据条目集中的多条数据条目离散编码对自回归模型进行训练，生成目标语音合成模型。还包括语音识别模型训练方法、语音合成方法、语音识别方法。本申请能够利用大量的无监督数据和有监督数据混合的方式进行训练，提高了数据的利用率，避免了模型的多阶段训练。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及多媒体内容处理的，具体地涉及语音合成模型的训练方法、语音识别模型的训练方法、语音合成方法、语音识别方法以及相关的装置、模型、电子设备及存储介质。

技术介绍

1、现有技术中，基于文本音频段对数据对tts(语音合成)模型进行训练，目前的训练方案中，无标签的纯文本、纯音频由于没有标签或者没有标注，无法有效利用，另外，如果采用无监督的方式训练文本的编码器和音频的编码器，需要在下游任务做finetune(对特定任务或者领域的适应)，训练方式较为复杂，训练成本和难度较高。

2、此
技术介绍
的说明旨在帮助理解相关领域内的相关技术，并不代表承认
技术介绍
内容属于现有技术。

技术实现思路

1、因此，本申请实施例意图提供一种语音合成模型训练方法、语音识别模型训练方法、语音合成方法、语音识别方法以及相关的模型、电子设备及存储介质。通过本申请实施例的方案，可以将文本、音频或音频文本对离散编码后混合输入到自回归模型中，实现了无监督训练中的多种模态的训练数据的混合输入，从而降低了模型训练成本和难度。

2、第一方面，本申请实施例提供了语音合成模型训练方法，包括如下步骤：

3、获取训练数据集，所述训练数据集包括多条数据条目，所述数据条目的类型包括纯文本数据条目、纯音频数据条目和文本音频对数据条目；

4、从所述训练数据集选取多条数据条目，生成多个批处理数据条目集，其中，每个批处理数据条目集中有纯文本数据条目、纯音频数据条目和文本音频对数据条目，所述批处理数据条目

5、对所述批处理数据条目集中的数据条目进行离散编码处理，生成多条数据条目离散编码，其中每条数据条目离散编码中包括文本离散编码和语音离散编码，所述数据条目离散编码中文本离散编码位于所述语音离散编码前；

6、根据所述多个批处理数据条目集中的多条数据条目离散编码对自回归模型进行训练，生成目标语音合成模型。

7、在本申请的一些实施例中，所述文本离散编码包括文本离散编码内容，所述语音离散编码包括语音离散编码内容；所述对所述批处理数据条目集中的数据条目进行离散编码，生成多条数据条目离散编码，包括：

8、响应于数据条目为纯文本数据条目，对纯文本数据条目中的文本内容离散编码处理，获取所述文本离散编码内容，将所述语音离散编码内容设置为空；

9、响应于数据条目为纯音频数据条目，对纯音频数据条目中的音频内容离散编码处理，获取所述语音离散编码内容，将所述文本离散编码内容设置为空；

10、响应于数据条目为文本音频对数据条目，对文本音频对数据条目中的文本内容离散编码处理，获取所述文本离散编码内容，对文本音频对数据条目中的音频内容离散编码处理，获取所述语音离散编码内容。

11、在本申请的一些实施例中，所述文本离散编码还包括文本离散编码开始标志和文本离散编码结束标志，所述文本离散编码内容位于所述文本离散编码开始标志和文本离散编码结束标志之间；所述语音离散编码还包括语音离散编码开始标志和语音离散编码结束标志，所述语音离散编码内容位于所述语音离散编码开始标志和语音离散编码结束标志之间。

12、在本申请的一些实施例中，对文本内容离散编码处理，获取所述文本离散编码内容，包括：

13、对所述文本内容进行音素转换，生成所述文本离散编码内容。

14、在本申请的一些实施例中，对音频内容离散编码处理，获取所述语音离散编码内容，包括：

15、将所述音频内容输入音频编码器，获取所述语音离散编码内容。

16、第二方面，本申请实施例提供一种语音合成方法，包括如下步骤：

17、获取输入数据，所述输入数据包括目标文本；

18、对所述输入数据进行离散编码处理，获取输入数据离散编码，所述输入数据离散编码包括文本离散编码和语音离散编码，所述文本离散编码位于所述语音离散编码前；

19、将所述输入数据离散编码输入到目标语音合成模型，获取输出语音离散编码；

20、将所述输出语音离散编码输入语音解码器解码，获取目标输出音频。

21、在本申请的一些实施例中，所述输入数据还包括具有设定音色、环境声的目标音频段。

22、在本申请的一些实施例中，所述文本离散编码包括文本离散编码内容，所述语音离散编码包括语音离散编码内容；

23、当所述输入数据为目标文本时，所述对所述输入数据进行离散编码处理，获取输入数据离散编码，包括：

24、对所述目标文本进行离散编码处理，获取所述文本离散编码内容，将所述语音离散编码内容置空；

25、当所述输入数据为目标文本和目标音频段时，所述对所述输入数据进行离散编码处理，获取输入数据离散编码，包括：

26、对所述目标文本进行离散编码处理，获取所述文本离散编码内容，对所述目标音频段进行离散编码处理，获取所述语音离散编码内容。

27、在本申请的一些实施例中，当所述输入数据为目标文本时，所述将所述输入数据离散编码输入到目标语音合成模型，获取输出语音离散编码，包括：

28、将输入数据离散编码输入到目标语音合成模型，解码计算后，获取输出语音离散编码；

29、当所述输入数据为目标文本和目标音频段时，所述将所述输入数据离散编码输入到目标语音合成模型，获取输出语音离散编码，包括：

30、将所述文本离散编码内容输入数据离散编码输入到目标语音合成模型，并将所述语音离散编码内容按照提示词方式输入到所述目标语音合成模型，解码计算后，获取输出语音离散编码。

31、在本申请的一些实施例中，所述目标语音合成模型由本申请任一实施例中语音合成模型训练方法训练得到。

32、第三方面，本申请实施例提供一种语音识别模型训练方法，包括如下步骤：

33、获取训练数据集，所述训练数据集包括多条数据条目，所述数据条目的类型包括纯文本数据条目、纯音频数据条目和文本音频对数据条目；

34、从所述训练数据集选取多条数据条目，生成多个批处理数据条目集，其中，每个批处理数据条目集中有纯文本数据条目、纯音频数据条目和文本音频对数据条目，所述批处理数据条目集中的所述纯文本数据条目、纯音频数据条目和文本音频对数据条目之间的比例满足设定比例条件；

35、对所述批处理数据条目集中的数据条目进行离散编码处理，生成多条数据条目离散编码，其中每条数据条目离散编码中包括文本离散编码和语音离散编码，所述数据条目离散编码中所述语音离散编码位于所述文本离散编码前；

36、根据所述多个批处理数据条目集中的多条数据条目离散编码对自回归模型进行训练，生成语音识别模型。

37、在本申请的一些实施例中，所述文本离散编码包括文本离散编码内容，所述语音离散编码包括语音离散编码内容；所述对所述批处理数据条目集中的本文档来自技高网...

【技术保护点】

1.一种语音合成模型训练方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述文本离散编码包括文本离散编码内容，所述语音离散编码包括语音离散编码内容；所述对所述批处理数据条目集中的数据条目进行离散编码处理，生成多条数据条目离散编码，包括：

3.根据权利要求2所述的方法，其特征在于，所述文本离散编码还包括文本离散编码开始标志和文本离散编码结束标志，所述文本离散编码内容位于所述文本离散编码开始标志和文本离散编码结束标志之间；所述语音离散编码还包括语音离散编码开始标志和语音离散编码结束标志，所述语音离散编码内容位于所述语音离散编码开始标志和语音离散编码结束标志之间。

4.根据权利要求2所述的方法，其特征在于，对文本内容离散编码处理，获取所述文本离散编码内容，包括：

5.根据权利要求2所述的方法，其特征在于，对音频内容离散编码处理，获取所述语音离散编码内容，包括：

6.一种语音合成方法，其特征在于，包括如下步骤：

7.根据权利要求6所述的方法，其特征在于，所述输入数据还包括具有设定音色、环境声的目标音频段。

8.根据权利要求6或7所述的方法，其特征在于，所述文本离散编码包括文本离散编码内容，所述语音离散编码包括语音离散编码内容；

9.根据权利要求6或7所述的方法，其特征在于，

10.根据权利要求6所述的方法，其特征在于，所述目标语音合成模型由权利要求1～5中任一项所述的方法训练得到。

11.一种语音识别模型训练方法，其特征在于，包括如下步骤：

12.根据权利要求11所述的方法，其特征在于，所述文本离散编码包括文本离散编码内容，所述语音离散编码包括语音离散编码内容；所述对所述批处理数据条目集中的数据条目进行离散编码处理，生成多条数据条目离散编码，包括：

13.根据权利要求12所述的方法，其特征在于，所述文本离散编码还包括文本离散编码开始标志和文本离散编码结束标志，所述文本离散编码内容位于所述文本离散编码开始标志和文本离散编码结束标志之间；所述语音离散编码还包括语音离散编码开始标志和语音离散编码结束标志，所述语音离散编码内容位于所述语音离散编码开始标志和语音离散编码结束标志之间。

14.根据权利要求12所述的方法，其特征在于，对文本内容离散编码处理，获取所述文本离散编码内容，包括：

15.根据权利要求12所述的方法，其特征在于，对音频内容离散编码处理，获取所述语音离散编码内容，包括：

16.一种语音识别方法，其特征在于，包括如下步骤：

17.根据权利要求16所述的方法，其特征在于，所述文本离散编码包括文本离散编码内容，所述语音离散编码包括语音离散编码内容；

18.根据权利要求16所述的方法，其特征在于，所述将所述输入数据离散编码输入到目标语音识别模型，获取输出文本离散编码，包括：

19.根据权利要求16所述的方法，其特征在于，所述目标语音识别模型由权利要求11～15中任一项所述方法训练得到。

20.一种语音合成模型训练装置，其特征在于，包括训练数据集获取模块、批处理数据集成模块、离散编码处理模块和训练模块，其中，

21.一种语音合成模型，其特征在于，所述语音合成模型由权利要求1～5中任一项所述的方法训练得到。

22.一种语音合成装置，其特征在于，包括输入数据获取模块、离散编码处理模块、模型计算模块和语音解码器模块，其中，

23.一种语音识别模型训练装置，其特征在于，包括训练数据集获取模块、批处理数据集成模块、离散编码处理模块和训练模块，其中，

24.一种语音识别模型，其特征在于，所述语音识别模型由权利要求11～15中任一项所述方法训练得到。

25.一种语音识别装置，其特征在于，包括输入数据获取模块、离散编码处理模块、模型计算模块和反离散编码处理模块，其中，

26.一种电子设备，其特征在于，包括处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行权利要求1至19中任一项所述的方法。

27.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被配置为被运行时执行权利要求1至19中任一项所述的方法。

...

【技术特征摘要】