语音合成方法、装置、电子设备和存储介质制造方法及图纸

技术编号：44851832 阅读：8 留言：0更新日期：2025-04-01 19:45

本发明专利技术提供一种语音合成方法、装置、电子设备和存储介质，所述方法包括：提取待合成文本的文本特征；基于目标说话人的标识，在说话人码本中查找与目标说话人匹配的目标语音编码；基于文本特征以及目标语音编码，对待合成文本进行语音合成，得到合成语音；说话人码本存储有不同说话人的语音编码，各说话人的语音编码是从各说话人的多个基础语音编码中选取的部分编码，且所有说话人对应部分编码的总数大于等于说话人总数。本发明专利技术提供的语音合成方法、装置、电子设备和存储介质，在保证语音合成精度的基础上，显著降低了模型冗余度，且提高了模型对参数的利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，尤其涉及一种语音合成方法、装置、电子设备和存储介质。

技术介绍

1、语音合成旨在将文本信息转化为自然流畅的语音输出，其广泛应用于虚拟助手、语音导航、有声读物制作以及无障碍辅助设备等多个领域。在语音合成中的一个关键环节是对说话人语音特征的有效编码，这直接关系到合成语音的自然度和辨识度。

2、目前的语音合成模型，通常采用向量化的方法，为每个说话人分配一个独立的向量来表征其语音特征。然而，在面对海量数据集，如包含数百万甚至数千万不同说话人的语音数据，为每个说话人分配一个独立的向量，直接导致内存占用量的爆炸式增长。此外，由于数据分布的不均衡性，部分说话人的数据量充足，而另一部分说话人的数据量则严重不足，导致这些向量的信息利用率很低，进而增加了模型的冗余度，降低了语音合成的整体效果。

技术实现思路

1、本专利技术提供一种语音合成方法、装置、电子设备和存储介质，用以解决现有技术中存在的缺陷。

2、本专利技术提供一种语音合成方法，包括如下步骤：

3、提取待合成文本的文本特征；

4、基于目标说话人的标识，在说话人码本中查找与所述目标说话人匹配的目标语音编码；

5、基于所述文本特征以及所述目标语音编码，对所述待合成文本进行语音合成，得到合成语音；

6、所述说话人码本存储有不同说话人的语音编码，各说话人的语音编码是从各说话人的多个基础语音编码中选取的部分编码，且所有说话人对应部分编码的总数大于等于说话人总数。

7、根据本专利技术提供的一种语音合成方法，各说话人的语音编码基于如下步骤确定：

8、基于所述说话人总数，确定说话人码本大小；

9、基于所述说话人码本大小，从各说话人的多个基础语音编码中选取部分编码作为各说话人的语音编码。

10、根据本专利技术提供的一种语音合成方法，所述基于所述说话人码本大小，从各说话人的多个基础语音编码中选取部分编码作为各说话人的语音编码，包括：

11、基于码本稀疏因子以及所述说话人码本大小，确定各说话人对应部分编码的数量，并随机从各说话人的多个基础语音编码中，选取相应数量的部分编码作为各说话人的语音编码；

12、或，

13、对各说话人进行随机排序，并基于各说话人排序序号对应的二进制表示，从各说话人的多个基础语音编码中选取部分编码作为各说话人的语音编码。

14、根据本专利技术提供的一种语音合成方法，所述基于所述文本特征以及所述目标语音编码，对所述待合成文本进行语音合成，得到合成语音，包括：

15、基于先验模型，应用所述文本特征以及所述目标语音编码，生成先验特征；

16、基于语音合成模型，应用所述文本特征、所述目标语音编码以及所述先验特征，对所述待合成文本进行语音合成，得到所述合成语音。

17、根据本专利技术提供的一种语音合成方法，所述语音合成模型联合所述先验模型以及后验模型训练得到，所述语音合成模型基于如下步骤训练得到：

18、提取样本合成文本的样本文本特征，以及基于样本说话人的标识，在所述说话人码本中查找与所述样本说话人匹配的第一样本语音编码；

19、基于所述先验模型的初始模型，应用所述样本文本特征以及所述第一样本语音编码，得到第一样本先验特征；

20、基于所述后验模型的初始模型，对合成语音标签的合成语音特征进行特征还原，得到样本后验特征，所述样本后验特征与所述第一样本先验特征的维度相同；

21、基于所述语音合成模型的初始模型，应用所述第一样本先验特征、所述样本文本特征以及所述第一样本语音编码，得到第一样本合成语音；

22、基于所述第一样本先验特征与所述样本后验特征之间的差异，以及所述第一样本合成语音与合成语音标签之间的差异，联合更新所述先验模型的初始模型、所述后验模型的初始模型以及所述语音合成模型的初始模型的参数，得到所述语音合成模型、所述先验模型以及所述后验模型。

23、根据本专利技术提供的一种语音合成方法，所述基于所述第一样本先验特征与所述样本后验特征之间的差异，以及所述第一样本合成语音与合成语音标签之间的差异，联合更新所述先验模型的初始模型、所述后验模型的初始模型以及所述语音合成模型的初始模型的参数，得到所述语音合成模型、所述先验模型以及所述后验模型，之后还包括：

24、提取样本说话人的样本语音特征，并基于所述样本语音特征在所述说话人码本中查找与所述样本语音特征匹配的第二样本语音编码；

25、基于所述先验模型，应用所述第二样本语音编码以及所述样本文本特征，得到第二样本先验特征；

26、基于所述语音合成模型，应用所述样本文本特征、所述第二样本先验特征以及所述第二样本语音编码输入至所述，得到第二样本合成语音；

27、基于所述第二样本先验特征与所述样本后验特征之间的差异，以及所述第二样本合成语音与合成语音标签之间的差异，微调所述语音合成模型以及所述先验模型的参数。

28、根据本专利技术提供的一种语音合成方法，所述基于语音合成模型，应用所述文本特征、所述目标语音编码以及所述先验特征，对所述待合成文本进行语音合成，得到所述合成语音，包括：

29、构建语音合成提示文本，所述语音合成提示文本用于指示所述待合成文本的语音合成要求；

30、基于所述语音合成模型，应用所述语音合成提示文本、所述文本特征、所述目标语音编码以及所述先验特征，对所述待合成文本进行语音合成，得到所述合成语音。

31、本专利技术还提供一种语音合成装置，包括如下模块：

32、提取单元，用于提取待合成文本的文本特征；

33、查找单元，用于基于目标说话人的标识，在说话人码本中查找与所述目标说话人匹配的目标语音编码；

34、合成单元，用于基于所述文本特征以及所述目标语音编码，对所述待合成文本进行语音合成，得到合成语音；

35、所述说话人码本存储有不同说话人的语音编码，各说话人的语音编码是从各说话人的多个基础语音编码中选取的部分编码，且所有说话人对应部分编码的总数大于等于说话人总数。

36、本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音合成方法。

37、本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音合成方法。

38、本专利技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音合成方法。

39、本专利技术提供的语音合成方法、装置、电子设备和存储介质，说话人码本中各说话人的语音编码是从各说话人的多个基础语音编码中选取的部分编码，避免直接存储每个说话人的全部基础语音编码来表示每个说话的语音特征，导致占用较大存储空间的本文档来自技高网...

【技术保护点】

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的语音合成方法，其特征在于，各说话人的语音编码基于如下步骤确定：

3.根据权利要求2所述的语音合成方法，其特征在于，所述基于所述说话人码本大小，从各说话人的多个基础语音编码中选取部分编码作为各说话人的语音编码，包括：

4.根据权利要求1至3任一项所述的语音合成方法，其特征在于，所述基于所述文本特征以及所述目标语音编码，对所述待合成文本进行语音合成，得到合成语音，包括：

5.根据权利要求4所述的语音合成方法，其特征在于，所述语音合成模型联合所述先验模型以及后验模型训练得到，所述语音合成模型基于如下步骤训练得到：

6.根据权利要求5所述的语音合成方法，其特征在于，所述基于所述第一样本先验特征与所述样本后验特征之间的差异，以及所述第一样本合成语音与合成语音标签之间的差异，联合更新所述先验模型的初始模型、所述后验模型的初始模型以及所述语音合成模型的初始模型的参数，得到所述语音合成模型、所述先验模型以及所述后验模型，之后还包括：

7.根据权利要求4所述的语

8.一种语音合成装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音合成方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音合成方法。

...

【技术特征摘要】

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的语音合成方法，其特征在于，各说话人的语音编码基于如下步骤确定：

6.根据权利要求5所述的语音合成方法，其特征在于，所述基于所述第一样本先验特征与所述样本后验特征之间的差异，以及所述第一样本合成语音与...

【专利技术属性】
技术研发人员：孙双运，孟廷，伍宏传，
申请(专利权)人：安徽讯飞寰语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人