语音合成方法及其模型训练方法、装置以及存储介质制造方法及图纸

技术编号：43651232 阅读：3 留言：0更新日期：2024-12-13 12:45

本申请提供一种语音合成的模型训练方法、语音合成方法、语音合成装置以及计算机可读存储介质。该语音合成的模型训练方法包括：将语音文本输入待训练的语音合成模型，获取预测声学特征；基于实际频谱能量高密度子空间矩阵和预测频谱能量高密度子空间矩阵，获取频谱相似度损失值；基于实际频谱能量低密度子空间矩阵和所述预测频谱能量低密度子空间矩阵，获取能量分布损失值；按照频谱相似度损失值和能量分布损失值，对语音合成模型进行训练。通过上述方式，语音合成装置通过频谱相似度损失函数和能量分布损失函数对语音合成模型进行训练，以缓解合成语音整体平淡、局部瑕疵的问题，提高语音合成效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音处理，特别是涉及一种语音合成的模型训练方法、语音合成方法、语音合成装置以及计算机可读存储介质。

技术介绍

1、语音合成(tts，text to speech)是一种能将语言文字转换成语音音频信号的技术。tts系统一般包含3个功能模块：语言学特征提取模块、声学模型和声码器。本方案主要是针对声学模型的优化改良，声学模型的作用是将语言学特征(如音素序列)转换成声学特征(如梅尔频谱)，现有主流算法方案包括tacotron、transformertts、fastspeech、delightfultts等，以及它们的改进方案。

2、声学模型在tts系统中起着关键作用，它不仅要解决语音信号生成的问题，还要决定语音音色、控制韵律和情感。然而在训练这个关键模型时，主流算法使用的损失函数往往非常简单。比如直接用平均绝对误差(mae，mean absolute error)来作为频谱损失函数，即计算真实语音的梅尔频谱和模型预测的梅尔频谱的mae值。这种损失函数更注重音频全局特性，音频细节特性容易被掩盖，造成整体语音表现力趋于平淡、甚至出现局部发音瑕疵，非常影响听感。

技术实现思路

1、本申请提供了一种语音合成的模型训练方法、语音合成方法、语音合成装置以及计算机可读存储介质。

2、本申请提供了一种语音合成的模型训练方法，所述语音合成的模型训练方法包括：

3、将语音文本输入待训练的语音合成模型，获取预测声学特征；

4、获取所述语音文本对应的实际声学特征；

5、获取所述实际声学特征的实际频谱能量高密度子空间矩阵和实际频谱能量低密度子空间矩阵，以及所述预测声学特征的预测频谱能量高密度子空间矩阵和预测频谱能量低密度子空间矩阵；

6、基于所述实际频谱能量高密度子空间矩阵和所述预测频谱能量高密度子空间矩阵，获取频谱相似度损失值；

7、基于所述实际频谱能量低密度子空间矩阵和所述预测频谱能量低密度子空间矩阵，获取能量分布损失值；

8、按照所述频谱相似度损失值和所述能量分布损失值，对所述语音合成模型进行训练。

9、其中，所述获取所述实际声学特征的实际频谱能量高密度子空间矩阵和实际频谱能量低密度子空间矩阵，包括：

10、获取所述实际声学特征的频谱矩阵；

11、计算所述频谱矩阵中所有元素的平均值；

12、按照所述平均值设置阈值；

13、利用所述所有元素中大于等于所述阈值的元素，构建所述实际频谱能量高密度子空间矩阵；

14、利用所述所有元素中小于所述阈值的元素，构建所述实际频谱能量低密度子空间矩阵。

15、其中，所述获取所述实际声学特征的频谱矩阵之后，所述模型训练方法还包括：

16、获取所述频谱矩阵中的最小元素和最大元素；

17、利用所述最小元素和所述最大元素对所述频谱矩阵的所有元素进行正规化，获取正规化后的频谱矩阵。

18、其中，所述基于所述实际频谱能量高密度子空间矩阵和所述预测频谱能量高密度子空间矩阵，获取频谱相似度损失值，包括：

19、获取所述实际频谱能量高密度子空间矩阵的实际高密度向量；

20、获取所述预测频谱能量高密度子空间矩阵的预测高密度向量；

21、利用所述实际高密度向量与所述预测高密度向量的协方差和标准差，获取所述频谱相似度损失值。

22、其中，所述实际频谱能量高密度子空间矩阵的列按照频谱长度划分，行按照频谱特征维度划分；

23、所述获取所述实际频谱能量高密度子空间矩阵的实际高密度向量，包括：

24、将所述实际频谱能量高密度子空间矩阵按照行的方向展开，拼接为一维的实际高密度向量。

25、其中，所述基于所述实际频谱能量低密度子空间矩阵和所述预测频谱能量低密度子空间矩阵，获取能量分布损失值，包括：

26、将所述实际频谱能量低密度子空间矩阵分为若干实际低密度子矩阵，将所述预测频谱能量低密度子空间矩阵分为相同数量的若干预测低密度子矩阵；

27、获取相同位置的实际低密度子矩阵和预测低密度子矩阵的相对熵；

28、按照所有相对熵的平均值作为所述能量分布损失值。

29、其中，所述获取相同位置的实际低密度子矩阵和预测低密度子矩阵的相对熵，包括：

30、获取所述实际低密度子矩阵中所有元素的实际均值和实际方差，并根据所述实际均值和所述实际方差，获取所述实际低密度子矩阵的实际概率密度函数；

31、获取所述预测低密度子矩阵中所有元素的预测均值和预测方差，并根据所述预测均值和所述预测方差，获取所述预测低密度子矩阵的预测概率密度函数；

32、利用所述实际概率密度函数和所述预测概率密度函数，确定相同位置的实际低密度子矩阵和预测低密度子矩阵的相对熵。

33、其中，所述获取相同位置的实际低密度子矩阵和预测低密度子矩阵的相对熵，包括：

34、获取预设采样率，根据所述预设采样率以及所述实际低密度子矩阵的数量，确定采样数量；

35、按照所述采样数量在所述若干实际低密度子矩阵中随机获取随机实际低密度子矩阵，以及对应位置的随机预测低密度子矩阵；

36、获取相同位置的随机实际低密度子矩阵和随机预测低密度子矩阵的相对熵。

37、本申请还提供了一种语音合成方法，所述语音合成方法包括：

38、获取待合成语音文本；

39、将所述待合成语音文本输入预先训练的语音合成模型，获取所述语音文本对应的语音音频；

40、其中，所述语音合成模型通过上述的模型训练方法训练所得。

41、本申请还提供了一种语音合成装置，所述语音合成装置包括处理器和存储器，所述存储器中存储有程序数据，所述处理器用于执行所述程序数据以实现如上述的语音合成的模型训练方法，和/或语音合成方法。

42、本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序数据，所述程序数据在被处理器执行时，用以实现上述的语音合成的模型训练方法，和/或语音合成方法。

43、本申请的有益效果是：语音合成装置将语音文本输入待训练的语音合成模型，获取预测声学特征；获取实际声学特征的实际频谱能量高密度子空间矩阵和实际频谱能量低密度子空间矩阵，以及预测声学特征的预测频谱能量高密度子空间矩阵和预测频谱能量低密度子空间矩阵；基于实际频谱能量高密度子空间矩阵和预测频谱能量高密度子空间矩阵，获取频谱相似度损失值；基于实际频谱能量低密度子空间矩阵和所述预测频谱能量低密度子空间矩阵，获取能量分布损失值；按照频谱相似度损失值和能量分布损失值，对语音合成模型进行训练。通过上述方式，语音合成装置通过频谱相似度损失函数和能量分布损失函数对语音合成模型进行训练，以缓解合成语音整体平淡、局部瑕疵的问题，提高语音合成效果。

本文档来自技高网...

【技术保护点】

1.一种语音合成的模型训练方法，其特征在于，所述语音合成的模型训练方法包括：

2.根据权利要求1所述的模型训练方法，其特征在于，

3.根据权利要求2所述的模型训练方法，其特征在于，

4.根据权利要求1所述的模型训练方法，其特征在于，

5.根据权利要求4所述的模型训练方法，其特征在于，

6.根据权利要求1所述的模型训练方法，其特征在于，

7.根据权利要求6所述的模型训练方法，其特征在于：

8.根据权利要求6所述的模型训练方法，其特征在于，

9.一种语音合成方法，其特征在于，所述语音合成方法包括：

10.一种语音合成装置，其特征在于，所述语音合成装置包括处理器和存储器，所述存储器中存储有程序数据，所述处理器用于执行所述程序数据以实现如权利要求1-8任一项所述的模型训练方法，和/或权利要求9所述的语音合成方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序数据，所述程序数据在被处理器执行时，用以实现权利要求1-8任一项所述的模型训练方法

...

【技术特征摘要】