一种情感语音合成方法、装置、设备及介质制造方法及图纸

技术编号：42057852 阅读：20 留言：0更新日期：2024-07-16 23:36

本申请适用于数字医疗技术领域，尤其涉及一种情感语音合成方法、装置、设备及介质。该方法根据待合成的文本数据对应的文本向量序列及待合成的情感对应的情感类向量，得到嵌入向量序列；对嵌入向量序列中每个向量对应的梅尔频谱特征进行预测，形成表征情感的初始梅尔频谱；对初始梅尔频谱进行预测，得到每个嵌入位置处情感类向量的时长、音高和能量；根据每个嵌入位置处情感类向量的时长、音高和能量，调节初始梅尔频谱，得到调节梅尔频谱，对调节梅尔频谱进行语音合成，得到合成语音，通过解耦各种情感下对应的时长、音高、和能量对初始梅尔频谱进行动态调整，得到更加贴近自然语音的合成语音，提高了数字医疗场景下的用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本申请适用于数字医疗，尤其涉及一种情感语音合成方法、装置、设备及介质。

技术介绍

1、随着互联网的发展，情感语音合成技术也得到了发展，目前许多情感语音tts系统已在情感清晰度、表达韵律自然度等方面取得了较好的效果，并逐渐应用于导航、语音播报、语音交互等场景中，还可以应用于智能诊疗、线上问诊等数字医疗场景中，给用户的生活带来了极大的方便。

2、在现有技术中，情感语音合成一般采用文本情感分类标签，并利用文本情感分类模型对输入数据分析不同类型的感情色彩来合成对应情绪的语音，但由于情感包含着众多更为细致的差异信息，例如音高、韵律、时长、能量等，且这些差异信息存在严重的纠缠，并隐藏在模型的输入数据中，而模型是对固定的输入数据进行差异信息的解耦，并未对输入数据进行挑选，导致解耦差异信息的输入数据不同，语音合成效果差。因此，如何提高情感语音合成效果成为亟待解决的问题。

技术实现思路

1、有鉴于此，本申请实施例提供了一种情感语音合成方法、装置、设备及介质，以解决情感语音合成效果差的问题。

2、第一方面，本申请实施例提供一种情感语音合成方法，所述情感语音合成方法包括：

3、获取待合成的文本数据对应的文本向量序列及待合成的情感对应的情感类向量，从所述文本向量序列中确定所述情感类向量的至少一个嵌入位置，根据每个嵌入位置，将所述情感类向量嵌入融合至所述文本向量序列，得到嵌入向量序列；

4、对所述嵌入向量序列中每个向量对应的梅尔频谱特征进行预测，得到对应向量的

5、基于时长变量对所述初始梅尔频谱进行预测，得到每个嵌入位置处情感类向量的时长，基于音高变量对所述初始梅尔频谱进行预测，得到每个嵌入位置处情感类向量的音高，基于能量变量对所述初始梅尔频谱进行预测，得到每个嵌入位置处情感类向量的能量；

6、根据每个嵌入位置处情感类向量的时长、音高和能量，调节所述初始梅尔频谱，得到调节梅尔频谱，使用预设的声码器对所述调节梅尔频谱进行语音合成，得到合成语音。

7、第二方面，本申请实施例提供一种情感语音合成装置，所述情感语音合成装置包括：

8、数据预处理模块，用于获取待合成的文本数据对应的文本向量序列及待合成的情感对应的情感类向量，从所述文本向量序列中确定所述情感类向量的至少一个嵌入位置，根据每个嵌入位置，将所述情感类向量嵌入融合至所述文本向量序列，得到嵌入向量序列；

9、频谱特征提取模块，用于对所述嵌入向量序列中每个向量对应的梅尔频谱特征进行预测，得到对应向量的第一预测值，将所述嵌入向量序列中每个向量作为频谱点，结合每个频谱点对应的第一预测值，形成表征情感的初始梅尔频谱；

10、差异信息获取模块，用于基于时长变量对所述初始梅尔频谱进行预测，得到每个嵌入位置处情感类向量的时长，基于音高变量对所述初始梅尔频谱进行预测，得到每个嵌入位置处情感类向量的音高，基于能量变量对所述初始梅尔频谱进行预测，得到每个嵌入位置处情感类向量的能量；

11、语音合成模块，用于根据每个嵌入位置处情感类向量的时长、音高和能量，调节所述初始梅尔频谱，得到调节梅尔频谱，使用预设的声码器对所述调节梅尔频谱进行语音合成，得到合成语音。

12、第三方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的情感语音合成方法。

13、第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的情感语音合成方法。

14、本申请实施例与现有技术相比存在的有益效果是：

15、本申请获取待合成的文本数据对应的文本向量序列及待合成的情感对应的情感类向量，从文本向量序列中确定情感类向量的至少一个嵌入位置，根据每个嵌入位置，将情感类向量嵌入融合至文本向量序列，得到嵌入向量序列；对嵌入向量序列中每个向量对应的梅尔频谱特征进行预测，得到对应向量的第一预测值，将嵌入向量序列中每个向量作为频谱点，结合每个频谱点对应的第一预测值，形成表征情感的初始梅尔频谱；基于时长变量对初始梅尔频谱进行预测，得到每个嵌入位置处情感类向量的时长，基于音高变量对初始梅尔频谱进行预测，得到每个嵌入位置处情感类向量的音高，基于能量变量对初始梅尔频谱进行预测，得到每个嵌入位置处情感类向量的能量；根据每个嵌入位置处情感类向量的时长、音高和能量，调节初始梅尔频谱，得到调节梅尔频谱，使用预设的声码器对调节梅尔频谱进行语音合成，得到合成语音，通过嵌入式变量获取待合成的文本数据和待合成的情感的嵌入向量序列，增强了数据的有效性，进而能够自适应选择不同情感下对应时长、音高、和能量的频谱点，提高了对各种情感下对应的时长、音高、和能量的解耦能力，从而利用各种情感下对应的时长、音高、和能量对初始梅尔频谱进行动态调整，对调整后得到的调节梅尔频谱进行语音合成，使得到的合成语音更加贴近自然语音，提高了语音合成效果。

本文档来自技高网...

【技术保护点】

1.一种情感语音合成方法，其特征在于，所述情感语音合成方法包括：

2.根据权利要求1所述的情感语音合成方法，其特征在于，所述基于时长变量对所述初始梅尔频谱进行预测，得到每个嵌入位置处情感类向量的时长，包括：

3.根据权利要求2所述的情感语音合成方法，其特征在于，所述获取训练好的时长预测器，包括：

4.根据权利要求1所述的情感语音合成方法，其特征在于，所述基于音高变量对所述初始梅尔频谱进行预测，得到每个嵌入位置处情感类向量的音高，包括：

5.根据权利要求4所述的情感语音合成方法，其特征在于，所述获取训练好的音高预测器，包括：

6.根据权利要求1所述的情感语音合成方法，其特征在于，所述基于能量变量对所述初始梅尔频谱进行预测，得到每个嵌入位置处情感类向量的能量，包括：

7.根据权利要求6所述的情感语音合成方法，其特征在于，所述获取训练好的能量预测器，包括：

8.一种情感语音合成装置，其特征在于，所述情感语音合成装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器以及存

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的情感语音合成方法。

...

【技术特征摘要】

1.一种情感语音合成方法，其特征在于，所述情感语音合成方法包括：

3.根据权利要求2所述的情感语音合成方法，其特征在于，所述获取训练好的时长预测器，包括：

5.根据权利要求4所述的情感语音合成方法，其特征在于，所述获取训练好的音高预测器，包括：

6.根据权利要求1所述的情感语音合成方法，其特征在于，所述基...

【专利技术属性】
技术研发人员：郭洋，王健宗，程宁，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人