语音合成方法、装置、电子设备和存储介质制造方法及图纸

技术编号：37320180 阅读：30 留言：0更新日期：2023-04-21 23:00

本发明专利技术提供一种语音合成方法、装置、电子设备和存储介质，其中方法包括：获取待合成的文本；基于所述文本进行声学建模，得到所述文本对应的语音特征，所述语音特征与样本语音特征处于同一特征空间，所述样本语音特征是端到端语音合成模型或自监督语音特征提取模型对样本语音进行特征提取得到的；基于所述语音特征进行波形重构，得到所述文本对应的合成语音。本发明专利技术实施例提供的方法，将与基于端到端语音合成模型或自监督语音特征提取模型提取的样本语音特征处于同一特征空间内的语音特征，作为声学模型与声码器之间的桥梁以实现语音合成，从而使得语音合成过程中能够参考到更加丰富的声学信息，由此提高合成语音的语音质量。量。量。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、电子设备和存储介质

[0001]本专利技术涉及计算机
，尤其涉及一种语音合成方法、装置、电子设备和存储介质。

技术介绍

[0002]语音合成(speech synthesis)又称文语转换(text
‑
to
‑
speech，TTS)，旨在将输入文本转换为流畅自然的输出语音，是实现人机语音交互的关键技术。
[0003]语音合成系统，通常由两个模块构成，分别是声学模型和声码器模块。其中，声学模型实现输入文本到声学特征的映射，声码器则实现声学特征到语音波形的重构。作为声学模型和声码器之间的桥梁，声学特征的优劣在一定程度上决定了合成语音的音质上限。
[0004]目前主流的语音合成系统大多使用梅尔谱(mel
‑
spectrograms)作为声学特征。梅尔普特征以预加重、分帧、加窗、傅里叶变换等步骤提取得到，这种预先确定的特征从根本上是受限的。相比于原始音频，梅尔谱特征损失了部分声学信息，从而限制了合成语音音质的提升。

技术实现思路

[0005]本专利技术提供一种语音合成方法、装置、电子设备和存储介质，用以解决现有技术中应用梅尔谱特征进行语音合成，限制了合成语音音质的提升的缺陷。
[0006]本专利技术提供一种语音合成方法，包括：
[0007]获取待合成的文本；
[0008]基于所述文本进行声学建模，得到所述文本对应的语音特征，所述语音特征与样本语音特征处于同一特征空间，所述样本语音特征是端到端...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：获取待合成的文本；基于所述文本进行声学建模，得到所述文本对应的语音特征，所述语音特征与样本语音特征处于同一特征空间，所述样本语音特征是端到端语音合成模型或自监督语音特征提取模型对样本语音进行特征提取得到的；基于所述语音特征进行波形重构，得到所述文本对应的合成语音。2.根据权利要求1所述的语音合成方法，其特征在于，所述基于所述文本进行声学建模，得到所述文本对应的语音特征，包括：基于声学模型，对所述文本进行声学建模，得到所述文本对应的语音特征；所述声学模型是基于样本文本，以及所述样本文本所对应样本语音的样本语音特征训练得到的。3.根据权利要求2所述的语音合成方法，其特征在于，所述声学模型的训练步骤包括：基于初始声学模型，对所述样本文本进行声学建模，得到所述样本文本对应的预测语音特征和预测音素时长；基于所述预测语音特征和所述样本语音的样本语音特征，以及所述预测音素时长和所述样本语音的音素时长标签，对所述初始声学模型进行参数迭代，得到所述声学模型。4.根据权利要求1所述的语音合成方法，其特征在于，所述基于所述语音特征进行波形重构，得到所述文本对应的合成语音，包括：基于声码器，对所述语音特征进行波形重构，得到所述文本对应的合成语音；所述声码器是基于样本语音，以及所述样本语音的样本语音特征训练得到的。5.根据权利要求4所述的语音合成方法，其特征在于，所述声码器的训练步骤包括：基于初始声码器，对所述样本语音特征进行波形重构，得到预测语音；基于初始判别器，判别所述预测语音和所述样本语音的真伪，得到所述预测语音和所述样本语音的真伪判别结果；基于所述预测语音和所述样本语音的真伪判别结果，对所述初始声码器和所述初始判别器进行参数迭代，并，基于所...

【专利技术属性】
技术研发人员：董元杰，宋锐，胡亚军，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人