语音合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37344128 阅读：15 留言：0更新日期：2023-04-22 21:36

本申请提供一种语音合成方法、装置、电子设备及存储介质，该方法包括：获取目标语言的训练数据；其中，训练数据包括目标语言的语音信息以及与语音信息对应的文本信息；基于语音识别系统对训练数据进行识别，得到多个文本单元以及每个文本单元对应的目标发音序列；其中，目标发音序列包括文本单元对应的音素和声调；根据文本单元对应的目标发音序列，对标准发音字典进行调整，以得到目标发音字典；根据目标发音字典确定目标语音合成系统。本申请通过文本单元对应的目标发音序列，对标准发音字典进行调整，得到目标发音字典，可以根据目标发音字典快速得到符合要求的目标语音合成系统，且对样本数据的要求较低。且对样本数据的要求较低。且对样本数据的要求较低。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、电子设备及存储介质

[0001]本申请涉及语音合成
，更具体地，涉及语音合成方法、装置、电子设备及存储介质。

技术介绍

[0002]随着技术发展，语音合成技术也越来越成熟，语音合成系统可以将文本转化为语音，不仅方便快捷，而且节省了人力资源，因此语音合成系统在越来越多的领域内得到了应用。
[0003]但是为了使语音合成系统合成的语音的质量高，需要获取非常多的训练数据对语音合成系统进行训练，在语音类型为普通话等常见的语言时，训练数据的获取较为容易，但在语音类型为较不常见的语言，例如为各地方言时，便难以获取足够多的训练数据对语音合成系统进行训练，因此语音合成系统合成的语音的质量不佳，难以满足使用需求。

技术实现思路

[0004]鉴于上述问题，本申请提出了一种语音合成方法、装置、电子设备及存储介质，以改善上述问题。
[0005]第一方面，本申请实施例提供了一种语音合成方法，方法包括：获取目标语言的训练数据；其中，训练数据包括目标语言的语音信息以及与语音信息对应的文本信息；基于语音识别系统对训练数据进行识别，得到多个文本单元以及每个文本单元对应的目标发音序列；其中，目标发音序列包括文本单元对应的音素和声调；根据文本单元对应的目标发音序列，对标准发音字典进行调整，以得到目标发音字典；根据目标发音字典确定目标语音合成系统。
[0006]第二方面，本申请实施例还提供了一种语音合成装置，装置包括：获取单元，用于获取目标语言的训练数据；其中，训练数据包括目标语言的语音信息...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，所述方法包括：获取目标语言的训练数据；其中，所述训练数据包括所述目标语言的语音信息以及与所述语音信息对应的文本信息；基于语音识别系统对所述训练数据进行识别，得到多个文本单元以及每个所述文本单元对应的目标发音序列；其中，所述目标发音序列包括所述文本单元对应的音素和声调；根据所述文本单元对应的目标发音序列，对标准发音字典进行调整，以得到目标发音字典；根据所述目标发音字典确定目标语音合成系统。2.根据权利要求1所述的方法，其特征在于，所述根据所述目标发音字典确定目标语音合成系统，包括：将标准语音合成系统中的所述标准发音字典替换为所述目标发音字典，以得到所述目标语音合成系统。3.根据权利要求2所述的方法，其特征在于，所述基于语音识别系统对所述训练数据进行识别，包括：基于标准语音识别系统对所述训练数据进行语音识别。4.根据权利要求1所述的方法，其特征在于，所述根据所述文本单元对应的目标发音序列，对标准发音字典进行调整，以得到目标发音字典，包括:获取每个所述文本单元的第一发音概率和第二发音概率；其中，所述第一发音概率为所述文本单元在所述目标语言下的发音序列为所述目标发音序列的概率，所述第二发音概率为所述文本单元在所述目标语言下的发音序列为标准发音序列的概率；若所述第一发音概率大于所述第二发音概率，则将所述标准发音字典中所述文本单元对应的所述标准发音序列替换为所述目标发音序列，以得到目标发音字典。5.根据权利要求1所述的方法，其特征在于，所述根据所述文本单元对应的目标发音序列，对标准发音字典进行调整，以得到目标发音字典，包括：获取每个所述目标发音序列的映射概率；其中，所述映射概率为在标准语言中发音序列为标准发音序列的映射文本单元，在目标语言中的发音序列为所述目标发音序列的概率；若所述映射概率大于预设概率，则将所述标准发音字典中的标准发音序列替换为所述目标发音序列，以得到目标发音字典。6.根据权利要求1所述的方法，其特征在于，所述方法还包括：对所述文本信息进行分词处理，...

【专利技术属性】
技术研发人员：郑颖龙，赖蔚蔚，吴广财，郑杰生，黄宏恩，陈颖璇，黄彬系，
申请(专利权)人：南方电网数字企业科技广东有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人