语音合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37344128 阅读:9 留言:0更新日期:2023-04-22 21:36
本申请提供一种语音合成方法、装置、电子设备及存储介质,该方法包括:获取目标语言的训练数据;其中,训练数据包括目标语言的语音信息以及与语音信息对应的文本信息;基于语音识别系统对训练数据进行识别,得到多个文本单元以及每个文本单元对应的目标发音序列;其中,目标发音序列包括文本单元对应的音素和声调;根据文本单元对应的目标发音序列,对标准发音字典进行调整,以得到目标发音字典;根据目标发音字典确定目标语音合成系统。本申请通过文本单元对应的目标发音序列,对标准发音字典进行调整,得到目标发音字典,可以根据目标发音字典快速得到符合要求的目标语音合成系统,且对样本数据的要求较低。且对样本数据的要求较低。且对样本数据的要求较低。

【技术实现步骤摘要】
语音合成方法、装置、电子设备及存储介质


[0001]本申请涉及语音合成
,更具体地,涉及语音合成方法、装置、电子设备及存储介质。

技术介绍

[0002]随着技术发展,语音合成技术也越来越成熟,语音合成系统可以将文本转化为语音,不仅方便快捷,而且节省了人力资源,因此语音合成系统在越来越多的领域内得到了应用。
[0003]但是为了使语音合成系统合成的语音的质量高,需要获取非常多的训练数据对语音合成系统进行训练,在语音类型为普通话等常见的语言时,训练数据的获取较为容易,但在语音类型为较不常见的语言,例如为各地方言时,便难以获取足够多的训练数据对语音合成系统进行训练,因此语音合成系统合成的语音的质量不佳,难以满足使用需求。

技术实现思路

[0004]鉴于上述问题,本申请提出了一种语音合成方法、装置、电子设备及存储介质,以改善上述问题。
[0005]第一方面,本申请实施例提供了一种语音合成方法,方法包括:获取目标语言的训练数据;其中,训练数据包括目标语言的语音信息以及与语音信息对应的文本信息;基于语音识别系统对训练数据进行识别,得到多个文本单元以及每个文本单元对应的目标发音序列;其中,目标发音序列包括文本单元对应的音素和声调;根据文本单元对应的目标发音序列,对标准发音字典进行调整,以得到目标发音字典;根据目标发音字典确定目标语音合成系统。
[0006]第二方面,本申请实施例还提供了一种语音合成装置,装置包括:获取单元,用于获取目标语言的训练数据;其中,训练数据包括目标语言的语音信息以及与语音信息对应的文本信息;识别单元,用于基于语音识别系统对训练数据进行识别,得到多个文本单元以及每个文本单元对应的目标发音序列;其中,目标发音序列包括文本单元对应的音素和声调;调整单元,用于根据文本单元对应的目标发音序列,对标准发音字典进行调整,以得到目标发音字典;确定单元,用于根据目标发音字典确定目标语音合成系统。
[0007]第三方面,本申请实施例还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面的语音合成方法。
[0008]第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使电子设备能够执行如第一方面的语音合成方法。
[0009]本申请提供一种语音合成方法、装置、电子设备及存储介质,该方法包括:获取目标语言的训练数据;其中,训练数据包括目标语言的语音信息以及与语音信息对应的文本
信息;基于语音识别系统对训练数据进行识别,得到多个文本单元以及每个文本单元对应的目标发音序列;其中,目标发音序列包括文本单元对应的音素和声调;根据文本单元对应的目标发音序列,对标准发音字典进行调整,以得到目标发音字典;根据目标发音字典确定目标语音合成系统。本申请通过文本单元对应的目标发音序列,对标准发音字典进行调整,得到目标发音字典,可以根据目标发音字典快速得到符合要求的目标语音合成系统,且对样本数据的要求较低。
附图说明
[0010]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图,都属于本专利技术保护的范围。
[0011]图1是本申请实施例提供的一种语音合成方法的流程示意图。
[0012]图2是图1中的步骤130的细化流程示意图。
[0013]图3是图1中的步骤130的又一细化流程示意图。
[0014]图4是本申请实施例提供的一种语音合成装置的结构示意图。
[0015]图5是本申请实施例提供的一种电子设备的结构示意图。
[0016]图6是本申请实施例提供的一种计算机可读存储介质的结构框图。
具体实施方式
[0017]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0018]随着技术发展,语音合成技术也越来越成熟,语音合成系统可以将文本转化为语音,不仅方便快捷,而且节省了人力资源,因此语音合成系统在越来越多的领域内得到了应用。
[0019]例如在各类视频网站上出现了很多由AI(Artificial Intelligence,人工智能)语音解说的电影解说视频,且小说APP(Application,应用)中出现了很多由AI语音朗读的小说,极大的丰富人们的物质生活。
[0020]然而,对语音合成系统进行训练对训练数据有很高的要求,譬如需要同一个人用地道的方言口音念读指定文字,并使用高清麦克风进行采集,对说话人、语料内容及采集设备的要求远高于对语音识别的要求。训练语音合成模型所需要的语料,除了需要播音员朗读的语音及其对应的内容文本外,还需要音素表、发音字典、发音规则等,这些语料用于训练语音合成系统的文本处理前端,文本处理前端将文本转化为语音。
[0021]但随着方言逐渐被普通话同化,带口音的方言,当前越来越难以找到发音标准的语料采集者。此外,这些口音方言在用词习惯、助词使用都与主流口音不同,甚至有专属的字词集合。针对这些方言整理词典、发音规则需要专业语言学者付出大量研究工作,而从事特定方言口音研究的学者越来越少,特别是对于没有文字的方言,使得合成带口音的方言
难度非常大。
[0022]因为难以获取足够多符合要求的训练数据对语音合成系统进行训练,所以当前语音合成系统局限于主流标准语言,如英语、普通话、德语、法语等,体验感受单一,难以满足使用需求。
[0023]为了改善上述问题,专利技术人提出了语音合成方法、装置、电子设备及存储介质,该方法包括:获取目标语言的训练数据;其中,训练数据包括目标语言的语音信息以及与语音信息对应的文本信息;基于语音识别系统对训练数据进行识别,得到多个文本单元以及每个文本单元对应的目标发音序列;其中,目标发音序列包括文本单元对应的音素和声调;根据文本单元对应的目标发音序列,对标准发音字典进行调整,以得到目标发音字典;根据目标发音字典确定目标语音合成系统。本申请通过文本单元对应的目标发音序列,对标准发音字典进行调整,得到目标发音字典,可以根据目标发音字典快速得到符合要求的目标语音合成系统,且对样本数据的要求较低。
[0024]下面将结合附图具体描述本申请的各实施例。
[0025]请参阅图1,图1是本申请实施例提供的一种语音合成方法的应用场景示意图。如图1所示,该方法100包括:步骤110至步骤140本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:获取目标语言的训练数据;其中,所述训练数据包括所述目标语言的语音信息以及与所述语音信息对应的文本信息;基于语音识别系统对所述训练数据进行识别,得到多个文本单元以及每个所述文本单元对应的目标发音序列;其中,所述目标发音序列包括所述文本单元对应的音素和声调;根据所述文本单元对应的目标发音序列,对标准发音字典进行调整,以得到目标发音字典;根据所述目标发音字典确定目标语音合成系统。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标发音字典确定目标语音合成系统,包括:将标准语音合成系统中的所述标准发音字典替换为所述目标发音字典,以得到所述目标语音合成系统。3.根据权利要求2所述的方法,其特征在于,所述基于语音识别系统对所述训练数据进行识别,包括:基于标准语音识别系统对所述训练数据进行语音识别。4.根据权利要求1所述的方法,其特征在于,所述根据所述文本单元对应的目标发音序列,对标准发音字典进行调整,以得到目标发音字典,包括:获取每个所述文本单元的第一发音概率和第二发音概率;其中,所述第一发音概率为所述文本单元在所述目标语言下的发音序列为所述目标发音序列的概率,所述第二发音概率为所述文本单元在所述目标语言下的发音序列为标准发音序列的概率;若所述第一发音概率大于所述第二发音概率,则将所述标准发音字典中所述文本单元对应的所述标准发音序列替换为所述目标发音序列,以得到目标发音字典。5.根据权利要求1所述的方法,其特征在于,所述根据所述文本单元对应的目标发音序列,对标准发音字典进行调整,以得到目标发音字典,包括:获取每个所述目标发音序列的映射概率;其中,所述映射概率为在标准语言中发音序列为标准发音序列的映射文本单元,在目标语言中的发音序列为所述目标发音序列的概率;若所述映射概率大于预设概率,则将所述标准发音字典中的标准发音序列替换为所述目标发音序列,以得到目标发音字典。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述文本信息进行分词处理,...

【专利技术属性】
技术研发人员:郑颖龙赖蔚蔚吴广财郑杰生黄宏恩陈颖璇黄彬系
申请(专利权)人:南方电网数字企业科技广东有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1