语音合成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37320180 阅读:18 留言:0更新日期:2023-04-21 23:00
本发明专利技术提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:获取待合成的文本;基于所述文本进行声学建模,得到所述文本对应的语音特征,所述语音特征与样本语音特征处于同一特征空间,所述样本语音特征是端到端语音合成模型或自监督语音特征提取模型对样本语音进行特征提取得到的;基于所述语音特征进行波形重构,得到所述文本对应的合成语音。本发明专利技术实施例提供的方法,将与基于端到端语音合成模型或自监督语音特征提取模型提取的样本语音特征处于同一特征空间内的语音特征,作为声学模型与声码器之间的桥梁以实现语音合成,从而使得语音合成过程中能够参考到更加丰富的声学信息,由此提高合成语音的语音质量。量。量。

【技术实现步骤摘要】
语音合成方法、装置、电子设备和存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种语音合成方法、装置、电子设备和存储介质。

技术介绍

[0002]语音合成(speech synthesis)又称文语转换(text

to

speech,TTS),旨在将输入文本转换为流畅自然的输出语音,是实现人机语音交互的关键技术。
[0003]语音合成系统,通常由两个模块构成,分别是声学模型和声码器模块。其中,声学模型实现输入文本到声学特征的映射,声码器则实现声学特征到语音波形的重构。作为声学模型和声码器之间的桥梁,声学特征的优劣在一定程度上决定了合成语音的音质上限。
[0004]目前主流的语音合成系统大多使用梅尔谱(mel

spectrograms)作为声学特征。梅尔普特征以预加重、分帧、加窗、傅里叶变换等步骤提取得到,这种预先确定的特征从根本上是受限的。相比于原始音频,梅尔谱特征损失了部分声学信息,从而限制了合成语音音质的提升。

技术实现思路

[0005]本专利技术提供一种语音合成方法、装置、电子设备和存储介质,用以解决现有技术中应用梅尔谱特征进行语音合成,限制了合成语音音质的提升的缺陷。
[0006]本专利技术提供一种语音合成方法,包括:
[0007]获取待合成的文本;
[0008]基于所述文本进行声学建模,得到所述文本对应的语音特征,所述语音特征与样本语音特征处于同一特征空间,所述样本语音特征是端到端语音合成模型或自监督语音特征提取模型对样本语音进行特征提取得到的;
[0009]基于所述语音特征进行波形重构,得到所述文本对应的合成语音。
[0010]根据本专利技术提供的一种语音合成方法,所述基于所述文本进行声学建模,得到所述文本对应的语音特征,包括:
[0011]基于声学模型,对所述文本进行声学建模,得到所述文本对应的语音特征;
[0012]所述声学模型是基于样本文本,以及所述样本文本所对应样本语音的样本语音特征训练得到的。
[0013]根据本专利技术提供的一种语音合成方法,所述声学模型的训练步骤包括:
[0014]基于初始声学模型,对所述样本文本进行声学建模,得到所述样本文本对应的预测语音特征和预测音素时长;
[0015]基于所述预测语音特征和所述样本语音的样本语音特征,以及所述预测音素时长和所述样本语音的音素时长标签,对所述初始声学模型进行参数迭代,得到所述声学模型。
[0016]根据本专利技术提供的一种语音合成方法,所述基于所述语音特征进行波形重构,得到所述文本对应的合成语音,包括:
[0017]基于声码器,对所述语音特征进行波形重构,得到所述文本对应的合成语音;
[0018]所述声码器是基于样本语音,以及所述样本语音的样本语音特征训练得到的。
[0019]根据本专利技术提供的一种语音合成方法,所述声码器的训练步骤包括:
[0020]基于初始声码器,对所述样本语音特征进行波形重构,得到预测语音;
[0021]基于初始判别器,判别所述预测语音和所述样本语音的真伪,得到所述预测语音和所述样本语音的真伪判别结果;
[0022]基于所述预测语音和所述样本语音的真伪判别结果,对所述初始声码器和所述初始判别器进行参数迭代,并,基于所述预测语音与所述样本语音之间的差异,对所述初始声码器进行参数迭代。
[0023]根据本专利技术提供的一种语音合成方法,所述预测语音与所述样本语音之间的差异的确定步骤包括:
[0024]基于所述预测语音的声学特征和所述样本语音的声学特征,和/或,所述预测语音的判别特征和所述样本语音的判别特征,确定所述预测语音与所述样本语音之间的差异;
[0025]所述判别特征是所述初始判别器在判别语音真伪时提取的特征。
[0026]根据本专利技术提供的一种语音合成方法,所述样本语音特征的获取步骤包括:
[0027]将所述样本语音输入到所述自监督语音特征提取模型中,得到所述自监督语音特征提取模型中任意隐层输出的特征作为所述样本语音特征;
[0028]或者,将所述样本语音输入到所述端到端语音合成模型中,得到所述端到端语音合成模型的编码器输出的第一隐层特征作为所述样本语音特征,或者得到所述端到端语音合成模型中用于输入解码器的第二隐层特征作为所述样本语音特征。
[0029]本专利技术还提供一种语音合成装置,包括:
[0030]获取单元,用于获取待合成的文本;
[0031]建模单元,用于基于所述文本进行声学建模,得到所述文本对应的语音特征,所述语音特征与样本语音特征处于同一特征空间,所述样本语音特征是端到端语音合成模型或自监督语音特征提取模型对样本语音进行特征提取得到的;
[0032]合成单元,用于基于所述语音特征进行波形重构,得到所述文本对应的合成语音。
[0033]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音合成方法。
[0034]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音合成方法。
[0035]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音合成方法。
[0036]本专利技术提供的语音合成方法、装置、电子设备和存储介质,将与基于端到端语音合成模型或自监督语音特征提取模型提取的样本语音特征处于同一特征空间内的语音特征,作为声学模型与声码器之间的桥梁以实现语音合成,从而使得语音合成过程中能够参考到更加丰富的声学信息,由此提高合成语音的语音质量。
附图说明
[0037]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1是本专利技术提供的语音合成方法的流程示意图;
[0039]图2是本专利技术提供的自监督语音特征提取模型的运行流程图;
[0040]图3是本专利技术提供的端到端语音合成模型的运行流程图;
[0041]图4是本专利技术提供的声学模型的训练流程图;
[0042]图5是本专利技术提供的声码器的训练流程图;
[0043]图6是本专利技术提供的语音合成装置的结构示意图;
[0044]图7是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0045]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取待合成的文本;基于所述文本进行声学建模,得到所述文本对应的语音特征,所述语音特征与样本语音特征处于同一特征空间,所述样本语音特征是端到端语音合成模型或自监督语音特征提取模型对样本语音进行特征提取得到的;基于所述语音特征进行波形重构,得到所述文本对应的合成语音。2.根据权利要求1所述的语音合成方法,其特征在于,所述基于所述文本进行声学建模,得到所述文本对应的语音特征,包括:基于声学模型,对所述文本进行声学建模,得到所述文本对应的语音特征;所述声学模型是基于样本文本,以及所述样本文本所对应样本语音的样本语音特征训练得到的。3.根据权利要求2所述的语音合成方法,其特征在于,所述声学模型的训练步骤包括:基于初始声学模型,对所述样本文本进行声学建模,得到所述样本文本对应的预测语音特征和预测音素时长;基于所述预测语音特征和所述样本语音的样本语音特征,以及所述预测音素时长和所述样本语音的音素时长标签,对所述初始声学模型进行参数迭代,得到所述声学模型。4.根据权利要求1所述的语音合成方法,其特征在于,所述基于所述语音特征进行波形重构,得到所述文本对应的合成语音,包括:基于声码器,对所述语音特征进行波形重构,得到所述文本对应的合成语音;所述声码器是基于样本语音,以及所述样本语音的样本语音特征训练得到的。5.根据权利要求4所述的语音合成方法,其特征在于,所述声码器的训练步骤包括:基于初始声码器,对所述样本语音特征进行波形重构,得到预测语音;基于初始判别器,判别所述预测语音和所述样本语音的真伪,得到所述预测语音和所述样本语音的真伪判别结果;基于所述预测语音和所述样本语音的真伪判别结果,对所述初始声码器和所述初始判别器进行参数迭代,并,基于所...

【专利技术属性】
技术研发人员:董元杰宋锐胡亚军
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1