语音合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37594646 阅读:9 留言:0更新日期:2023-05-18 11:39
本申请提供了一种语音合成方法、装置、电子设备及存储介质,该方法包括:获取待合成文本的音素序列和待合成说话者的语音特征;将音素序列输入语音合成模型的编码器进行编码处理,获取音素编码特征,以及分别将语音特征和待合成文本输入风格预测器,得到语音风格预测结果和文本风格预测结果;将语音风格预测结果与文本风格预测结果进行特征融合,获取风格特征向量;将风格特征向量和音素编码特征进行融合并根据融合后的特征向量进行韵律预测,以获取韵律表征向量;将韵律表征向量和音素编码特征进行融合并根据融合结果进行语音合成,得到待合成文本对应的具有待合成说话者的风格的合成语音。本申请能够生成更逼近待合成说话人风格的合成语音。风格的合成语音。风格的合成语音。

【技术实现步骤摘要】
语音合成方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能领域,具体涉及一种语音合成方法、装置、电子设备及存储介质。

技术介绍

[0002]语音合成是指将文本转化为语音音频的过程,目前通常采用语音合成模型来执行上述合成语音音频的操作。然而在训练语音合成模型的过程中,训练采用的样本数据一般是由专业的播音员在录音棚环境下进行录制的,即样本数据的风格一般都是朗读风格,进而导致了语音合成模型更偏向于生成朗读风格的合成语音。也就是说,利用语音合成模型生成的合成语音,缺乏对待合成说话人风格的体现。
[0003]鉴于此,如何生成更逼近待合成说话人风格的合成语音成为亟待解决的技术问题。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种语音合成方法、装置、电子设备及存储介质,能够生成更逼近待合成说话人风格的合成语音。
[0005]第一方面,本申请的实施例提供了一种语音合成方法,应用于语音合成模型,包括:
[0006]获取待合成文本的音素序列和待合成说话者的语音特征;将音素序列输入语音合成模型的编码器进行编码处理,获取音素编码特征,以及分别将语音特征和待合成文本输入风格预测器,得到语音风格预测结果和文本风格预测结果;将语音风格预测结果与文本风格预测结果进行特征融合,获取风格特征向量;将风格特征向量和音素编码特征进行融合并根据融合后的特征向量进行韵律预测,以获取韵律表征向量;将韵律表征向量和音素编码特征进行融合并根据融合结果进行语音合成,得到待合成文本对应的具有待合成说话者的风格的合成语音。
[0007]第二方面,本申请的实施例提供了一种语音合成装置,包括:
[0008]获取模块,用于获取待合成文本的音素序列和待合成说话者的语音特征;
[0009]获取模块,还用于将音素序列输入语音合成模型的编码器进行编码处理,获取音素编码特征,以及分别将语音特征和待合成文本输入风格预测器,得到语音风格预测结果和文本风格预测结果;
[0010]特征融合模块,用于将语音风格预测结果与文本风格预测结果进行特征融合,获取风格特征向量;
[0011]韵律预测模块,用于将风格特征向量和音素编码特征进行融合并根据融合后的特征向量进行韵律预测,以获取韵律表征向量;
[0012]合成模块,用于将韵律表征向量和音素编码特征进行融合并根据融合结果进行语音合成,得到待合成文本对应的具有待合成说话者的风格的合成语音。
[0013]第三方面,本申请的实施例提供了一种计算可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序用于执行上述第一方面所述的语音合成方法。
[0014]第四方面,本申请的实施例提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器,其中,处理器用于执行上述第一方面所述的语音合成方法。
[0015]本申请实施例提供了一种语音合成方法、装置、电子设备及存储介质,通过将文本侧的待合成文本输入风格预测器,获取文本风格预测结果,以及将语音侧的待合成说话者的语音特征输入风格预测器,获取语音风格预测结果,并基于语音风格预测结果和文本风格预测结果,得到风格特征向量,进而将风格特征向量作用于生成合成语音的过程中,从而使得合成语音与待合成说话人的风格更相似,更逼近待合成说话人的说话风格。
附图说明
[0016]附图用来提供对本公开的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
[0017]图1是本申请一示例性实施例提供的语音合成的实施环境的示意图。
[0018]图2是本申请一示例性实施例提供的语音合成模型的结构示意图。
[0019]图3是本申请一示例性实施例提供的语音合成方法的流程示意图。
[0020]图4是本申请一示例性实施例提供的说话人特征归一化层的结构示意图。
[0021]图5是本申请一示例性实施例提供的风格预测器的结构示意图。
[0022]图6是本申请另一示例性实施例提供的语音合成方法的流程示意图。
[0023]图7是本申请又一示例性实施例提供的语音合成方法的流程示意图。
[0024]图8是本申请再一示例性实施例提供的语音合成方法的流程示意图。
[0025]图9是本申请一示例性实施例提供的韵律编码器的结构示意图。
[0026]图10是本申请一示例性实施例提供的语音合成模型的训练方法的流程示意图。
[0027]图11是本申请一示例性实施例提供的语音合成装置的结构示意图。
[0028]图12是本申请一示例性实施例提供的用于语音合成的电子设备的框图。
具体实施方式
[0029]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0030]非自回归语音合成(Text To Speech,TTS)模型吸引了工业界和学术界越来越多的关注,其中常用的非自回归模型例如可以是FastSpeech2模型。FastSpeech2是微软亚洲研究院、浙江大学联合提出的TTS模型。FastSpeech2在FastSpeech1基础上,抛弃了Teacher

Student知识蒸馏框架,降低训练复杂度,直接用真实的语音数据作为训练目标避免信息损失,同时引入了更精确的时长信息和语音中其他可变信息,比如音高(pitch)、音量(energy)等来提高合成的语音质量。
[0031]语音合成模型在训练的过程中,由于训练采用的样本数据一般是由专业的播音员
在录音棚环境下进行录制的,因此样本数据的风格一般是朗读风格,这就导致了在合成指定说话人(也称“待合成说话者”)风格的任务中,语音合成模型输出的合成语音依旧是朗读风格的语音音频,无法生成指定说话人风格的合成语音。
[0032]并且,语音合成模型在执行跨说话人风格转换的任务中,为使得语音合成模型能够生成多种风格的合成语音,通常需要各式各样说话风格的样本数据,对语音合成模型进行训练。然而若要专业的播音员模仿所有的说话风格,并录制足够的样本数据是难以实现的,而且收集一个说话人所有的说话风格的录音,付出的成本(例如时间成本、人力成本)也较高,进而增加了语音合成模型生成多种说话风格的合成语音的难度。
[0033]针对上述问题,本申请实施例提供了一种语音合成方法,下面将参考附图来具体介绍本申请的各种非限制性实施例。
[0034]图1是本申请一示例性实施例提供的语音合成的实施环境的示意图。如图1所示,该实施环境包括待合成文本的音素序列110、待合成说话者的语音特征120、语音合成模型130和合成语音140。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,应用于语音合成模型,包括:获取待合成文本的音素序列和待合成说话者的语音特征;将所述音素序列输入所述语音合成模型的编码器进行编码处理,获取音素编码特征,以及分别将所述语音特征和所述待合成文本输入风格预测器,得到语音风格预测结果和文本风格预测结果;将所述语音风格预测结果与所述文本风格预测结果进行特征融合,获取风格特征向量;将所述风格特征向量和所述音素编码特征进行融合并根据融合后的特征向量进行韵律预测,以获取韵律表征向量;将所述韵律表征向量和所述音素编码特征进行融合并根据融合结果进行语音合成,得到所述待合成文本对应的具有所述待合成说话者的风格的合成语音。2.根据权利要求1所述的方法,其特征在于,所述风格预测器包括语音风格预测模块和文本风格预测模块,所述语音风格预测结果是通过所述语音风格预测模块对所述语音特征进行风格预测得到的,所述文本风格预测结果是通过所述文本风格预测模块对所述待合成文本进行风格预测得到的。3.根据权利要求2所述的方法,其特征在于,所述语音风格预测模块包括依次连接的第一线性层、残差模块、注意机制模块和第二线性层,其中,通过所述语音风格预测模块对所述语音特征进行风格预测,得到所述语音风格预测结果,包括:将所述语音特征输入所述第一线性层进行特征提取和维度映射,得到第一语音特征,以及将所述第一语音特征输入所述残差模块进行下采样,得到第二语音特征;将所述第二语音特征输入所述注意机制模块进行特征处理,得到第三语音特征;将所述第三语音特征输入所述第二线性层进行特征处理和维度映射,以获取所述语音风格预测结果,其中所述语音风格预测结果的维度与所述风格特征向量的维度相同。4.根据权利要求2所述的方法,其特征在于,所述文本风格预测模块包括依次连接的语言表征模型和第三线性层,其中,通过所述文本风格预测模块对所述待合成文本进行风格预测,得到所述文本风格预测结果,包括:将所述待合成文本输入所述语言表征模型进行特征提取,得到所述待合成文本的句特征向量;将所述句特征向量输入所述第三线性层进行特征提取和维度映射,以获取所述文本风格预测结果,其中所述文本风格预测结果的维度与所述风格特征向量的维度相同。5.根据权利要求1所述的方法,其特征在于,所述语音合成模型包括第一韵律预测器和韵律编码器,其中,所述将所述风格特征向量和所述音素编码特征进行融合并根据融合后的特征向量进行韵律预测,以获取韵律表征向量,包括:将所述风格特...

【专利技术属性】
技术研发人员:刘鹏飞蒋宁吴海英夏粉刘敏
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1