语音合成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36185632 阅读:23 留言:0更新日期:2022-12-31 20:48
本公开提供了一种语音合成方法、装置、电子设备和存储介质。本公开实施例的语音合成方法可以包括:获取第一文本和第一发音人的信息,第一文本携带第一语气标签;通过预先训练的声学模型生成对应第一发音人和第一文本的第一语气声学特征,第一语气声学特征中包含对应第一发音人和第一文本的声学特征和对应第一语气标签的语气特征;将第一语气声学特征合成带有语气的第一语音,第一语音的语气与第一语气标签一致且第一语音具有第一发音人的发音特征;其中,声学模型根据M个第二发音人的语料、M个第二发音人的信息和第一发音人的信息训练得到,M为大于或等于1的整数。本公开采用特征迁移技术实现了带有语气的语音合成,能够在不降低语音合成质量的同时提升语音的自然度和表现力。度和表现力。度和表现力。

【技术实现步骤摘要】
语音合成方法、装置、电子设备和存储介质


[0001]本公开涉及一种语音合成方法、装置、电子设备和存储介质。

技术介绍

[0002]目前,基于端到端的语音合成系统已经使得合成的语音在音质、准确度以及流畅度等方面与人类语音相近。然而,基于语音合成系统合成的语音仍缺乏表现力、语调较平、缺少抑扬顿挫、自然度较低。因此,目前已经有大量针对提高语音合成表现力的研究。
[0003]目前,主要通过在合成的语音中添加一些副语言的特征,如重音、情感、语气等,来提高提高语音合成的自然度,使合成的语音更具有表现力,也即,使合成的语音表现力可控。这样,不仅可以丰富语音的情感表达,更好的突出说话者的观点,而且可以大大提高语音合成的自然度和表现力。
[0004]目前,大多数带风格的语音合成(也即,添加语气特征的语音合成)需要大量标注有风格数据的语料,由于风格数据的标注非常地耗时耗力,并且说话人往往不具备准确把握语气特征的能力,语料质量欠佳,因此,带风格的语音合成效果往往并不好,反而会降低合成语音的音质。但是还是想要合成带语气的语音。

技术实现思路

[0005]为了解决上述技术问题中的至少一个,本公开提供了一种语音合成方法、装置、电子设备和存储介质。
[0006]本公开的第一方面提供了一种语音合成方法,包括:
[0007]获取第一文本和第一发音人的信息,所述第一文本携带第一语气标签;
[0008]通过预先训练的声学模型生成对应所述第一发音人和所述第一文本的第一语气声学特征,所述第一语气声学特征中包含对应所述第一发音人和所述第一文本的声学特征和对应所述第一语气标签的语气特征;
[0009]将所述第一语气声学特征合成带有语气的第一语音,所述第一语音的语气与所述第一语气标签一致且所述第一语音具有所述第一发音人的发音特征;
[0010]其中,所述声学模型根据M个第二发音人的语料、所述M个第二发音人的信息和所述第一发音人的信息训练得到,M为大于或等于1的整数。
[0011]本公开的一些可能的实现方式中,所述M个第二发音人的语料包括:第二文本;N个语气标签,每个语气标签代表一种语气,N为大于1的整数;内容与所述第二文本一致的N类真实语音,每类真实语音带有一种语气且包含至少一条真实语音,每条所述真实语音对应一个所述第二发音人。
[0012]本公开的一些可能的实现方式中,所述语气标签为指示如下语气之一的文本信息:疑问语气;陈述语气;感叹语气。
[0013]本公开的一些可能的实现方式中,所述声学模型包括第一编码器、第二编码器和解码器;所述声学模型通过如下方式训练得到:对所述第二文本和N个语气标签同步执行所
述第一编码器的处理,以获得N个语气文本特征,所述语气文本特征包含所述语气标签的文本特征和所述第二文本的文本特征;对所述M个第二发音人的信息和所述第一发音人的信息同步执行第二编码器的处理,以获得M个第二发音人的特征和第一发音人的特征;对所述M个第二发音人的特征、第一发音人的特征和所述N个语气文本特征同步执行所述编码器的处理,以获得多个第二语气声学特征;根据所述多个第二语气声学特征和所述语料中相应真实语音的声学特征,更新所述第一编码器、第二编码器和解码器的参数。
[0014]本公开的一些可能的实现方式中,所述解码器包括预处理网络、注意力网络、双层长短期记忆网络、线性投影层、后处理网络和解码输出网络;在所述训练的执行过程中,所双层长短期记忆网络、线性投影层和解码输出网络的输入数据均包含所述M个第二发音人的特征和所述第一发音人的特征。
[0015]本公开的一些可能的实现方式中,将所述第一语气声学特征合成带有语气的第一语音,包括:通过预先训练的声码器将所述第一语气声学特征合成为所述带有语气的第一语音;其中,所述声码器根据所述第一发音人的真实语音训练得到。
[0016]本公开的第二方面提供了一种语音合成装置,包括:
[0017]获取单元,用于获取第一文本和第一发音人的信息,所述第一文本携带第一语气标签;
[0018]特征提取单元,用于通过预先训练的声学模型生成对应所述第一发音人和所述第一文本的第一语气声学特征,所述第一语气声学特征中包含对应所述第一发音人和所述第一文本的声学特征和对应所述第一语气标签的语气特征;
[0019]语音生成单元,用于将所述第一语气声学特征合成带有语气的第一语音,所述第一语音的语气与所述第一语气标签一致且所述第一语音具有所述第一发音人的发音特征;
[0020]其中,所述声学模型根据M个第二发音人的语料、所述M个第二发音人的信息和所述第一发音人的信息训练得到。
[0021]本公开的一些可能的实现方式中,所述M个第二发音人的语料包括:第二文本;N个语气标签,每个语气标签代表一种语气,N为大于1的整数;内容与所述第二文本一致的N类真实语音,每类真实语音带有一种语气且包含至少一条真实语音,每条所述真实语音对应一个所述第二发音人。
[0022]本公开的第三方面提供了一种电子设备,包括:
[0023]存储器,所述存储器存储执行指令;以及
[0024]处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述的语音合成方法。
[0025]本公开的第四方面提供了一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于上述的语音合成方法。
[0026]本公开实施例中,利用第二发音人的语料训练的声学模型生成第一发音人的语气声学特征并据此语气声学特征合成带有语气的语音,将基于多个第二发音人的语料学习到的不同语气特征迁移到了第一发音人的语音合成中,无需预先标注第一发音人的带有语气的语音数据,即可实现第一发音人的带有语气的语音合成,不仅有效降低了模型训练的复杂度,减少了模型训练时的数据量,节省了人力、提高了模型训练效率、缩减了模型训练成本和提升了模型的泛化能力,而且能够在不降低语音合成质量的同时提高了合成语音的自
然度和表现力。
附图说明
[0027]附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
[0028]图1是根据本公开的一些实施方式的语音合成方法的流程示意图。
[0029]图2是本公开的一个实施方式的采用处理系统的硬件实现方式的语音合成装置的结构示意框图。
[0030]附图标记说明
[0031]200 语音合成模型
[0032]300 总线
[0033]400 处理器
[0034]500 存储器
[0035]600 各种其他电路
具体实施方式
[0036]下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取第一文本和第一发音人的信息,所述第一文本携带第一语气标签;通过预先训练的声学模型生成对应所述第一发音人和所述第一文本的第一语气声学特征,所述第一语气声学特征中包含对应所述第一发音人和所述第一文本的声学特征和对应所述第一语气标签的语气特征;将所述第一语气声学特征合成带有语气的第一语音,所述第一语音的语气与所述第一语气标签一致且所述第一语音具有所述第一发音人的发音特征;其中,所述声学模型根据M个第二发音人的语料、所述M个第二发音人的信息和所述第一发音人的信息训练得到,M为大于或等于1的整数。2.根据权利要求1所述的语音合成方法,其特征在于,所述M个第二发音人的语料包括:第二文本;N个语气标签,每个语气标签代表一种语气,N为大于1的整数;内容与所述第二文本一致的N类真实语音,每类真实语音带有一种语气且包含至少一条真实语音,每条所述真实语音对应一个所述第二发音人。3.根据权利要求2所述的语音合成方法,其特征在于,所述语气标签为指示如下语气之一的文本信息:疑问语气;陈述语气;感叹语气。4.根据权利要求2所述的语音合成方法,其特征在于,所述声学模型包括第一编码器、第二编码器和解码器;所述声学模型通过如下方式训练得到:对所述第二文本和N个语气标签同步执行所述第一编码器的处理,以获得N个语气文本特征,所述语气文本特征包含所述语气标签的文本特征和所述第二文本的文本特征;对所述M个第二发音人的信息和所述第一发音人的信息同步执行第二编码器的处理,以获得M个第二发音人的特征和第一发音人的特征;对所述M个第二发音人的特征、第一发音人的特征和所述N个语气文本特征同步执行所述编码器的处理,以获得多个第二语气声学特征;根据所述多个第二语气声学特征与所述语料中相应真实语音的声学特征,更新所述第一编码器、第二编码器和解码器的参数。5.根据权利要求4所述的语音合...

【专利技术属性】
技术研发人员:殷昊梁婷陈云琳
申请(专利权)人:北京羽扇智信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1