语音合成方法以及装置、存储介质、电子装置制造方法及图纸

技术编号:35352557 阅读:19 留言:0更新日期:2022-10-26 12:23
本申请公开了一种语音合成方法以及装置、存储介质、电子装置。该方法包括获取文本数据;通过预设的NAT处理模型,得到文本数据合成的语音音频数据,其中,所述预设的NAT处理模型中包括编码器、高斯上采样模块、解码器,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络,所述高斯上采样模块按照预设块进行高斯上采样,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的LPL声码器;根据所述神经网络的梅尔声码器以及所述基于神经网络的LPL声码器处理结果,得到所述文本数据的合成结果。本申请解决了语音合成整体系统的延时以及无法合成语音的技术问题。统的延时以及无法合成语音的技术问题。统的延时以及无法合成语音的技术问题。

【技术实现步骤摘要】
语音合成方法以及装置、存储介质、电子装置


[0001]本申请涉及文本数据语音化的处理领域,具体而言,涉及一种语音合成方法以及装置、存储介质、电子装置。

技术介绍

[0002]由谷歌在2017年提出Tacotron端到端语音合成技术,2018年提出Tacotron 2端到端技术,2020年提出non

attentive Tacotron,大大提高了端到端语音合成模型的音质和稳定性。
[0003]但是,由于编码器包含双向LSTM模型,高斯上采样需要在全部编码器输出上计算,在一些计算能力有限的处理器上,无法满足语音合成的要求。另外,Tacotron输出的声学参数是梅尔频谱,无法用于LPC的声码器。
[0004]针对相关技术中语音合成整体系统的延时以及无法合成语音的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请的主要目的在于提供一种语音合成方法以及装置、存储介质、电子装置,以解决语音合成整体系统的延时以及无法合成语音的问题。
[0006]为了实现上述目的,根据本申请的一个方面,提供了一种语音合成方法,用于客户端。
[0007]根据本申请的语音合成方法包括:获取文本数据;通过预设的NAT处理模型,得到语音音频数据,其中,所述预设的NAT处理模型中包括编码器、高斯上采样模块、解码器,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络,所述高斯上采样模块按照预设块进行高斯上采样,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的LPL声码器;根据所述神经网络的梅尔声码器以及所述基于神经网络的LPL声码器处理语音音频数据,得到所述语音音频数据的合成结果。
[0008]进一步地,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的LPL声码器包括:通过预测的梅尔特征向量和预测的LPL特征向量;确定基于神经网络的梅尔声码器和基于神经网络的LPL声码器,用以得到合成结果。
[0009]进一步地,所述编码器通过所述单向长短时记忆网络以及所述反向延时可控的循环神经网络代替双向长短时记忆网络,用以控制所述编码器的延时。
[0010]进一步地,所述高斯上采样模块按照预设块进行高斯上采样作为所述编码器的输入,且与块大小相关。
[0011]进一步地,所述通过预设的NAT处理模型,得到文本数据合成的语音音频数据,包括:通过控所述制编码器以及所述高斯上采样模块的延时,控制整个系统的延时。
[0012]进一步地,所述根据所述神经网络的梅尔声码器以及所述基于神经网络的LPL声码器处理语音音频数据,得到所述语音音频数据的合成结果,包括:根据所述神经网络的梅
尔声码器以及所述基于神经网络的LPL声码器处理语音音频数据,得到所述语音音频数据中不同的合成音质或者合成韵律。
[0013]为了实现上述目的,根据本申请的另一个方面,提供了一种语音合成方法,用于服务端。
[0014]根据本申请的语音合成方法包括:接收客户端的文本数据;通过预设的NAT处理模型,解析文本数据合成的语音音频数据,其中,所述预设的NAT处理模型中包括编码器、高斯上采样模块、解码器,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络,所述高斯上采样模块按照预设块进行高斯上采样,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的LPL声码器;将基于所述神经网络的梅尔声码器以及所述基于神经网络的LPL声码器处理语音音频数据得到的所述语音音频数据的合成结果下发至所述客户端。
[0015]为了实现上述目的,根据本申请的另一方面,提供了一种语音合成装置。
[0016]根据本申请的语音合成装置包括:获取模块,用于获取文本数据;处理模块,用于通过预设的NAT处理模型,得到文本数据合成的语音音频数据,其中,所述预设的NAT处理模型中包括编码器、高斯上采样模块、解码器,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络,所述高斯上采样模块按照预设块进行高斯上采样,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的LPL声码器;合成模块,用于根据所述神经网络的梅尔声码器以及所述基于神经网络的LPL声码器处理语音音频数据,得到所述语音音频数据的合成结果。
[0017]为了实现上述目的,根据本申请的另一个方面,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0018]为了实现上述目的,根据本申请的再一个方面,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
[0019]在本申请实施例中语音合成方法以及装置、存储介质、电子装置,采用获取文本数据的方式,通过预设的NAT处理模型,得到文本数据合成的语音音频数据,达到了根据所述神经网络的梅尔声码器以及所述基于神经网络的LPL声码器处理结果,得到所述文本数据的合成结果的目的,从而实现了控制延时和能合成语音的技术效果,进而解决了语音合成整体系统的延时以及无法合成语音的技术问题。
附图说明
[0020]构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0021]图1是根据本申请实施例的语音合成方法的硬件结构示意图;
[0022]图2是根据本申请实施例的语音合成方法的流程示意图;
[0023]图3是根据本申请实施例的语音合成装置结构示意图;
[0024]图4是根据本申请实施例的语音合成方法的流程示意图;
[0025]图5是根据本申请实施例的语音合成方法的编码器和上采样结构示意图;
[0026]图6是根据本申请实施例的语音合成方法的解码器结构示意图。
具体实施方式
[0027]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0028]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0029]在本申请中,术语“上”、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,用于客户端,所述方法包括:获取文本数据;通过预设的NAT处理模型,得到文本数据合成的语音音频数据,其中,所述预设的NAT处理模型中包括编码器、高斯上采样模块、解码器,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络,所述高斯上采样模块按照预设块进行高斯上采样,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的LPL声码器;根据所述神经网络的梅尔声码器以及所述基于神经网络的LPL声码器处理语音音频数据,得到所述语音音频数据的合成结果。2.根据权利要求1所述的方法,其特征在于,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的LPL声码器包括:通过预测的梅尔特征向量和预测的LPL特征向量;确定基于神经网络的梅尔声码器和基于神经网络的LPL声码器,用以得到合成结果。3.根据权利要求2所述的方法,其特征在于,所述编码器通过所述单向长短时记忆网络以及所述反向延时可控的循环神经网络代替双向长短时记忆网络,用以控制所述编码器的延时。4.根据权利要求1所述的方法,其特征在于,所述高斯上采样模块按照预设块进行高斯上采样作为所述编码器的输入,且与块大小相关。5.根据权利要求1所述的方法,其特征在于,所述通过预设的NAT处理模型,得到文本数据合成的语音音频数据,包括:通过控所述制编码器以及所述高斯上采样模块的延时,控制整个系统的延时。6.根据权利要求1所述的方法,其特征在于,所述根据所述神经网络的梅尔声码器以及所述基于神经网络的LPL声码器处理语音音频数据,得到所述语音音频数据的合成结果,包括:根据所述神经网络的梅尔声码器以及所述基于神经网络的LPL声码器处理语音音频...

【专利技术属性】
技术研发人员:司玉景张钦王通郗雯沈彬彬蒲瑶李全忠
申请(专利权)人:普强时代珠海横琴信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1