当前位置: 首页 > 专利查询>天津大学专利>正文

基于卷积神经和生成对抗网络的文本转语音方法及装置制造方法及图纸

技术编号:32639000 阅读:14 留言:0更新日期:2022-03-12 18:14
本发明专利技术公开了一种基于卷积神经和生成对抗网络的文本转语音方法及装置,所述方法采用CNN前端网络与GAN后端网络结合的网络结构,所述方法包括:将文本作为输入,对应语音的声学特征梅尔谱作为输出,对前端网络进行训练,使得前端网络获得从文本提取声学特征梅尔谱的能力;将训练后的前端网络生成的声学特征梅尔谱作为输入,对应的语音波形作为输出,对后端网络进行训练,使得后端网络获得将声学特征梅尔谱转化为语音波形的能力。装置包括:图形处理器GPU和存储器。本发明专利技术先使用融合了注意力机制的卷积神经网络,将输入文本转化为声学特征梅尔(Mel)谱,然后将得到的梅尔谱作为生成对抗网络中生成器的输入,合成最终的语音波形。形。形。

【技术实现步骤摘要】
基于卷积神经和生成对抗网络的文本转语音方法及装置


[0001]本专利技术涉及自然语言处理和深度学习
,尤其涉及一种基于卷积神经和生成对抗网络的文本转语音(Text

to

Speech,简记为TTS)的方法及装置,本专利技术先使用融合了注意力机制的卷积神经网络,将输入文本转化为声学特征梅尔(Mel)谱,然后将得到的梅尔谱作为生成对抗网络中生成器的输入,合成最终的语音波形。

技术介绍

[0002]随着人工智能技术的快速发展,智能家居、智能家电、智能建筑和智能医疗等“智能+”应用为人们的生活带来了许多改变,而文本转语音是人机交互必不可少的一部分。如何高效率地从文本合成高质量的语音一直是语音领域内讨论的热点。现有的文本转语音主要有以下三种方法:传统的单元波形拼接合成方法
[1,2]和统计参数合成方法
[3,4],以及基于深度学习的各种合成网络。
[0003]单元波形拼接方法将原始音频根据音节剪切为独立单元进行存储。简单的波形技术中合成单元一旦确定就无法对其根据上下文来调整韵律,文献[5]提出的基音同步叠加技术(Pitch Synchronous Overlap Add,简记为PSOLA)较好地解决了这个问题。虽然单元波形拼接方法合成的语音质量比较好,但是当语种变化时系统需要全部重新设计,灵活性不够。统计参数方法在训练阶段对语音的频谱、基频和时长等特征进行建模。在合成阶段,利用以上特征恢复时域的音频信号。这种方法在更换语种时比较方便,但是由于模型自身的局限性,合成的语音的质量不高。深度学习的蓬勃发展直接推动了文本转语音领域的进步,各种网络在文本转语音方面的实践层出不穷。它们很好地解决了不同语种带来的模型重构问题,同时合成的语音质量也得到了大幅的提升。
[0004]基于深度学习的文本转语音系统通常分为前端和后端两个部分。文本转语音系统的前端部分负责将文本转化为声学特征。文献[6,7,8]主要使用了循环神经网络(Recurrent Neural Network,简记为RNN)将文本从语音转化为声学特征。一个序列的当前输出不仅与当前时刻的输入有关,还与前一个时刻的输出也是相关的。最近的信息会以激励的形式存储在网络中形成记忆,神经元之间的连接为反馈连接。这符合文本转语音方法的规律:不论是文本还是语音,当前时刻的内容总是与前文相关。因此,循环神经网络常常是处理与时间相关序列的最佳选择。但是循环单元的计算代价非常大,训练时长通常需要几天甚至几周。文献[9,10,11]尝试用卷积神经网络CNN替代RNN对文本进行处理。
[0005]文本转语音系统后端部分负责将声学特征转化为语音波形。后端一般称为声码器。文献[6,11]使用了传统的声码器Griffin

Lim,通过逆短时傅里叶变换将前端网络得到的声学特征(频谱)转化为语音,这种方法虽然简单,但是合成的语音质量较差,韵律和节奏都不自然。文献[12,13,14]是基于深度学习的声码器,合成的语音质量远远优于传统方法,其中WaveNet
[13]能够合成接近人类水平的语音。但是这些声码器的循环结构和自回归结构使得模型的训练时间长并且网络不易收敛。生成对抗网络GAN(Generative Adversarial Networks,简记为GAN)近年来在计算机视觉方面的应用愈加成熟,生成器和鉴别器之间的
2016.

技术实现思路

[0021]本专利技术提供了一种基于卷积神经和生成对抗网络的文本转语音方法及装置,本专利技术先使用融合了注意力机制的卷积神经网络,将输入文本转化为声学特征梅尔(Mel)谱,然后将得到的梅尔谱作为生成对抗网络中生成器的输入,合成最终的语音波形,详见下文描述:
[0022]第一方面,一种基于卷积神经和生成对抗网络的文本转语音方法,所述方法采用CNN前端网络与GAN后端网络结合的网络结构,所述方法包括:
[0023]将文本作为输入,对应语音的声学特征梅尔谱作为输出,对前端网络进行训练,使得前端网络获得从文本提取声学特征的能力;
[0024]将训练后的前端网络生成的声学特征梅尔谱作为输入,对应的语音波形作为输出,对后端网络进行训练,使得后端网络获得将声学特征梅尔谱转化为语音波形的能力。
[0025]其中,所述CNN前端网络的整体架构包括:文本编码器、音频编码器、音频解码器及注意力机制模块,所述注意力机制通过赋予与当前时刻输入文本有关联的对应的Mel谱帧更大的权重,实现文本与语音的对齐。
[0026]进一步地,所述文本编码器、音频编码器、音频解码器均由卷积神经网络,ReLU激活函数构成。
[0027]其中,所述GAN后端网络框架由生成器和鉴别器组成;
[0028]所述生成器根据输入的Mel谱生成语音,所述鉴别器对输入的语音进行判定,若判定为生成器合成的语音则输出0,若判定为真实语音则输出1;
[0029]通过设定的损失函数不断进行博弈训练,直至鉴别器无法区分输入语音是真实的还是合成的。
[0030]进一步地,所述GAN后端网络的损失函数由Mel谱损失,GAN损失和特征匹配损失组成。
[0031]第二方面,一种基于卷积神经和生成对抗网络的文本转语音装置,所述装置包括:图形处理器GPU器和存储器,所述存储器中存储有程序指令,所述图形处理器GPU调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。
[0032]本专利技术提出了一种基于卷积神经网络和生成对抗网络的文本转语音方法及装置,若将其应用于实际工程领域可以产生如下的有益效果:
[0033]1、本专利技术所使用的文本转语音的前端网络所有层均为卷积层,卷积层没有自回归结构,没有循环单元,网络的参数数量远小于基于循环神经网络RNN的文本转语音系统,能够减小训练时长,使得训练成本降低;
[0034]2、本专利技术所使用的文本转语音后端网络为生成对抗网络GAN,实验表明,利用博弈论的思想可以使得生成器生成的语音越发接近真实的语音,即接近人类水平的语音;
[0035]3、本专利技术的网络的训练具有稳定性,当更换数据集的语种时,网络依旧可以很好地收敛,具有泛化能力。
附图说明
[0036]图1为文本转语音前端网络训练阶段示意图;
[0037]图2为文本转语音前端网络测试阶段示意图;
[0038]图3为文本转语音系统后端网络框架示意图;
[0039]图4为本专利技术所提出文本转语音系统的后端GAN网络的生成器结构示意图;
[0040]图5为本专利技术所提出文本转语音系统的后端GAN网络的鉴别器结构示意图;
[0041]图6为输入新的文本“The birch canoe slid on the smooth planks.”后,对比开源Tacotron前端加Griffin

Lim声码器、开源Tacotron2前端加WaveNet声码器,以及本专利技术设计的CNN前端加基于GAN的声码器这三本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卷积神经和生成对抗网络的文本转语音方法,其特征在于,所述方法采用CNN前端网络与GAN后端网络结合的网络结构,所述方法包括:将文本作为输入,对应语音的声学特征梅尔谱作为输出,对前端网络进行训练,使得前端网络获得从文本提取声学特征的能力;将训练后的前端网络生成的声学特征梅尔谱作为输入,对应的语音波形作为输出,对后端网络进行训练,使得后端网络获得将声学特征梅尔谱转化为语音波形的能力。2.根据权利要求1所述的一种基于卷积神经和生成对抗网络的文本转语音方法,其特征在于,所述CNN前端网络的整体架构包括:文本编码器、音频编码器、音频解码器及注意力机制模块,所述注意力机制通过赋予与当前时刻输入文本有关联的对应的Mel谱帧更大的权重,实现文本与语音的对齐。3.根据权利要求1所述的一种基于卷积神经和生成对抗网络的文本转语音方法,其特征在于,所述文本编码器、音频编码器、音频解码器均由卷积神经...

【专利技术属性】
技术研发人员:黄翔东吴小月甘霖
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1