基于卷积神经和生成对抗网络的文本转语音方法及装置制造方法及图纸

技术编号：32639000 阅读：14 留言：0更新日期：2022-03-12 18:14

本发明专利技术公开了一种基于卷积神经和生成对抗网络的文本转语音方法及装置，所述方法采用CNN前端网络与GAN后端网络结合的网络结构，所述方法包括：将文本作为输入，对应语音的声学特征梅尔谱作为输出，对前端网络进行训练，使得前端网络获得从文本提取声学特征梅尔谱的能力；将训练后的前端网络生成的声学特征梅尔谱作为输入，对应的语音波形作为输出，对后端网络进行训练，使得后端网络获得将声学特征梅尔谱转化为语音波形的能力。装置包括：图形处理器GPU和存储器。本发明专利技术先使用融合了注意力机制的卷积神经网络，将输入文本转化为声学特征梅尔(Mel)谱，然后将得到的梅尔谱作为生成对抗网络中生成器的输入，合成最终的语音波形。形。形。

全部详细技术资料下载

【技术实现步骤摘要】
基于卷积神经和生成对抗网络的文本转语音方法及装置

[0001]本专利技术涉及自然语言处理和深度学习
，尤其涉及一种基于卷积神经和生成对抗网络的文本转语音(Text
‑
to
‑
Speech，简记为TTS)的方法及装置，本专利技术先使用融合了注意力机制的卷积神经网络，将输入文本转化为声学特征梅尔(Mel)谱，然后将得到的梅尔谱作为生成对抗网络中生成器的输入，合成最终的语音波形。

技术介绍

[0002]随着人工智能技术的快速发展，智能家居、智能家电、智能建筑和智能医疗等“智能+”应用为人们的生活带来了许多改变，而文本转语音是人机交互必不可少的一部分。如何高效率地从文本合成高质量的语音一直是语音领域内讨论的热点。现有的文本转语音主要有以下三种方法：传统的单元波形拼接合成方法
[1,2]和统计参数合成方法
[3,4]，以及基于深度学习的各种合成网络。
[0003]单元波形拼接方法将原始音频根据音节剪切为独立单元进行存储。简单的波形技术中合成单元一旦确定就无法对其根据上下文来调整韵律，文献[5]提出的基音同步叠加技术(Pitch Synchronous Overlap Add，简记为PSOLA)较好地解决了这个问题。虽然单元波形拼接方法合成的语音质量比较好，但是当语种变化时系统需要全部重新设计，灵活性不够。统计参数方法在训练阶段对语音的频谱、基频和时长等特征进行建模。在合成阶段，利用以上特征恢复时域的音频信号。这种方法在更换语种时比较方便，但是由于模型自身的局限性...

【技术保护点】

【技术特征摘要】
1.一种基于卷积神经和生成对抗网络的文本转语音方法，其特征在于，所述方法采用CNN前端网络与GAN后端网络结合的网络结构，所述方法包括：将文本作为输入，对应语音的声学特征梅尔谱作为输出，对前端网络进行训练，使得前端网络获得从文本提取声学特征的能力；将训练后的前端网络生成的声学特征梅尔谱作为输入，对应的语音波形作为输出，对后端网络进行训练，使得后端网络获得将声学特征梅尔谱转化为语音波形的能力。2.根据权利要求1所述的一种基于卷积神经和生成对抗网络的文本转语音方法，其特征在于，所述CNN前端网络的整体架构包括：文本编码器、音频编码器、音频解码器及注意力机制模块，所述注意力机制通过赋予与当前时刻输入文本有关联的对应的Mel谱帧更大的权重，实现文本与语音的对齐。3.根据权利要求1所述的一种基于卷积神经和生成对抗网络的文本转语音方法，其特征在于，所述文本编码器、音频编码器、音频解码器均由卷积神经...

【专利技术属性】
技术研发人员：黄翔东，吴小月，甘霖，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人