一种提高语音合成自然度的方法技术

技术编号：30331270 阅读：21 留言：0更新日期：2021-10-10 00:36

本发明专利技术公开了一种提高语音合成自然度的方法。它包括如下步骤：将文本通过字形到音素的工具得到与文本对应的音素，所有的音素组成一个音素字典，音素字典的个数作为嵌入层的维度，对文本的音素进行表征，由CBHG模块对表征的特征进行编码；将文本编码的结果作为输入，对每个音素的持续时间进行预测，预测结果与真实的标签作比对，对时长模型进行优化；将经过时长模型扩充后的特征进行解码，解码出的结果组合成一个复数的特征，解码出的复数特征经原始音频中短时傅里叶逆变换，还原为语音波形。本发明专利技术的有益效果是：可以降低模型的复杂度，减少计算量，节约计算及部署成本；提高合成语音的自然度，发音更加像真人。发音更加像真人。发音更加像真人。

全部详细技术资料下载

【技术实现步骤摘要】
一种提高语音合成自然度的方法

[0001]本专利技术涉及语音合成相关
，尤其是指一种提高语音合成自然度的方法。

技术介绍

[0002]由于深度学习的发展及在各领域的应用，语音合成也得到了很多的受益。语音合成大致也可以分为两个阶段：1.拼接法和参数法。拼接法是指在比较大的语料中寻找语音片段，然后根据要合成的文字，去搜索相应的语音片段组合起来。这样合成出的语音虽然是真人的声音，但是在一些全局的特征上表现会受到限制，比如说话的语气，韵律等。同时拼接法还需要比较大的语料，对数据集要求比较高。参数法是指根据统计模型建立文本参数与声学参数之间的映射模型。缺点是合成的语音有机械感不自然，参数调节很麻烦。2.基于深度学习的研究。基于深度学习的语音合成在往端到端方向上发展。合成的质量也越来越好，但是目前真正端到端的模型很少，基本都是通过梅尔频谱在文本与语音之间建立桥梁。这造成了合成语音自然度的损失。
[0003]现有的语音合成技术，首先文本会由一个正则化模块将文本处理成音素作为输入，然后经过一个嵌入层网络，对文本或音素进行表征，再将表征的特征通过一些特征提取网络进行编码。编码后特征的长度还是和输入的音素长度一致，只是维度由一维升到高维。根据文本编码的结果去预测文本或音素的发音时长。对预测的发音时长进行取整，这些时长的个数也是和音素的长度一致的。然后根据取整的时长对编码后的特征进行调节，最后可以得到与从真实语音中提取的梅尔频谱的长度一致的文本编码结果。将时长模型调节的结果通过深度学习网络进行特征的解码，与从真实语音中提取的...

【技术保护点】

【技术特征摘要】
1.一种提高语音合成自然度的方法，其特征是，具体包括如下步骤：（1）文本编码：将文本通过字形到音素的工具得到与文本对应的音素，然后所有的音素组成一个音素字典，音素字典的个数作为嵌入层的维度，对文本的音素进行表征，即通过深度学习中的Embedding将音素映射到一个特征向量；（2）由CBHG模块对表征的特征进行编码，表征的特征指深度学习中的特征向量，编码是指将表征的特征通过CBHG模块进行映射到另外一种特征向量；（3）时长模型：将文本编码的结果作为输入，经过3层的卷积神经网络和1层全连接层对每个音素的持续时间进行预测，持续时间指的是网络预测的一个时长；（4）预测结果与真实的标签作比对，对时长模型进行优化；预测结果就是网络对时长的预测，真实标签就是每个音素真实的时...

【专利技术属性】
技术研发人员：盛乐园，
申请(专利权)人：杭州小影创新科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人