一种合成语音自然度的提升方法技术

技术编号：11234497 阅读：153 留言：0更新日期：2015-04-01 08:23

本发明专利技术公开了一种合成语音自然度的提升方法，该方法包括：构建一个基于隐马尔科夫模型HMM的语音合成系统，并基于该语音合成系统及自然录音获得一合成语音；分别提取该合成语音及自然录音的基频特征，并进行高斯双向联想贮存器GBAM模型训练；利用训练好的GBAM模型，将合成语音的基频特征向自然录音的基频特征进行转换；结合频谱和转换后的基频特征，利用STRAIGHT合成最终的语音。通过采用本发明专利技术公开的方法，可以提高合成语音的自然度，使之更为真实、生动。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了，该方法包括：构建一个基于隐马尔科夫模型HMM的语音合成系统，并基于该语音合成系统及自然录音获得一合成语音；分别提取该合成语音及自然录音的基频特征，并进行高斯双向联想贮存器GBAM模型训练；利用训练好的GBAM模型，将合成语音的基频特征向自然录音的基频特征进行转换；结合频谱和转换后的基频特征，利用STRAIGHT合成最终的语音。通过采用本专利技术公开的方法，可以提高合成语音的自然度，使之更为真实、生动。【专利说明】
本专利技术涉及音频处理
，尤其涉及。
技术介绍
近几年来，在从文本到语音（TTS)的合成领域，基于隐马尔科夫模型（HMM)的语音合成已经发展成为一种主流的合成方法。它能够合成拥有高可懂度的高质量语音，但是在自然度上，由于合成的基频曲线过于平滑，因此与自然录音相比依然比较单调乏味。造成这一现象的一个重要原因是由于采用高斯声学模型时所产生的平均效应，而且基频是一种超音段的声学特征，拥有丰富的长时性特征，例如音节音调、短语语调等。现有技术致力于从改变基频建模的模型结构和参数生成准则的角度来提高合成语音的自然度；然而，传统的基于HMM的语音合成系统在基频建模时一直把音素作为最基本建模单元，把帧一级的基频作为模型观测值，这就导致传统模型对基频长时特征不具备很好的建模能力，也就使得合成语音听起来没有自然语言那样生动形象。
技术实现思路
本专利技术的目的是提供，可以提高合成语音的自然度，使之更为真实、生动。本专利技术的目的是通过以下技术方案实现的： (...

【技术保护点】
一种合成语音自然度的提升方法，其特征在于，该方法包括：构建一个基于隐马尔科夫模型HMM的语音合成系统，并基于该语音合成系统及自然录音获得合成语音；分别提取该合成语音及自然录音的基频特征，并进行高斯双向联想贮存器GBAM模型训练；利用训练好的GBAM模型，将合成语音的基频特征向自然录音的基频特征进行转换；结合频谱和转换后的基频特征，利用STRAIGHT合成最终的语音。

【技术特征摘要】

【专利技术属性】
技术研发人员：高丽，凌震华，陈凌辉，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人