一种语音合成单元时长的预测方法及装置制造方法及图纸

技术编号：6797562 阅读：296 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供了一种语音合成单元时长的预测方法和装置，包括：针对上下文环境参数，采用逐步线性回归的时长预测模型，对语音合成单元的时长进行初始预测，获得初始时长预测结果；采用决策树-高斯混合模型对所述初始时长预测结果进行分配，得到分配后的时长预测结果。本发明专利技术能够提高时长预测结果的准确性，使得从语音合成系统中合成出的语音具备真实的韵律感。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息处理
，特别是涉及一种逐步线性回归的时长预测模型的训练方法及装置、一种语音合成单元时长的预测方法及装置。
技术介绍
在语音合成系统(Text-to-Speech，TTS)中，语音合成单元时长的预测生成是必不可少的步骤，对合成语音的韵律听感有着至关重要的作用。根据语音学与音系学理论，语音合成单元的时长等特性决定于其所处的上下文环境。对语音时长的预测，本质上是从上下文环境参数的取值空间到时长取值空间的映射。对此种映射关系的分析建模方法，现有的时长预测方法通常采用决策树-高斯混合模型，确定与之最接近的近似映射。但是，现有的时长预测方法存在一个显著的缺点采用决策树-高斯混合模型来预测时长，所述预测首先对上下文环境参数的取值空间进行粗分类，然后用单一的均值来刻画各子类空间，在这两个过程中都存在着过平均化。下面以一个实例做说明比如“们”字，在“我们”中和在“我们的”中两种情况下，相应的上下文环境都属于“词中”，只是在词中的位置不同。在基于决策树建立的决策树-高斯混合模型中，基于决策树的聚类因为受到树节点数目的限制，只能选择最显著的分类标准进行粗分类，有可能将这两种情况同归为“词中”这一类，从而抹煞了二者各自的个性；在此类别内，使用决策树-高斯混合模型建模，是用单一的均值来刻画整个子类，进一步抹煞了各样本具体的个性。总之，需要本领域技术人员迫切解决的一个技术问题就是如何提供一种时长预测模型的训练方法，以提高时长预测结果的准确性。
技术实现思路
本专利技术所要解决的技术问题是提供一种逐步线性回归的时长预测模型的训练方法及装置、一种语音合成单元时长的预...

【技术保护点】
１．一种逐步线性回归的时长预测模型的训练方法，其特征在于，包括：建立初始的线性回归的时长预测模型；在迭代所述线性回归的时长预测模型的过程中，通过评价每轮的时长预测模型选择上下文环境参数，最终得到最优时长预测模型。

【技术特征摘要】

【专利技术属性】
技术研发人员：王愈，李健，
申请(专利权)人：北京捷通华声语音技术有限公司，
类型：发明
国别省市：11

全部详细技术资料下载我是这个专利的主人