一种基于文本信息的波形拼接语音合成方法技术

技术编号：10552363 阅读：119 留言：0更新日期：2014-10-22 10:45

本发明专利技术一种基于文本信息的波形拼接语音合成方法，该方法包括：步骤S1：通过音段切分，提取原始音频中所有基元的声学参数与文本参数，根据提取的参数训练时长预测模型与权重预测模型；步骤S2：采用分层预选方法，利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选，获得候选基元；步骤S3：对目标基元、候选基元和权重预测模型预测的权重信息计算，得到目标代价；对相邻两个基元的契合度进行计算，得到拼接代价；用维特比搜索方法对目标代价和拼接代价进行搜索，得到最小代价路径，进而得到最佳基元并经过平滑拼接得到合成语音。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术，该方法包括：步骤S1：通过音段切分，提取原始音频中所有基元的声学参数与文本参数，根据提取的参数训练时长预测模型与权重预测模型；步骤S2：采用分层预选方法，利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选，获得候选基元；步骤S3：对目标基元、候选基元和权重预测模型预测的权重信息计算，得到目标代价；对相邻两个基元的契合度进行计算，得到拼接代价；用维特比搜索方法对目标代价和拼接代价进行搜索，得到最小代价路径，进而得到最佳基元并经过平滑拼接得到合成语音。【专利说明】
本专利技术属于智能信息处理领域，涉及一种基于文本信息的波形拼接系统。
技术介绍
语音作为人机交互的主要手段之一，语音合成主要目的是让计算机能够产生高清晰度、高自然度的连续语音。语音合成主要有两种方式，早期的研究主要是采用参数语音合成，最常用的合成方法是基于隐马尔柯夫的参数语音合成方法。该方法作为一种基于统计声学建模方法的具休实现，对语音的声学参数进行隐马尔柯夫建模，并通过参数生成算法来重构声学参数轨迹，最后调用语音合成器来产生语音波形。该方法的不足在于合成语音的音质、自然度和清晰度都不够理想，与实际语音具有较大的差距。另一种方法是基于语料库的语音拼接合成方法，该方法是直接从原始录制的语料库中挑选合适的基元来进行拼接合成语音。但该方法虽能合成出较为接近原始语音的波形，但受限于语料库大小的制约，合成语音的稳定性不够理想（音库过大，合成语音速度较慢，无法实时合成；音库过小，合成语音不稳定），很大程度上影响的...

【技术保护点】
一种基于文本信息的波形拼接语音合成方法，其特征在于，该方法包括：步骤S1：通过音段切分，提取原始音频中所有基元的声学参数与文本参数，根据提取的参数训练权重预测模型与时长预测模型；步骤S2：采用分层预选方法，利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选，获得候选基元；步骤S3：对目标基元、候选基元和权重预测模型预测的权重信息计算，得到目标代价；对相邻两个基元的契合度进行计算，得到拼接代价；用维特比搜索方法对目标代价和拼接代价进行搜索，得到最小代价路径，进而得到最佳基元并经过平滑拼接得到合成语音。

【技术特征摘要】

【专利技术属性】
技术研发人员：陶建华，刘善峰，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人