一种基于统计参数的疑问句、感叹句的语音合成方法技术

技术编号：15041516 阅读：72 留言：0更新日期：2017-04-05 14:02

本发明专利技术公开一种基于统计参数的疑问句、感叹句的语音合成方法，该方法分为通过对陈述句的模型训练，得到陈述句的初始声学模型、通过对疑问句或感叹句的自适应训练，得到疑问句或感叹句的声学模型和根据疑问句或感叹句的声学模型，实现疑问句或感叹句的语音生成三部分。本发明专利技术提供了一种在小语料情况下，采用小规模语料快速实现疑问句或感叹句的语音合成方法，解决了相对于陈述句语料，疑问句或感叹句语料较难收集，语料规模较小情况下，得的较高音质以及自然度的合成语音的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种语音合成方法，尤其涉及一种基于统计参数的疑问句、感叹句的语音合成方法。
技术介绍
语气合成是富有表现力的语音合成方法研究中的一个重要方面。语气大体可以分为陈述句、疑问句、祈使句和感叹句等。目前的语音合成系统大多针对陈述句设计，在合成其它语气时，语气的表达效果不明显。如果语音合成系统能够在语气的合成上有较大的突破，那么合成语音的表现力将会进一步提高，人机交互将会更加和谐自然。疑问句、感叹句是自然口语中常见的语言现象。在疑问句以及感叹句合成方面，目前已有的方法在分析了带有情态标记的疑问句的韵律特点之后，通过构建新的韵律模板库和构建新的目标代价函数，在波形拼接合成系统框架下，实现疑问句、感叹句的合成。从实现方法上来说，这种方法有以下几点不足。首先该方法需要在具有文本的情感标记的基础上进行疑问句的韵律分析；其次，需要把语调的变化归结为在关键音节的前后几个位置的变化，不具有一般性；最后，系统采用波形拼接的方法实现语气的合成，会保留这种方法的不足。也有在统计参数语音合成的框架下，用一定的疑问句语料进行训练，实现疑问句的生成。这种方法不需要进行疑问句的韵律分析，采用机器学习的方式来学习疑问语气中的韵律，实现语气的合成，方法更为一般化。但是该方法对疑问句的训练语料量要求较大。而大量的疑问句的训练语料是比较难以获取的。因此，如何用少量的疑问句语料，快速地构建一个疑问句合成系统是本行业需要迫...

【技术保护点】
一种基于统计参数的疑问句、感叹句的语音合成方法，其特征在于，该方法分为以下三个部分：第一部分：通过对陈述句的模型训练，得到陈述句的初始声学模型；获取大规模陈述句的录音语料作为训练语料，训练基于隐半马尔科夫模型的声学模型或者基于深度神经网络的声学模型作为初始声学模型；初始声学模型采用多空间概率分布‑隐半马尔科夫模型进行建模，首先分别通过文本标注和语音信号提取激励参数、谱参数，将基频以及谱参数融合为一个向量，然后加入一阶、二阶动态参数作为多空间概率分布‑隐半马尔科夫模型训练的输入，最终得到陈述句的基于多空间概率分布‑隐半马尔科夫模型初始声学模型；或者，初始声学模型采用深度神经网络进行建模，使用多任务学习方式，用深度神经网络完成文本到语音声学参数的映射，得到基于深度神经网络的初始声学模型；第二部分：通过对疑问句或感叹句的自适应训练，得到疑问句或感叹句的声学模型；获取小规模的疑问句或感叹句的录音语料作为训练语料，再经过文本标注以及语音信号进行参数提取，然后根据在第一部分中得到的基于多空间概率分布‑隐半马尔科夫模型初始声学模型的基础上进行自适应训练，得到疑问句或感叹句的基于多空间概率分布‑隐半马...

【技术特征摘要】
1.一种基于统计参数的疑问句、感叹句的语音合成方法，其特征在于，
该方法分为以下三个部分：
第一部分：通过对陈述句的模型训练，得到陈述句的初始声学模型；
获取大规模陈述句的录音语料作为训练语料，训练基于隐半马尔科夫模型
的声学模型或者基于深度神经网络的声学模型作为初始声学模型；
初始声学模型采用多空间概率分布-隐半马尔科夫模型进行建模，首先分
别通过文本标注和语音信号提取激励参数、谱参数，将基频以及谱参数融合为
一个向量，然后加入一阶、二阶动态参数作为多空间概率分布-隐半马尔科夫
模型训练的输入，最终得到陈述句的基于多空间概率分布-隐半马尔科夫模型
初始声学模型；
或者，初始声学模型采用深度神经网络进行建模，使用多任务学习方式，
用深度神经网络完成文本到语音声学参数的映射，得到基于深度神经网络的初
始声学模型；
第二部分：通过对疑问句或感叹句的自适应训练，得到疑问句或感叹句的
声学模型；
获取小规模的疑问句或感叹句的录音语料作为训练语料，再经过文本标注
以及语音信号进行参数提取，然后根据在第一部分中得到的基于多空间概率分
布-隐半马尔科夫模型初始声学模型的基础上进行自适应训练，得到疑问句或
感叹句的基于多空间概率分布-隐半马尔科夫模型的声学模型；
或者根据在第一部分中得到的基于深度神经网络的初始声学模型的基础上
进行自适应训练，在基于多任务学习方式的基础上调整深度神经网络模型，得
到疑问句或感叹句的基于深度神经网络的声学模型；
第三部分：根据疑问句或感叹句的...

【专利技术属性】
技术研发人员：徐明星，车浩，
申请(专利权)人：北京时代瑞朗科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人