本发明专利技术公开一种基于统计参数的疑问句、感叹句的语音合成方法,该方法分为通过对陈述句的模型训练,得到陈述句的初始声学模型、通过对疑问句或感叹句的自适应训练,得到疑问句或感叹句的声学模型和根据疑问句或感叹句的声学模型,实现疑问句或感叹句的语音生成三部分。本发明专利技术提供了一种在小语料情况下,采用小规模语料快速实现疑问句或感叹句的语音合成方法,解决了相对于陈述句语料,疑问句或感叹句语料较难收集,语料规模较小情况下,得的较高音质以及自然度的合成语音的问题。
【技术实现步骤摘要】
本专利技术涉及一种语音合成方法,尤其涉及一种基于统计参数的疑问句、感叹句的语音合成方法。
技术介绍
语气合成是富有表现力的语音合成方法研究中的一个重要方面。语气大体可以分为陈述句、疑问句、祈使句和感叹句等。目前的语音合成系统大多针对陈述句设计,在合成其它语气时,语气的表达效果不明显。如果语音合成系统能够在语气的合成上有较大的突破,那么合成语音的表现力将会进一步提高,人机交互将会更加和谐自然。疑问句、感叹句是自然口语中常见的语言现象。在疑问句以及感叹句合成方面,目前已有的方法在分析了带有情态标记的疑问句的韵律特点之后,通过构建新的韵律模板库和构建新的目标代价函数,在波形拼接合成系统框架下,实现疑问句、感叹句的合成。从实现方法上来说,这种方法有以下几点不足。首先该方法需要在具有文本的情感标记的基础上进行疑问句的韵律分析;其次,需要把语调的变化归结为在关键音节的前后几个位置的变化,不具有一般性;最后,系统采用波形拼接的方法实现语气的合成,会保留这种方法的不足。也有在统计参数语音合成的框架下,用一定的疑问句语料进行训练,实现疑问句的生成。这种方法不需要进行疑问句的韵律分析,采用机器学习的方式来学习疑问语气中的韵律,实现语气的合成,方法更为一般化。但是该方法对疑问句的训练语料量要求较大。而大量的疑问句的训练语料是比较难以获取的。因此,如何用少量的疑问句语料,快速地构建一个疑问句合成系统是本行业需要迫切解决的一个问题。
技术实现思路
为了解决上述技术所存在的不足之处,本专利技术提供了一种基于统计参数的疑问句、感叹句的语音合成方法。为了解决以上技术问题,本专利技术采用的技术方案是:一种基于统计参数的疑问句、感叹句的语音合成方法,该方法分为以下三个部分:第一部分:通过对陈述句的模型训练,得到陈述句的初始声学模型;获取大规模陈述句的录音语料作为训练语料,训练基于隐半马尔科夫模型的声学模型或者基于深度神经网络的声学模型作为初始声学模型;初始声学模型采用多空间概率分布-隐半马尔科夫模型进行建模,首先分别通过文本标注和语音信号提取激励参数、谱参数,将基频以及谱参数融合为一个向量,然后加入一阶、二阶动态参数作为多空间概率分布-隐半马尔科夫模型训练的输入,最终得到陈述句的基于多空间概率分布-隐半马尔科夫模型初始声学模型;或者,初始声学模型采用深度神经网络进行建模,使用多任务学习方式,用深度神经网络完成文本到语音声学参数的映射,得到基于深度神经网络的初始声学模型;第二部分:通过对疑问句或感叹句的自适应训练,得到疑问句或感叹句的声学模型;获取小规模的疑问句或感叹句的录音语料作为训练语料,再经过文本标注以及语音信号进行参数提取,然后根据在第一部分中得到的基于多空间概率分布-隐半马尔科夫模型初始声学模型的基础上进行自适应训练,得到疑问句或感叹句的基于多空间概率分布-隐半马尔科夫模型的声学模型;或者根据在第一部分中得到的基于深度神经网络的初始声学模型的基础上进行自适应训练,在基于多任务学习方式的基础上调整深度神经网络模型,得到疑问句或感叹句的基于深度神经网络的声学模型;第三部分:根据疑问句或感叹句的声学模型,实现疑问句或感叹句的语音生成;对于待合成语音的文本,进行文本分析,采用经过第二部分得到的疑问句或感叹句的基于多空间概率分布-隐半马尔科夫模型的声学模型或者基于深度神经网络的声学模型进行语音参数的生成,然后经过语音声码器,最终合成出疑问句或者感叹句的语音。基于深度神经网络的初始声学模型,包括以上、下文相关的文本特征作为深度神经网络的输入,以声学参数作为深度神经网络的输出;上、下文相关文本特征包括音素、音节位置、短语位置;声学参数包括谱、基频、清浊音判决;多任务学习方式的深度神经网络,将清浊音判决作为深度神经网络的第二个学习任务;深度神经网络的输出层中有一个神经元被加上softmax回归模型的soft-max层,输出为清浊音判决;有一个线性变换层,输出为语音参数;这两层平行堆叠在经过预训练的隐层之上。基于多空间概率分布-隐半马尔科夫模型的声学模型,采用基于受限极大似然线性回归和结构化最大后验概率相融合的自适应方法进行训练,该方法包括先采用基于受限极大似然线性回归对基于多空间概率分布-隐半马尔科夫模型的初始声学模型涉及的所有模型参数进行大规模调整,再采用结构化最大后验概率对自适应数据中出现的相应模型进行参数的自适应训练。本专利技术提供了一种在小语料情况下,采用小规模语料快速实现疑问句或感叹句的语音合成方法,解决了相对于陈述句语料,疑问句或感叹句语料较难收集,语料规模较小情况下,得的较高音质以及自然度的合成语音的问题。附图说明下面结合附图和具体实施方式对本专利技术作进一步详细的说明。图1为本专利技术的流程框图。图2为图1所示语音合成方法中多空间概率分布-隐半马尔科夫模型的训练流程框图。图3为图1所示语音合成方法中整体的深度神经网络学习框图。图4为图1所示语音合成方法中基于多空间概率分布-隐半马尔科夫模型的声学模型的语音合成框图。具体实施方式如图1所示,本专利技术的具体方法分为以下三部分:第一部分:通过对陈述句的模型训练,得到陈述句的初始声学模型;获取大规模陈述句的录音语料作为训练语料,训练基于隐马尔科夫模型(hiddenMarkovmodel,HMM的声学模型或者基于深度神经网络(DeepNeuralNetwork,DNN)的声学模型作为初始声学模型;初始声学模型采用多空间概率分布-隐半马尔科夫模型(Multi-SpaceProbabilityDistribution-HiddenSemi-MarkovModel,MSD-HSMM)进行建模,首先分别通过文本标注和语音信号提取激励参数、谱参数,将基频以及谱参数融合为一个向量,然后加入一阶、二阶动态参数作为MSD-HSMM训练的输入,最终得到陈述句的基于MSD-HSMM的初始声学模型;或者,初始声学模型采用深度神经网络进行建模,使用多任务学习方式,用深度神经网络完成文本到语音声学参数的映射,得到基于深度神经网络的初始声学模型;第二部分:通过对疑问句或感叹句的自适应训练,得到疑问句或感叹句的声学模型;获取小规模的疑问句或感叹句的录音语料作为训练语料,再经过文本标注以及语音信号进行参数提取,然后根据在第一部分中得到的基于MSD-HSMM的初始声学模型的基础上进行自适应训本文档来自技高网...
【技术保护点】
一种基于统计参数的疑问句、感叹句的语音合成方法,其特征在于,该方法分为以下三个部分:第一部分:通过对陈述句的模型训练,得到陈述句的初始声学模型;获取大规模陈述句的录音语料作为训练语料,训练基于隐半马尔科夫模型的声学模型或者基于深度神经网络的声学模型作为初始声学模型;初始声学模型采用多空间概率分布‑隐半马尔科夫模型进行建模,首先分别通过文本标注和语音信号提取激励参数、谱参数,将基频以及谱参数融合为一个向量,然后加入一阶、二阶动态参数作为多空间概率分布‑隐半马尔科夫模型训练的输入,最终得到陈述句的基于多空间概率分布‑隐半马尔科夫模型初始声学模型;或者,初始声学模型采用深度神经网络进行建模,使用多任务学习方式,用深度神经网络完成文本到语音声学参数的映射,得到基于深度神经网络的初始声学模型;第二部分:通过对疑问句或感叹句的自适应训练,得到疑问句或感叹句的声学模型;获取小规模的疑问句或感叹句的录音语料作为训练语料,再经过文本标注以及语音信号进行参数提取,然后根据在第一部分中得到的基于多空间概率分布‑隐半马尔科夫模型初始声学模型的基础上进行自适应训练,得到疑问句或感叹句的基于多空间概率分布‑隐半马尔科夫模型的声学模型;或者根据在第一部分中得到的基于深度神经网络的初始声学模型的基础上进行自适应训练,在基于多任务学习方式的基础上调整深度神经网络模型,得到疑问句或感叹句的基于深度神经网络的声学模型;第三部分:根据疑问句或感叹句的声学模型,实现疑问句或感叹句的语音生成;对于待合成语音的文本,进行文本分析,采用经过第二部分得到的疑问句或感叹句的基于多空间概率分布‑隐半马尔科夫模型的声学模型或者基于深度神经网络的声学模型进行语音参数的生成,然后经过语音声码器,最终合成出疑问句或者感叹句的语音。...
【技术特征摘要】
1.一种基于统计参数的疑问句、感叹句的语音合成方法,其特征在于,
该方法分为以下三个部分:
第一部分:通过对陈述句的模型训练,得到陈述句的初始声学模型;
获取大规模陈述句的录音语料作为训练语料,训练基于隐半马尔科夫模型
的声学模型或者基于深度神经网络的声学模型作为初始声学模型;
初始声学模型采用多空间概率分布-隐半马尔科夫模型进行建模,首先分
别通过文本标注和语音信号提取激励参数、谱参数,将基频以及谱参数融合为
一个向量,然后加入一阶、二阶动态参数作为多空间概率分布-隐半马尔科夫
模型训练的输入,最终得到陈述句的基于多空间概率分布-隐半马尔科夫模型
初始声学模型;
或者,初始声学模型采用深度神经网络进行建模,使用多任务学习方式,
用深度神经网络完成文本到语音声学参数的映射,得到基于深度神经网络的初
始声学模型;
第二部分:通过对疑问句或感叹句的自适应训练,得到疑问句或感叹句的
声学模型;
获取小规模的疑问句或感叹句的录音语料作为训练语料,再经过文本标注
以及语音信号进行参数提取,然后根据在第一部分中得到的基于多空间概率分
布-隐半马尔科夫模型初始声学模型的基础上进行自适应训练,得到疑问句或
感叹句的基于多空间概率分布-隐半马尔科夫模型的声学模型;
或者根据在第一部分中得到的基于深度神经网络的初始声学模型的基础上
进行自适应训练,在基于多任务学习方式的基础上调整深度神经网络模型,得
到疑问句或感叹句的基于深度神经网络的声学模型;
第三部分:根据疑问句或感叹句的...
【专利技术属性】
技术研发人员:徐明星,车浩,
申请(专利权)人:北京时代瑞朗科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。