本发明专利技术公开了一种合成语音自然度的提升方法,该方法包括:构建一个基于隐马尔科夫模型HMM的语音合成系统,并基于该语音合成系统及自然录音获得一合成语音;分别提取该合成语音及自然录音的基频特征,并进行高斯双向联想贮存器GBAM模型训练;利用训练好的GBAM模型,将合成语音的基频特征向自然录音的基频特征进行转换;结合频谱和转换后的基频特征,利用STRAIGHT合成最终的语音。通过采用本发明专利技术公开的方法,可以提高合成语音的自然度,使之更为真实、生动。
【技术实现步骤摘要】
【专利摘要】本专利技术公开了,该方法包括:构建一个基于隐马尔科夫模型HMM的语音合成系统,并基于该语音合成系统及自然录音获得一合成语音;分别提取该合成语音及自然录音的基频特征,并进行高斯双向联想贮存器GBAM模型训练;利用训练好的GBAM模型,将合成语音的基频特征向自然录音的基频特征进行转换;结合频谱和转换后的基频特征,利用STRAIGHT合成最终的语音。通过采用本专利技术公开的方法,可以提高合成语音的自然度,使之更为真实、生动。【专利说明】
本专利技术涉及音频处理
,尤其涉及。
技术介绍
近几年来,在从文本到语音(TTS)的合成领域,基于隐马尔科夫模型(HMM)的语音 合成已经发展成为一种主流的合成方法。它能够合成拥有高可懂度的高质量语音,但是在 自然度上,由于合成的基频曲线过于平滑,因此与自然录音相比依然比较单调乏味。造成这 一现象的一个重要原因是由于采用高斯声学模型时所产生的平均效应,而且基频是一 种超音段的声学特征,拥有丰富的长时性特征,例如音节音调、短语语调等。 现有技术致力于从改变基频建模的模型结构和参数生成准则的角度来提高合成 语音的自然度;然而,传统的基于HMM的语音合成系统在基频建模时一直把音素作为最基 本建模单元,把帧一级的基频作为模型观测值,这就导致传统模型对基频长时特征不具备 很好的建模能力,也就使得合成语音听起来没有自然语言那样生动形象。
技术实现思路
本专利技术的目的是提供,可以提高合成语音的自然 度,使之更为真实、生动。 本专利技术的目的是通过以下技术方案实现的: (与权利要求相对应)。 由上述本专利技术提供的技术方案可以看出,采用基于GBAM的基频后滤波方法来提 高合成语音的自然度,该方法用一个类高斯的联合分布来描述合成基频参数和自然基频参 数之间的关系,联合分布的参数通过训练数据预测而得。在转换阶段,根据已获得的GBAM 得到条件分布和传统方法所获得的基频特征,来完成从合成基频到自然基频的转换,从而 可以提高合成语音的自然度,使之更为真实、生动。 【专利附图】【附图说明】 为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本 领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 附图。 图1为本专利技术实施例提供的的流程图; 图2为本专利技术实施例提供的目标逼近模型的示意图。 【具体实施方式】 下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本 专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本专利技术的保护范围。 实施例 图1为本专利技术实施例提供的的流程图。如图1所 示该方法主要包括如下步骤: 步骤1、构建一个基于隐马尔科夫模型HMM的语音合成系统,并基于该语音合成系 统及自然录音获得合成语音。 步骤2、分别提取该合成语音及自然录音的基频特征,并进行高斯双向联想贮存器 GBAM模型训练。 本专利技术实施例中,提取的基频特征包括:长度规整的对数R)向量(FV)和定量目标 逼近模型(qTA)参数; 其中,提取FV包括:根据音节的边界对每句话进行音节切分,再检测每个音节的 浊音段边界;然后,基于声学建模考虑,对每个音节内浊音段的基频取对数,并将其规整到 M个点,获得FV,表示为F= T。 qTA参数的提取依据目标逼近(TA)模型和定量目标逼近(qTA)模型。传统的TA 模型模拟基频产生的内在机制,假设基频运动的音高目标与音节同步,如图2所示。中间的 竖线表示音节边界,虚线表示潜在的音高目标,实线表示基频轨迹;TA模型强调在每个音 节的结尾处,基频轨迹都将不断逼近音高目标。TA模型假设有动态和静态两种类型的音高 目标。 中文是一种很有代表性的声调语言,它包含四种声调:阴平、阳平、上声和去声。在 TA模型中,阴平和上声对应于静态目标,阳平和去声对应于动态目标。 qTA模型是TA模型的定量模型之一,它是一个三阶临界阻尼线性系统,可以用下 述公式表示: f(t) =T(t) + (c〇+c1t+c2t2)e_At; 其中,t表示相对于音节起始位置的相对时间,f(t)是完整的基频表达形式,T(t) 表示潜在的音高目标,可用下式表示: T(t) =st+h; 其中,s与h分别表示音高目标的斜率和高度,f(t)表达式中的多项式部分是瞬态 响应,λ表示基频逼近音高目标的速度,三个瞬态系数(^、(^与C2分别可由下面三式获得: C0=f〇-h; C1=f0'(0) +C1λ-s; C2= (fo^ (0)+2c〇A-Clλ2)/2 ; 其中,fQ、fQ'与fQ"为每个音节的初始状态,传统的qTA模型假设基频曲线是连续 的,并在清音段采用线性内插来形成连续的基频曲线。因此当前音节的fpfV与f/均可 以从上一个音节的结束状态继承而得,但是对于一句话的首音节,&需要预测,fV与f/ 一般被设为零。因此在传统的qTA模型中,对于每句话,我们需要知道该句话起始R)(基 频)值以及每个音节的s、h与λ就可以重构出完整的基频曲线。 但是在中文的连续语流中,音节之间基频的协同发音现象非常严重,因此在清音 段用线性内插来形成连续的基频曲线并不可靠,另外,为了去除时长对qTA参数提取的影 响,我们用长度规整的对数Η)向量(FV)来提取qTA参数;从前述FV的表达式可以看出,FV包含了M个基频值,所述M个基频值可以形成一条基频曲线;用数学模型来模拟这条基频曲 线,qTA参数则为该数学模型对应的参数;本专利技术实施例中,将每个音节的浊音段作为基础 单元来提取qTA参数。这样对每个音节来说,除了s、h与λ,我们还需要知道每个音节&, 此时每个音节的qTA参数可以表示为T=τ。在实验中,我们把每个音节的fQ' 与f/都设为零,但是如果当前音节和前一个音节浊音段连续,则当前音节的fcKfV与f/ 仍然从前一个音节的末尾状态继承。 进行高斯双向联想贮存器GBAM模型训练的方法如下: BAM是一种两层的随机反馈神经网络,已经被成功地用于模式识别和信号处理领 域。在BAM中,两种模式,X= l别作为L维的原始特征 和P维的目标特征。BAM-旦被激活,便会快速到达稳定状态,此时两种模式处于混响状 态。该状态下两种模式之间的相互关系可以用权重矩阵W= 表示,并且此时的系统 能量达到局部最小值。当BAM的神经元是零均值的高斯随机变量时,这个模型被叫做高斯BAM(GBAM),其能量函数记作: 【权利要求】1. ,其特征在于,该方法包括: 构建一个基于隐马尔科夫模型HMM的语音合成系统,并基于该语音合成系统及自然录 音获得合成语音; 分别提取该合成语音及自然录音的基频特征,并进行高斯双向联想贮存器GBAM模型 训练; 利用训练好的GBAM模型,将合成语音的基频特征向自然录音的基频特征进行转换; 结合频谱和转换本文档来自技高网...
【技术保护点】
一种合成语音自然度的提升方法,其特征在于,该方法包括:构建一个基于隐马尔科夫模型HMM的语音合成系统,并基于该语音合成系统及自然录音获得合成语音;分别提取该合成语音及自然录音的基频特征,并进行高斯双向联想贮存器GBAM模型训练;利用训练好的GBAM模型,将合成语音的基频特征向自然录音的基频特征进行转换;结合频谱和转换后的基频特征,利用STRAIGHT合成最终的语音。
【技术特征摘要】
【专利技术属性】
技术研发人员:高丽,凌震华,陈凌辉,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。