一种语音合成方法和装置制造方法及图纸

技术编号:15021320 阅读:131 留言:0更新日期:2017-04-04 23:29
本发明专利技术提供了一种语音合成方法和装置,其中方法包括:利用预先训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间;利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优;所述第一模型和所述第二模型中至少一个为神经网络模型。本发明专利技术能够提高最终合成的语音的自然度和表现力。

【技术实现步骤摘要】

本专利技术涉及计算机应用
,特别涉及一种语音合成方法和装置
技术介绍
随着移动时代的到来,人们对语音合成的需求日益增长,例如小说朗读、语音导航等都需要进行语音合成。并且,人们对于语音合成已经不仅仅满足于清晰度和可懂度,还要求合成的语音具有更好的自然度和表现力。对于语音合成而言,首先需要对输入的文本进行处理,包括预处理、分词、词性标注、注音、韵律层级预测等,然后通过声学模型,预测各个单元对应的声学特征,最后利用声学参数通过声码器合成语音,或者从语料库中选取合适的语音单元进行拼接合成。其中对于拼接合成而言,如何从语料库中选取合适的语音单元使得最终合成的语句更为自然、更具表现力至关重要。现有的实现方式中,在语音单元的预选过程以及备选空间的搜索过程中均使用HMM(HiddenMarkovModel,隐马尔可夫模型),但由于HMM模型中状态之间相互独立,且其基于决策树的浅层建模,对特征空间的线性划分,导致在复杂文本上下文特征情况下的建模精度较低,造成了最终合成的语音较为平滑,表现力差。
技术实现思路
有鉴于此,本专利技术提供了一种语音合成的方法和装置,以便于提高最终合成的语音的自然度和表现力。具体技术方案如下:本专利技术提供了一种语音合成方法,该方法包括:利用预先训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间;利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优;所述第一模型和所述第二模型中至少一个为神经网络模型。根据本专利技术一优选实施方式,该方法还包括:预先基于文本训练样本和语音训练样本训练第一模型和第二模型,分别得到文本特征到声学参数的映射。根据本专利技术一优选实施方式,所述预先基于文本训练样本和语音训练样本训练第一模型和第二模型包括:对各文本训练样本进行文本分析,提取各文本训练样本的文本特征;以及,对各语音训练样本进行声学分析,得到各语音训练样本的声学参数;利用各文本训练样本的文本特征以及对应的声学参数,训练第一模型和第二模型,分别得到文本特征到声学参数的映射。根据本专利技术一优选实施方式,利用预先训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间包括:对待合成文本进行文本分析,提取各基元的文本特征;利用所述第一模型确定提取的各基元的文本特征对应的声学参数;基于声学参数之间的相似度,分别针对所述各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间,所述N为预设的正整数。根据本专利技术一优选实施方式,所述文本特征包括分词、注音、韵律、声韵母边界中的至少一种;所述声学参数包括谱参数或基频参数中的至少一种。根据本专利技术一优选实施方式,在分别针对所述各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间之前,还包括:利用提取的所述各基元的文本特征从语音库中挑选各基元对应的候选语音单元;利用所述第一模型分别确定候选语音单元的文本特征对应的声学参数。根据本专利技术一优选实施方式,所述利用提取的所述各基元的文本特征从语音库中挑选各基元对应的候选语音单元包括:确定各基元的文本特征与该基元在语音库中对应的语音单元的文本特征之间的相似度;基于相似度从语音库中挑选各基元对应的候选语音单元。根据本专利技术一优选实施方式,所述声学参数之间的相似度采用相对熵的方式体现。根据本专利技术一优选实施方式,所述搜索代价由目标代价和拼接代价确定,所述目标代价体现为从备选空间中选择的语音单元所构成的序列与待合成文本所对应声学参数序列之间的距离,所述拼接代价体现为从备选空间中选择的相邻两个语音单元的衔接平滑度。根据本专利技术一优选实施方式,所述目标代价通过选择的语音单元所构成序列的声学参数最大似然值确定,所述拼接代价通过所述相邻两个语音单元的声学参数之间的互相关关系确定;或者,所述目标代价通过选择的语音单元的声学参数轨迹与待合成文本的声学参数轨迹之间的距离确定,所述拼接代价通过所述相邻两个语音单元的声学参数之间的相对熵确定。本专利技术还提供了一种语音合成装置,该装置包括:预选单元,用于利用训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间;搜索单元,用于利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优;所述第一模型和所述第二模型中至少一个为神经网络模型。根据本专利技术一优选实施方式,训练单元,用于预先基于文本训练样本和语音训练样本训练第一模型和第二模型,分别得到文本特征到声学参数的映射。根据本专利技术一优选实施方式,所述训练单元,具体用于:对各文本训练样本进行文本分析,提取各文本训练样本的文本特征;以及,对各语音训练样本进行声学分析,得到各语音训练样本的声学参数;利用各文本训练样本的文本特征以及对应的声学参数,训练第一模型和第二模型,分别得到文本特征到声学参数的映射。根据本专利技术一优选实施方式,所述预选单元具体包括:文本分析子单元,用于对待合成文本进行文本分析,提取各基元的文本特征;参数确定子单元,用于利用所述第一模型确定提取的各基元的文本特征对应的声学参数;语音预选子单元,用于基于声学参数之间的相似度,分别针对所述各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间,所述N为预设的正整数。根据本专利技术一优选实施方式,所述文本特征包括分词、注音、韵律、声韵母边界中的至少一种;所述声学参数包括谱参数或基频参数中的至少一种。根据本专利技术一优选实施方式,所述预选单元还包括:候选挑选子单元,用于利用提取的所述各基元的文本特征从语音库中挑选各基元对应的候选语音单元;所述参数确定子单元,还用于利用所述第一模型分别确定候选语音单元的文本特征对应的声学参数;所述语音预选子单元在从语音库中挑选声候选语音单元时,具体从所述候选挑选子单元挑选出的候选语音单元中进一步挑选。根据本专利技术一优选实施方式,所述候选挑选子单元具体用于:确定各基元的文本特征与该基元在语音库中对应的语音单元的文本特征之间的相似度;基于相似度从语音库中挑选各基元对应的候选语音单元。根据本专利技术一优选实施方式,所述声学参数之间本文档来自技高网...

【技术保护点】
一种语音合成方法,其特征在于,该方法包括:利用预先训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间;利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优;所述第一模型和所述第二模型中至少一个为神经网络模型。

【技术特征摘要】
1.一种语音合成方法,其特征在于,该方法包括:
利用预先训练的第一模型,从语音库中针对待合成语音挑选候选语音单元
构成备选空间;
利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选
择的语音单元构成的序列的搜索代价最优;
所述第一模型和所述第二模型中至少一个为神经网络模型。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:预先基于文
本训练样本和语音训练样本训练第一模型和第二模型,分别得到文本特征到声
学参数的映射。
3.根据权利要求2所述的方法,其特征在于,所述预先基于文本训练样本
和语音训练样本训练第一模型和第二模型包括:
对各文本训练样本进行文本分析,提取各文本训练样本的文本特征;以及,
对各语音训练样本进行声学分析,得到各语音训练样本的声学参数;
利用各文本训练样本的文本特征以及对应的声学参数,训练第一模型和第
二模型,分别得到文本特征到声学参数的映射。
4.根据权利要求1所述的方法,其特征在于,利用预先训练的第一模型,
从语音库中针对待合成语音挑选候选语音单元构成备选空间包括:
对待合成文本进行文本分析,提取各基元的文本特征;
利用所述第一模型确定提取的各基元的文本特征对应的声学参数;
基于声学参数之间的相似度,分别针对所述各基元从语音库中挑选声学参
数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成
备选空间,所述N为预设的正整数。
5.根据权利要求2、3或4所述的方法,其特征在于,所述文本特征包括
分词、注音、韵律、声韵母边界中的至少一种;
所述声学参数包括谱参数或基频参数中的至少一种。
6.根据权利要求4所述的方法,其特征在于,在分别针对所述各基元从语
音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个
候选语音单元构成备选空间之前,还包括:
利用提取的所述各基元的文本特征从语音库中挑选各基元对应的候选语音
单元;
利用所述第一模型分别确定候选语音单元的文本特征对应的声学参数。
7.根据权利要求6所述的方法,其特征在于,所述利用提取的所述各基元
的文本特征从语音库中挑选各基元对应的候选语音单元包括:
确定各基元的文本特征与该基元在语音库中对应的语音单元的文本特征之
间的相似度;
基于相似度从语音库中挑选各基元对应的候选语音单元。
8.根据权利要求4所述的方法,其特征在于,所述声学参数之间的相似度
采用相对熵的方式体现。
9.根据权利要求1所述的方法,其特征在于,所述搜索代价由目标代价和
拼接代价确定,所述目标代价体现为从备选空间中选择的语音单元所构成的序
列与待合成文本所对应声学参数序列之间的距离,所述拼接代价体现为从备选
空间中选择的相邻两个语音单元的衔接平滑度。
10.根据权利要求9所述的方法,其特征在于,所述目标代价通过选择的
语音单元所构成序列的声学参数最大似然值确定,所述拼接代价通过所述相邻
两个语音单元的声学参数之间的互相关关系确定;或者,
所述目标代价通过选择的语音单元的声学参数轨迹与待合成文本的声学参
数轨迹之间的距离确定,所述拼接代价通过所述相邻两个语音单元的声学参数
之间的相对熵确定。
11.一种语音合成装置,其特征在...

【专利技术属性】
技术研发人员:盖于涛李秀林康永国
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1