用于合成语音的方法、设备以及用于语音合成的声学模型训练方法技术

技术编号:7718886 阅读:240 留言:0更新日期:2012-08-30 03:17
本发明专利技术涉及一种用于合成语音的方法、设备以及用于训练在语音合成中使用的声学模型的方法。所述用于合成语音的方法可以包括:确定文本分析生成的数据为模糊多音字数据;对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率;基于所述多个候选发音及其概率,生成模糊上下文特征标注;基于具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型参数;对所述模型参数生成语音参数;以及将所述语音参数合成为语音。根据本发明专利技术的实施例的方法和设备,可以对中文中难以预测的多音字进行模糊化处理,从而改善中文多音字合成的质量。

【技术实现步骤摘要】

本专利技术涉及语音合成,更具体地,涉及中文多音字的合成。
技术介绍
由人工通过一定的机器设备产生出语音称为语音合成。语音合成是人机语音通信 的ー个重要组成部分。利用语音合成技术可以让机器象人那样说话,使ー些以其它方式表示或存储的信息能转换为语音,从而人们可以通过听觉方便地获得这些信息。目前展开大量研究和应用的是文语转换TTS系统,在该系统中通常输入待合成的文本,系统包含的文本分析器对之进行处理,输出发音描述符号,其包括音段层面的注音符号与超音段层面的韵律符号。该文本分析器首先根据发音字典,将待合成文本分解为带有属性标注的词及其读音符号,再根据语义规则和语音规则,为每ー个词、每ー个音节确定语句结构及语调,以及停顿词性距离等目标语音的语言学以及韵律特征。之后将发音描述符号输入到该系统包含的合成器,通过语音合成,输出合成的语音。在现有技术中,基于隐马尔科夫HMM声学模型已经广泛应用于语音合成技术,可以容易地修改和变换合成的声音。语音合成通常分为模型训练和合成部分。在模型训练阶段,对语音库中各语音单元包含的声学參数以及对应的音段、韵律等标注属性,进行统计模型的训练。这些标注来源于语言和声学知识,其组成的上下文特征(context feature)描述了对应的语音属性(例如声调、词性等)。在HMM声学模型的训练阶段,对模型參数的估计来自对这些语音单元參数的统计计算。在现有技术中,考虑到如此多、具有大量变化的上下文组合,一般采用决策树的树聚类方法来处理。决策树可以将上下文特征和声学特征相似的候选基元聚成ー类,从而有效地避免了数据稀疏,并有效地減少了模型的数量。问题集是供决策树构造使用的问题的集合,结点分裂时所选中的问题与此结点绑定,从而决定哪些基元进入同一个叶子结点。聚类的过程參考预先定义的问题集,决策树的每个结点都绑定ー个“Yes/No”问题,所有允许进入根节点的候选基元都要回答结点上绑定的问题,根据回答结果选择进入左分支还是右分支。因此,每个将具有相同或者接近上下文特征的音节或音素处在决策树的同一个叶子结点中,节点对应的模型通常可以是HMM模型或状态,模型由參数描述。同时,聚类也是ー个学习处理在合成中遇到新情况的过程,从而可以实现最优的匹配。通过对训练数据的训练以及聚类得到隐马尔科夫(HMM)模型以及对应模型的决策树。在合成阶段,通过文本分析器和上下文标注生成器得到多音字的上下文特征标注。针对该上下文特征标注在训练好的决策树上找到相应的声学模型參数(例如HMM声学模型的状态序列)。然后该模型參数经过參数生成算法得到相应的语音參数,从而通过合成器(Vocoder)合成语音。语音合成系统的目标就是能够合成跟人声一祥智能和自然的声音。但是对于中文语音合成系统,多音字的读音预测准确率很难保证,因为多音字的发音往往根据语义确定,而语义理解又是ー个具有挑战性的课题。这样相互依赖的关系导致多音字预测的难以取得令人满意的高准确性。在现有技术中,即使对这个读音的预测没有足够把握,语音合成系统一般都会对该多音字给出ー个确定的发音。在中文中,不同的读音代表了不同的意义。如果语音合成系统给出错误的发音,将会引起听者理解上的歧义,给听者很不好的感受。从而对于在生活、工作以及科学研究(例如车载导航、自动声讯服务、广播、机器人模拟等)中应用的语音合成系统,将会由于明显错误的多音字读音而造成不好的用户体验,甚至使用的不便。因此,在语音合成领域中存在对改进的多音字的语音合成方法以及系统的需要。
技术实现思路
为此,提供了本专利技术的实施例的用于语音合成的方法及其系统以及训练用于语音 合成的声学模型的方法。通过实施本专利技术的实施例,可以具有以下优点可以在系统没有足够把握给出正确读音的情况下,模糊化多音字的读音,并且不影响整个系统其他正常声音的质量,此方法将会避免明显的错误,从而提高合成系统的整体主观听感。根据本专利技术的ー个方面,提供了ー种用于语音合成的方法,可以包括确定文本分析生成的数据为模糊多音字数据;对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率;基于所述多个候选发音及其概率,生成模糊上下文特征标注;基于确定的具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型參数;对所述模型參数生成语音參数;以及将所述语音參数合成为语音。优选的,生成模糊上下文特征标注的步骤可以进一歩包括基于所述概率确定所述模糊多音字数据的候选发音的上下文标注落入分类的程度;以及通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。根据本专利技术的另外的方面,提供一种用于合成语音的设备,可以包括多音字预测単元,用于预测模糊多音字数据的发音,以输出所述模糊多音字数据的多个候选发音以及预测概率;模糊上下文特征标注生成単元,用于基于所述多个候选发音及其概率,生成模糊上下文特征标注;确定单元,用于基于确定的具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型參数;參数生成器,用于针对所述模型參数生成语音參数;以及合成器,用于将所述语音參数合成为语音。优选的,所述模糊上下文特征标注生成単元可以进一歩被配置为基于所述概率确定所述模糊多音字数据的候选发音的上下文标注落入分类的程度;以及通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。根据本专利技术的另外的方面,提供一种用于合成语音的系统,可以包括用于确定文本分析生成的数据为模糊多音字数据的装置;用于对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率的装置;用于基于所述多个候选发音及其概率,生成模糊上下文特征标注的装置;用于基于具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型參数的装置;用于对所述模型參数生成语音參数的装置;以及用于将所述语音參数合成为语音的装置。根据本专利技术的另外的方面,提供一种用于训练声学模型的方法,可以包括训练语音库中各语音单元,以生成声学模型,所述语音单元包含声学参数以及上下文标注;对于上下文组合,进行决策树聚类处理以生成具有决策树的声学模型;基于所述具有决策树的声学模型,确定语音库中的模糊数据;针对所述模糊数据,生成模糊上下文特征标注;以及基于所述模糊上下文特征标注,对所述语音库进行聚类训练,以生成具有模糊决策树的声学模型。优选的,确定模糊数据的步骤可以进一步包括评估语音单元;以及确定所述语音单元的候选上下文标注落入分类的程度;以及如果所述程度满足预定阈值,则确定所述语音单元为模糊数据。 优选的,评估语音单元的步骤可以进一步包括通过模型后验概率或模型生成参数与语音单元参数之间的距离来评估所述语音单元的候选发音的上下文特征标注的分值。优选的,生成模糊上下文特征标注的步骤可以进一步包括通过评估所述语音单元来确定所述语音单元发音的对应候选上下文特征标注的分值;基于所述分值确定所述语音单元的候选上下文标注落入分类的程度;以及通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。优选的,所述基于所述模糊上下文特征标注,进行聚类训练的步骤可以进一步包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.ー种用于语音合成的方法,包括 确定文本分析生成的数据为模糊多音字数据; 对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率; 基于所述多个候选发音及其概率,生成模糊上下文特征标注; 基于具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型參数; 对所述模型參数生成语音參数;以及 将所述语音參数合成为语音。2.如权利要求I所述的方法,其中生成模糊上下文特征标注的步骤进ー步包括 基于所述概率确定所述模糊多音字数据的候选发音的上下文标注落入分类的程度;以及 通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。3.一种用于合成语音的设备,包括 多音字预测单元,用于模糊预测模糊多音字数据的发音,以输出所述模糊多音字数据的多个候选发音以及预测概率; 模糊上下文特征标注生成単元,用于基于所述多个候选发音及其概率,生成模糊上下文特征标注; 确定单元,用于基于具有模糊决策树的声学模型,针对所述模糊上下文特征标注确定模型參数; 參数生成器,用于针对所述模型參数生成语音參数;以及 合成器,用于将所述语音參数合成语音。4.如权利要求3所述的设备,其中所述模糊上下文特征标注生成単元进ー步被配置为 基于所述概率确定所述模糊多音字数据的候选发音的上下文标注落入分类的程度;以及 通过量化转换所述程度以生成所述模糊上下文特征标注,其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。5.一种用于合成语音的系统,包括 用于确定文本分析生成的数据为模糊多音字数据的装置; 用于对所述模糊多音字数据进行模糊多音字预测,以输出所述模糊多音字数据的多个候选发音及其概率的装置; 用于基于所述多个候选发音及其概率,生成模糊上下文特征标注的装置; 用于基于具有模糊决策树的声学...

【专利技术属性】
技术研发人员:汪曦楼晓雁李健
申请(专利权)人:株式会社东芝
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利