一组声单元,其包含多个第三组声单元,其中, 所述第三组声单元是从包含多个第一组声单元的第一组的声单元和包含对应于多个第一组声单元的多个第二组声单元的第二组的声单元中获得的, 单个第三组声单元是通过改善单个第二组声单元的声特征成分,使其在数值上接近单个相应第一组声单元的谱成分而获得。(*该技术在2023年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及用于语音合成的声单元。本专利技术尤其用于(但并不局限于)双语连接语音合成,例如双语文语转换(TTS)连接语音合成。
技术介绍
语音合成是从非语音音频信号开始的语音音频信号的产物。文语转换(TTS)合成的形式最常用,其中文字流被转换为语音音频信号。这包括接收文本流,将其分析并转换为音标,接着产生对应于该音标的信号。产生这种信号的途径通常分两种(i)从语音信号的模型中产生,和(ii)连接预记录好的声音信号。后一种通常被称为连接语音合成。几乎所有的高质量的文语转换系统目前都以连接语音合成为基础。因为这种方法易于产生更自然输出的合成语音。这通过使用声单元的声音库存实现。声单元是声音数据单元,其对于将用到的特定语言,映射人类语音的所有的或者比较有用的完整范围。获得声单元的声音库存需要来自一个人话语的记录的音频信号。为产生高质量自然动听的语音输出,这些记录最好是从单一声源(人)并理想条件是从一个说母语且专业的讲话者提取。记录下这人花费几个小时朗读的一篇预定的文字。指定这篇文字是为了尽可能记录下多个音素序列的组合,特别是记录每个期望的组合的几次出现。被记录的朗读经语音分割工具处理来确定音素的起始和结束。由于文字是已知的,每个音素和音素的组合位置也是已知的,有可能从语音中将正确的记录找出来提供给期望的声单元,而不管其是否与单音、双音、三音或者其它音,甚至这些发音串或音节相一致。特定音素或音素组合有多个样本,选其中最好的。被选的声单元记录被压缩并存储在数据库。在一种有时被称为单元选择合成方法中,对于英语和大多数基于字母的语言,作为基本声音数据单元的语音单元是音素,而对于汉语方言以及其它的基于字符的语言,语音单元通常是音节。在作为单元选择合成的子集的双音合成中,语音单元是双音素,它是一个音素的后半部分,其后跟随着下一音素的前半部分。在TTS连接语音合成中,文本被输入到语言处理器中,进行归一化,句法解析,映射到一个适当的语音单元的串中,指定如持续时间及语调模式的韵律格式。语音单元接着被送到声音选择器,它从声音库存中选择合适的声音单元,以匹配语音和输入文本的韵律输入。这些被选择的声音单元被连接并作为合成语音信号被输出。在单元选择合成中,声单元选择通常基于两个代价函数,(i)在库存中的声音单元(孤立的)和输入文本的语音及韵律内容的语音单元之间的目标代价(即,它们的相似度);和(ii)定义在一对声单元之间的连接代价(即,单元连接起来的平滑度)。选择的声单元序列是给出的语音及韵律输入中使目标和连接代价总和最小的一个。双语TTS正逐渐变得非常有用,特别是英语单词可被采纳而进入到外语中,比如英语技术和软件有关的单词被直接使用,不再试图翻译成普通话。典型的双语TTS方案简单地在两个独立的TTS引擎中交替,适合两种不同的语言。每种引擎选择声单元来与它匹配语音和韵律输入,这是其适合的语言文本。采用这种方法的系统如附图说明图1所示的框图。将双语输入文本Ti输入到语音合成装置10。语言处理器和分离器12将该文本流处理为语音单元并将其分为两个数据流,基本语言语音单元流Rp和辅助语言语音单元流Rs。将基本语言语音单元流Rp输入到基本语言声单元选择器14,将辅助语言语音单元流Rs输入到辅助语言声单元选择器16。存储器20包括两个声单元库存基本语言声单元库存22,其保存基本语言声单元的库存,以及辅助语言声单元库存24,其保存辅助语言声单元的库存。基本语言声单元从第一讲话者记录,而辅助语言声单元从第二讲话者记录。响应基本语言语音单元流Rp,基本语言声单元选择器14从基本语言声单元库存22中选择合适的基本语言声单元AUp。响应辅助语言语音单元流Rs,辅助语言声单元选择器16从辅助语言声单元库存24中选择合适的辅助语言声单元AUs。选择的基本语言声单元AUp被基本语言连接器32连接为基本语言信号流Sp,选择的辅助语言声单元AUs被辅助语言连接器34连接为辅助语言信号流Ss。基本和辅助语言信号流Sp和Ss被加法器36合并,同时相应的两个语言信号流部分的文本出现在原始双语输入文本Ti中。这产生了所期望的双语合成输出声音信号Si,该信号Si是对应于输入文本的语音信号。对于这种方法,双语输出声音信号Si包含来自两个不同库存的两个声音。理想的双语方案是同一个人提供两种语言的声库存。然而,很难识别一个能以母语和专业的方式讲两种语言的讲话者。因此,如果用同一人,第二语言听起来像听错了或夹杂着第一语言的声音,听起来有些怪,产生令人不愉快的听觉效果。可选择地,选用不同讲话者,合成语音内的单独的句子听起来好像是几句话。因此尽管采用先进的技术,对于用户来说,其效果听起来退步了并有些怪异。
技术实现思路
在说明书,包括权利要求书中,术语‘包括(comprises、comprising)’或类似的术语意旨非排他性的包括,如一种包括一系列组件的方法或装置,不只包括这些组件,还可包括其它未列出的组件。根据本专利技术的一方面,提供包含多个第三组声单元的一组声单元。第三组声单元是从包含多个第一组声单元的第一组的声单元和包括对应于多个第一组声单元的多个第二组声单元的第二组的声单元中获得的。单个第三组声单元是通过改善单个第二组声单元声特征成分,使其在数值上接近单个相应第一组声单元的声特征成分而获得的。根据本专利技术的另一方面,提供存储根据本专利技术第一方面的一组声单元的存储设备。根据本专利技术的又一方面,提供用于声单元的语音合成的移动电子设备。该设备包括声单元的第一和第二库存,第一和第二声单元选择器和连接器。声单元的第一库存存储一组第四组声单元。声单元的第二库存存储一组第三组声单元。第一选择器从声单元的第一库存选择一个或多个第四组声单元。第二选择器从声单元的第二库存选择一个或多个第三组声单元。连接器连接所选的一个或多个第一组声单元与所选的一个或多个第二组声单元。而且,第三组声单元是从多个第一组声单元和对应于多个第一组声单元的多个第二组声单元获得的,单个第三组声单元是通过改善单个第二组声单元的声特征成分,使其在数值上接近单个相应第一组声单元的声特征成分而获得的。比如,该设备可包括电话。根据本专利技术的又一方面,提供用于语音合成的声单元的方法。该方法包括提供包含多个第一组声单元的第一组的声单元;提供包含对应于多个第一组声单元的多个第二组声单元的第二组的声单元;和改善第二组声单元。改善第二组声单元的声特征成分,使其在数值上接近单个相应第一组声单元的声特征成分,由此提供第三组声单元。根据本专利技术的又一方面,提供一语音转换器,用来改善包含多个第二组声单元的一组声单元。该语音转换器包括提供包含第一和第二输入和一个改善器。第一输入接收第一组声单元。第二输入接收对应于接收到的第一组声单元的第二组声单元。对于第二组声单元的声特征成分,改善器利用它们相应的第一组声单元的相应的声特征成分来使它们改善,由此单个第二组声单元听起来更像由一个能发出相应第一组声单元的讲话者所说的一样。典型地,所用的声特征成分是谱成分和/或基音成分。附图简要说明为了容易理解本专利技术并将其付诸实际效果,现在将结合附图参考引用所示的优选、非限制性实施例。图1是现有技术的双语连接TTS语音合成系统的方框图;图2说明根据本专利技术实施例的用于改善声单元的系统本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一组声单元,其包含多个第三组声单元,其中,所述第三组声单元是从包含多个第一组声单元的第一组的声单元和包含对应于多个第一组声单元的多个第二组声单元的第二组的声单元中获得的,单个第三组声单元是通过改善单个第二组声单元的声特征成分,使其在数值上接近单个相应第一组声单元的谱成分而获得。2.根据权利要求1所述的一组声单元,其中所述改善的声特征成分包括一个或多个声特征成分,其来自包括谱成分和基音成分在内的组中。3.根据权利要求2所述的一组声单元,其中所述单个第二组声单元的声特征成分的改善包含改善所述第二组声单元的非话音子单元的谱成分。4.根据权利要求2所述的一组声单元,其中所述单个第二组声单元的声特征成分的改善包含改善所述第二组声单元的话音子单元的基音成分。5.根据权利要求4所述的一组声单元,其中所述单个第三组声单元是通过改善所述第二组声单元的话音子单元的谱成分而获得的。6.根据权利要求1所述的一组声单元,其中所述单个第三组声单元是通过改善所述单个第二组声单元的子单元的声特征成分而获得的。7.根据权利要求5所述的一组声单元,其中子单元包含多组的声特征成分,每组包含一个或多个单个声特征成分;和第二组声单元的子单元的声特征成分的改善包括确定第二组平均值,它是所述第二组声单元的子单元内的单个组的声特征成分的平均值;确定第一组平均值,它是对应于所述第二组声单元的所述第一组声单元的相应子单元内的单个组的声特征成分,第二组子单元内对应于的声特征成分组的第一组子单元内的声特征成分组以及对应于单个第二组平均值的单个第一组平均值的平均值;确定多个比例,多个比例中的单个比例包含第一组平均值与它相应的第二组平均值的比;和用比例去乘所述第二组声单元的子单元的声特征成分,单个声特征成分去乘的比例是对应于包含声特征成分组的比例。8.根据权利要求7所述的一组声单元,其中所述子单元包括一个或多个声特征成分帧并且声特征成分组包含所述一个或多个帧内的相应帧的元素。9.根据权利要求1所述的一组声单元,其中在所述第一和第二组的声单元内的所述声单元是从不同人获得的。10.根据权利要求1所述的一组声单元,其中在所述第一和第二组的声单元内的所述声单元是从同一种语言获得。11.根据权利要求1所述的一组声单元,其中所述单个第...
【专利技术属性】
技术研发人员:俞振利,黄建成,岳东剑,
申请(专利权)人:摩托罗拉公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。