用于双语连接语音合成的声单元制造技术

技术编号：3046349 阅读：205 留言：0更新日期：2012-04-11 18:40

一组声单元，其包含多个第三组声单元，其中，　　　　所述第三组声单元是从包含多个第一组声单元的第一组的声单元和包含对应于多个第一组声单元的多个第二组声单元的第二组的声单元中获得的，　　　　单个第三组声单元是通过改善单个第二组声单元的声特征成分，使其在数值上接近单个相应第一组声单元的谱成分而获得。（*该技术在2023年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及用于语音合成的声单元。本专利技术尤其用于(但并不局限于)双语连接语音合成，例如双语文语转换(TTS)连接语音合成。
技术介绍
语音合成是从非语音音频信号开始的语音音频信号的产物。文语转换(TTS)合成的形式最常用，其中文字流被转换为语音音频信号。这包括接收文本流，将其分析并转换为音标，接着产生对应于该音标的信号。产生这种信号的途径通常分两种(i)从语音信号的模型中产生，和(ii)连接预记录好的声音信号。后一种通常被称为连接语音合成。几乎所有的高质量的文语转换系统目前都以连接语音合成为基础。因为这种方法易于产生更自然输出的合成语音。这通过使用声单元的声音库存实现。声单元是声音数据单元，其对于将用到的特定语言，映射人类语音的所有的或者比较有用的完整范围。获得声单元的声音库存需要来自一个人话语的记录的音频信号。为产生高质量自然动听的语音输出，这些记录最好是从单一声源(人)并理想条件是从一个说母语且专业的讲话者提取。记录下这人花费几个小时朗读的一篇预定的文字。指定这篇文字是为了尽可能记录下多个音素序列的组合，特别是记录每个期望的组合的几次出现。被记录的朗读经语音分割工具处理来确定音素的起始和结束。由于文字是已知的，每个音素和音素的组合位置也是已知的，有可能从语音中将正确的记录找出来提供给期望的声单元，而不管其是否与单音、双音、三音或者其它音，甚至这些发音串或音节相一致。特定音素或音素组合有多个样本，选其中最好的。被选的声单元记录被压缩并存储在数据库。在一种有时被称为单元选择合成方法中，对于英语和大多数基于字母的语言，作为基本声音数据单元的语音单元...

【技术保护点】

【技术特征摘要】
1.一组声单元，其包含多个第三组声单元，其中，所述第三组声单元是从包含多个第一组声单元的第一组的声单元和包含对应于多个第一组声单元的多个第二组声单元的第二组的声单元中获得的，单个第三组声单元是通过改善单个第二组声单元的声特征成分，使其在数值上接近单个相应第一组声单元的谱成分而获得。2.根据权利要求1所述的一组声单元，其中所述改善的声特征成分包括一个或多个声特征成分，其来自包括谱成分和基音成分在内的组中。3.根据权利要求2所述的一组声单元，其中所述单个第二组声单元的声特征成分的改善包含改善所述第二组声单元的非话音子单元的谱成分。4.根据权利要求2所述的一组声单元，其中所述单个第二组声单元的声特征成分的改善包含改善所述第二组声单元的话音子单元的基音成分。5.根据权利要求4所述的一组声单元，其中所述单个第三组声单元是通过改善所述第二组声单元的话音子单元的谱成分而获得的。6.根据权利要求1所述的一组声单元，其中所述单个第三组声单元是通过改善所述单个第二组声单元的子单元的声特征成分而获得的。7.根据权利要求5所述的一组声单元，其中子单元包含多组的声特征成分，每组包含一个或多个单个声特征成分；和第二组声单元的子单元的声特征成分的改善包括确定第二组平均值，它是所述第二组声单元的子单元内的单个组的声特征成分的平均值；确定第一组平均值，它是对应于所述第二组声单元的所述第一组声单元的相应子单元内的单个组的声特征成分，第二组子单元内对应于的声特征成分组的第一组子单元内的声特征成分组以及对应于单个第二组平均值的单个第一组平均值的平均值；确定多个比例，多个比例中的单个比例包含第一组平均值与它相应的第二组平均值的比；和用比例去乘所述第二组声单元的子单元的声特征成分，单个声特征成分去乘的比例是对应于包含声特征成分组的比例。8.根据权利要求7所述的一组声单元，其中所述子单元包括一个或多个声特征成分帧并且声特征成分组包含所述一个或多个帧内的相应帧的元素。9.根据权利要求1所述的一组声单元，其中在所述第一和第二组的声单元内的所述声单元是从不同人获得的。10.根据权利要求1所述的一组声单元，其中在所述第一和第二组的声单元内的所述声单元是从同一种语言获得。11.根据权利要求1所述的一组声单元，其中所述单个第...

【专利技术属性】
技术研发人员：俞振利，黄建成，岳东剑，
申请(专利权)人：摩托罗拉公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人