使用语音波形并接的合成语音信号的方法和系统技术方案

技术编号:3046170 阅读:231 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种合成语音信号的方法,所述语音信号具有至少第一语音单元和第二语音单元,该方法包括步骤:提供第一语音单元信号,所述第一语音单元信号具有末端间隔;提供第二语音单元信号,所述第二语音单元信号具有前端间隔;将末端间隔的周期的至少一些按逆序附加在第一语音单元信号的末尾,以提供信号渐弱间隔;将前端间隔的周期的至少一些按逆序附加在第二语音单元信号的开头以提供信号渐强间隔;将末端和信号渐强间隔以及信号渐弱和前端间隔叠加。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及合成语音或音乐的领域,更具体而不加限制地涉及文本到语音合成(text-to-speech synthesis)的领域。文本到语音(text-to-speech)(TTS)合成系统的功能是用给定的语言从通用文本合成语音。当今,TTS系统已经被用在许多应用的实际操作中,比如通过电话网络接入数据库或帮助残障人士。一种合成语音的方法是通过并接(concatenation)语音子单元的记录集合的元素,比如半音节或多音码。大多数成功的商业系统使用了多音码的并接。多音码包括两个(双音子)、三个(三音子)或多个音子,并可从无意义的词通过将期望的编组的音子在稳定的频谱区域上分段而确定。在基于并接的合成中,两个邻接音子之间过渡的对话对于保证合成的语音质量至关重要。将多音码选择为基本子单元,两个邻接音子之间过渡被保留在记录的子单元中,并且在类似音子之间执行并接。但是在合成前,须修改音子的音长和音调以满足包含这些音子的新的词的节律约束(prosodic constraint)。该处理需要避免产生单调音响合成语音。在TSS系统中,该功能由节律模块来执行。为了允许在记录的子单元中的音长和音调的修改,许多基于并接的TTS系统利用时域音调同步叠加(TD-PSOLA)(E.Moulines and F.Charpentier,“Pitch synchronous waveform processingtechniques for text-to-speech synthesis using diphones,”Speech Commum.,vol.9,pp.453-467,1990)合成模型。在TD-PSOLA模型中,语音信号首先被提交给音调标记算法。该算法在有声的分段中的信号的峰值处分配标记并在无声的分段中相隔10ms分配标记。该合成是由位于音调标记中心上并从前一个音调标记伸展到另一个音调标记的Hanning窗口分段的叠加来完成。音长修改是通过删除或复制窗口分段中的一些来被提供。在另一方面,音调周期修改是通过增加或减少窗口分段之间的叠加而被提供。尽管在许多商业TTS系统中获得成功,使用合成的TD-PSOLA模型产生的合成语音存在一些缺陷,主要对于大的节律变化存在一些缺陷。该PSOLA方法的例子在文件EP-0363233,US专利No.5,479,564,EP-0706170中定义。一个具体的例子也是MBR-POLA方法,如由T.Dutoit and H.Leich在Speech Communication,Elsevier Publisher,November 1993,vol.13,N.degree,3-4,1993中出版的。在文档US专利No.5,479,564中描述的方法提出了通过叠加从该信号中提取的短期信号修改频率的方法。用作获取短期信号的加权窗口的长度近似等于音频信号的周期的两倍并且它们在周期中的位置可被设置为任何值(只要在连续窗口之间的时间偏移等于音频信号的周期)。US专利No.5,479,564还描述了在分段之间内插波形用以并接,以便平滑不连续性。在现有技术的文本到语音系统中,预先录制的语音片断的集合可以以指定的顺序被并接,用以将特定的文本转换成自然发声语音。使用较小语音片断的文本到语音系统具有许多这样的并接点。特别地,当语音片断在频谱上不同时,这些结合点产生降低可懂度的伪像。特别地,当来自不同记录时间的两个语音分段将被并接时,所得的语音可在两个分段的结合点上不连续。例如,当合成元音时,左边的部分几乎都来自不同于右边部分的记录。这使得其不可能重现元音的精确音色。共振峰轨道之间的轻微的差异产生在连接位置处的突然跳跃。在现有技术中通常为减少这个影响所做的是重新记录语音片断直到它与所剩片断匹配或添加不同的版本(额外的片断)以最小化该差异。因此,本专利技术的目标是提供改进的合成语音信号的方法,所述语音信号具有至少第一双音子和第二双音子。本专利技术进一步的目标是提供对应的计算程序产品和计算机系统,特别是文本到语音系统。本专利技术提供基于在它们的连接点上叠加的第一和第二双音子信号合成语音信号的方法。本专利技术使能双音子信号的平滑并接而没有任何可听见的伪像。这是通过将第一双音子信号的末端间隔(endinterval)的周期以逆序附加在第一双音子信号的末尾(end)和通过将第二双音子信号的前端间隔(front interval)的周期附加在第二双音子信号的开始而实现的。重叠末端和前端间隔以产生平滑过渡。根据本专利技术的的实施例,第一和第二双音子信号的末端和前端间隔由一个标记器识别。优选地,末端和前端间隔包含几乎稳定的周期,即具有近似相同信息内容和信号形式的周期。该末端和前端间隔可由人类专家或由对应计算机程序识别。优选地,如果由人类专家对增加的精确度进行复核,通过计算机程序和所得结果执行第一次分析。根据本专利技术进一步的实施例,不附加末端间隔的最后周期和前端间隔的首个周期。这具有优点通过两个同样周期的紧接重复而在信号中没有引入周期性。根据本专利技术进一步的实施例,分别通过信号渐弱(fade-out)和信号渐强(fade-in)窗口的方式对末端和前端间隔以及对相应附加的周期执行窗口化操作。优选地,升余弦窗口函数被用于有声末端间隔和附加的周期,而用作信号渐弱窗口的正弦窗口被用于无声的末端间隔和附加的周期。同样,升余弦被用作用于光滑第二双音子的有声分段的开始或无声分段的正弦窗口的窗口函数。根据本专利技术的一个实施例,对于用作重叠的间隔执行音长适配。特别地,如果间隔具有不同的音长,这对于避免引入突然的信号过渡是有益的。根据本专利技术进一步的实施例,通过根据本专利技术的原理并接双音子来执行文本到语音的处理。通过这种方式可产生自然发音语音输出。本专利技术不限制于双音子的并接,而且还能被有利地应用于其他诸如三音子、多音码或词的其他语音单元的并接,注意到这一点是重要的。参考下列附图更详细的描述本专利技术的实施例,其中附图说明图1描述本专利技术的一个方法的优选实施例的流程图,图2描述在原始双音子信号的前端和后端处交替重复的周期。图3描述信号合成的例子,和图4描述文本到语音系统的实施例的框图。图1显示说明本专利技术的一个方法的优选实施例的流程图。在步骤100中,提供第一双音子信号A。该双音子信号A具有至少一个识别双音子信号A的末端间隔的标记器。在步骤102中,在双音子信号A的末端间隔内按逆序重复周期,以便提供附加在末端间隔的末尾(end)的信号渐弱间隔。在步骤104中,末端间隔以及其所附的信号渐弱间隔通过信号渐弱窗口函数被窗口化,以便在双音子信号的末端光滑地信号渐弱该双音子信号。同样,在步骤106提供双音子信号B。该双音子信号B具有至少一个关联的标记器,以识别双音子信号B的首个分段。在步骤108,至少一些前端间隔周期以逆序被附加在双音子信号B的前端间隔的开头。通过这种方式,提供了信号渐强间隔。在步骤110,前端间隔和所附的信号渐强间隔通过信号渐强窗口的方式被窗口化。通过这种方式,提供了双音子信号B的平滑的开头。在步骤112,执行音长适配。这意味着双音子信号A和B的末端和前端间隔的音长被修改,使得末端和信号渐强间隔具有相同的音长。同样,对信号渐弱和前端间隔的音长进行适配。在步骤1本文档来自技高网...

【技术保护点】
一种合成语音信号的方法,所述语音信号具有至少第一语音单元和第二语音单元,该方法包括步骤:-提供第一语音单元信号,所述第一语音单元信号具有末端间隔,-提供第二语音单元信号,所述第二语音单元信号具有前端间隔,-将末端间隔 的周期的至少一些按逆序附加在第一语音单元信号的末尾,以提供信号渐弱间隔,-将前端间隔的周期的至少一些按逆序附加在第二语音单元信号的开头,以提供信号渐强间隔,-将末端和信号渐强间隔以及信号渐弱和前端间隔叠加。

【技术特征摘要】
EP 2002-9-17 02078872.51.一种合成语音信号的方法,所述语音信号具有至少第一语音单元和第二语音单元,该方法包括步骤-提供第一语音单元信号,所述第一语音单元信号具有末端间隔,-提供第二语音单元信号,所述第二语音单元信号具有前端间隔,-将末端间隔的周期的至少一些按逆序附加在第一语音单元信号的末尾,以提供信号渐弱间隔,-将前端间隔的周期的至少一些按逆序附加在第二语音单元信号的开头,以提供信号渐强间隔,-将末端和信号渐强间隔以及信号渐弱和前端间隔叠加。2.权利要求1的方法,其中末端和前端间隔具有几乎稳定的周期。3.权利要求1或2的方法,末端和前端间隔由标记器标记。4.权利要求1或2或3的方法,其中不附加末端间隔的最后周期和前端间隔的首个周期。5.权利要求1到4的任何一个的方法,进一步包括用信号渐弱窗口窗口化末端和/或信号渐弱间隔。6.权利要求5的方法,其中升余弦函数被用作信号渐弱窗口。7.权利要求6的方法,其中下列窗口函数被用作有声间隔w[n]=0.5-0.5cos(π·(n+0.5)m),0≤n<m]]>其中,m是平滑范围中的周期的总数。8.权利要求5的方法,其中正弦函数被用作无声间隔的信号渐弱窗口。9.权利要求8的方法,其中使用下列窗口函数w[n]=sin(0.5·π·(n+0.5)m)...

【专利技术属性】
技术研发人员:EF吉吉
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1