用于流式文本的文本到语音合成的方法和系统技术方案

技术编号:37359851 阅读:9 留言:0更新日期:2023-04-27 07:08
公开了一种用于流式文本的语音合成的方法和系统。在文本到语音(TTS)系统中,可以接收具有起点和终点的实时流式文本串,并且可以累积包括从初始点到第一触发点接收的文本串的第一部分的第一子串。初始点不早于起点并且在第一触发点之前,并且第一触发点不超过终点。TTS系统的标点模型可被应用于第一子串以生成预处理的第一子串,该预处理的第一子串包括添加了由标点模型确定的语法标点的第一子串。TTS合成处理可以至少应用于预处理的第一子串,以生成第一合成语音,并且产生第一合成语音的音频播放。音的音频播放。

【技术实现步骤摘要】
【国外来华专利技术】用于流式文本的文本到语音合成的方法和系统


[0001]除非本文另有说明,否则此部分中描述的材料不是本申请中权利要求的现有技术,并且不因为包含在此部分中而被承认为是现有技术。
[0002]自动语音识别(ASR)技术的目标是将特定的话语或语音样本映射到该话语的准确文本表示或其他符号表示。例如,对话语“我的狗有跳蚤”执行的ASR将理想地映射到文本串“我的狗有跳蚤”,而不是无意义的文本串“我的狗有冰冻”,或者合理但不准确的文本串“我的沼泽有树”。
[0003]语音合成技术的目标是将书面语言转换为能够以音频格式输出的语音,例如直接地用于音频输出或者存储为适合于音频输出的音频文件。这种语音合成可以由文本到语音(TTS)系统来执行。书面语言可以采取文本或符号语言表示的形式。语音可以由语音合成器生成为波形,该语音合成器产生人工的人类语音。听起来自然的人类语音也可以是语音合成系统的目标。

技术介绍

[0004]包括计算机、网络服务器、电话和个人数字助理(PDA)的各种技术可以被用来实现ASR系统和/或语音合成系统,或者这样的系统的一个或多个组件。通信网络可以转而在这样的设备中的一些或所有之间提供通信路径和链路,支持语音合成系统能力和可以利用ASR和/或语音合成系统能力的服务。

技术实现思路

[0005]在一个方面,本文呈现的示例实施例提供了一种方法,包括:在文本到语音(TTS)系统处,接收具有起点和终点的实时流式文本串;在TTS系统处,累积包括从初始点到第一触发点接收的文本串的第一部分的第一子串,其中,初始点不早于起点且在第一触发点之前,并且第一触发点不超过终点;在TTS系统处,将TTS系统的标点模型应用于第一子串以生成预处理的第一子串,该预处理的第一子串包括添加如了由标点模型确定的语法标点的第一子串;在TTS系统处,至少对预处理的第一子串应用TTS合成处理,以生成第一合成语音;以及产生第一合成语音的音频播放。
[0006]在另一方面,本文呈现的示例实施例提供了一种包括在装置上实现的文本到语音(TTS)系统的系统,包括:一个或多个处理器;存储器;以及在存储器中所存储的机器可读指令,该指令在由一个或多个处理器执行时使得TTS系统执行操作,包括:接收具有起点和终点的实时流式文本串;累积包括从初始点到第一触发点接收的文本串的第一部分的第一子串,其中,初始点不早于起点且在第一触发点之前,并且第一触发点不超过终点;将TTS系统的标点模型应用于第一子串以生成预处理的第一子串,该预处理的第一子串包括添加了如由标点模型确定的语法标点的第一子串;至少对预处理的第一子串应用TTS合成处理,以生成第一合成语音;以及产生第一合成语音的音频播放。
[0007]在又一方面,本文呈现的示例实施例提供了一种包括计算机可读存储介质的制
品,该计算机可读存储介质上存储有程序指令,该程序指令当由包括文本到语音(TTS)系统的系统的一个或多个处理器执行时,该程序指令使得该系统执行操作,包括:接收具有起点和终点的实时流式文本串;累积包括从初始点到第一触发点接收的文本串的第一部分的第一子串,其中,初始点不早于起点且在第一触发点之前,并且第一触发点不超过终点;将TTS系统的标点模型应用于第一子串以生成预处理的第一子串,该预处理的第一子串包括添加了如由标点模型确定的语法标点的第一子串;至少对预处理的第一子串应用TTS合成处理,以生成第一合成语音;以及产生第一合成语音的音频播放。
[0008]通过适当参考附图来阅读以下详细描述,这些以及其他方面、优点和替代方案对于本领域普通技术人员来说将变得明显。此外,应当理解,本文提供的此概述和其他描述以及附图旨在仅通过示例的方式来说明实施例,并且同样地,许多变化是可能的。例如,结构元素和过程步骤可以被重新排列、组合、分布、消除或以其他方式改变,而同时保持在所要求保护的实施例的范围内。
附图说明
[0009]图1描绘了根据示例实施例的示例文本到语音系统的简化框图。
[0010]图2是根据示例实施例的示例网络和计算架构的框图。
[0011]图3A是根据示例实施例的服务器设备的框图。
[0012]图3B描绘了根据示例实施例的基于云的服务器系统。
[0013]图4描绘了根据示例实施例的客户端设备的框图。
[0014]图5描绘了根据示例实施例的文本到语音合成的示例操作。
[0015]图6示出了根据示例实施例的包括标点模型的示例文本到语音系统的简化框图。
[0016]图7A描绘了根据示例实施例的使用标点模型的文本到语音合成期间串累积的示例定时图。
[0017]图7B描绘了根据示例实施例的使用标点模型的文本到语音合成的第一示例处理流程。
[0018]图7C描绘了根据示例实施例的使用标点模型的文本到语音合成的第二示例处理流程。
[0019]图7D描绘了根据示例实施例的使用标点模型的文本到语音合成的第三示例处理流程。
[0020]图8描绘了根据示例实施例的包括标点模型的文本到语音合成的示例操作。
[0021]图9是示出根据示例实施例的示例方法的流程图。
具体实施方式
[0022]1.概述
[0023]语音合成系统可以是基于处理器的系统,其被配置为将书面语言转换为人工产生的语音或口头语音。书面语言可以是书面文本,诸如一个或多个书面句子或文本串。书面语言也可以采取其他符号表示的形式,诸如语音合成标记语言,其可以包括指示说话者情绪、说话者性别、说话者身份以及说话风格的信息。书面文本的来源可以从诸如便携式计算设备(例如,PDA、智能电话等)的计算设备的键盘或小键盘输入,或者可以来自在一种或另一
种形式的计算机可读存储介质上所存储的文件,或者来自经由网络访问的远程资源(诸如网页)。人工产生的语音可以作为来自信号生成设备或模块(例如,语音合成器设备)的波形而生成,并且由音频播放设备输出和/或格式化并且记录为有形记录介质上的音频文件。合成语音经由到音频设备的网络连接播放,诸如老实电话或智能电话。这种系统也可以称为“文本到语音”(TTS)系统,尽管书面形式不一定仅限于文本。
[0024]语音合成系统可以通过接收输入文本(或其他形式的书面语言)并且将该书面文本翻译成与该文本的口头呈现听起来或应该听起来如何的符号表示相对应的“语音学转写”来进行操作。语音学转写然后可以被映射到语音特征,该语音特征参数化语音学转写的声学渲染,并且其然后用作对于信号生成模块设备或元件的输入数据,该信号生成模块设备或元件可以产生适合于由音频输出设备播放的音频波形。例如,播放可能听起来像是说出输入文本串的单词(或声音)的人类语音。在语音合成的情况下,合成语音的声音(例如,对人耳而言)越自然,通常系统的语音质量排名越好。在某些情况下,更自然的声音还可以减少计算资源,因为可以减少随后与用户澄清输出含义的交流。音频波形也可以被生成为音频文件,该音频文件可以被存储或记录在适合于随后播放的存储介质上。在一些实施例中,语音可以直接地从文本合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:在文本到语音(TTS)系统处,接收具有起点和终点的实时流式文本串;在TTS系统处,累积包括从初始点到第一触发点接收的文本串的第一部分的第一子串,其中,初始点不早于起点且在第一触发点之前,并且第一触发点不超过终点;在TTS系统处,将TTS系统的标点模型应用于第一子串以生成预处理的第一子串,所述预处理的第一子串包括添加了由标点模型确定的语法标点的第一子串;在TTS系统处,至少对预处理的第一子串应用TTS合成处理,以生成第一合成语音;以及产生第一合成语音的音频播放。2.根据权利要求1所述的方法,其中,所述第一子串是下述中的一个:完整接收的文本串,其中,初始点是起点,以及第一触发点是终点并且标记文本串的结束;小于完整接收的文本串,其中,初始点是起点,并且第一触发点在终点之前;小于完整接收的文本串,其中,初始点在起点之后,并且第一触发点是终点;或者小于完整接收的文本串,其中,初始点在起点之后,并且第一触发点在终点之前。3.如权利要求1或2所述的方法,其中,接收实时流式文本串包括接收从在通信地连接到远程设备的通信设备上执行的交互式文本应用程序输出的流式文本,其中,第一触发点对应于来自交互式文本应用程序的将文本串发送到远程设备的命令,以及其中,产生第一合成语音的音频播放包括通过通信连接将音频播放从通信设备传送到远程设备。4.根据权利要求1或2所述的方法,其中,第一触发点在终点之前,并且其中,所述方法还包括:在对预处理的第一子串应用TTS合成处理以生成第一合成语音时,同时累积包括从第一触发点到第二触发点接收的文本串的第二部分的第二子串,所述第二触发点在所述第一触发点之后并且不超过终点;将标点模型应用于第二子串以生成预处理的第二子串;在产生第一合成语音的音频播放时,同时将TTS合成处理应用于预处理的第二子串以生成第二合成语音;以及产生第二合成语音的音频播放。5.根据权利要求4所述的方法,其中,所述第一子串是下述中的一个:小于完整接收的文本串,其中,初始点是起点;或者小于完整接收的文本串,其中,初始点在起点之后。6.根据权利要求4或5所述的方法,其中,接收实时流式文本串包括接收从在通信设备上执行的交互式文本应用程序输出的流式文本,以及其中,第一触发点和第二触发点各自对应于流式文本输出的不同的、相应的单词的结束。7.根据前述权利要求中任一项所述的方法,其中,所述第一触发点在所述终点之前,其中,累积第一子串包括:从所接收的实时流式文本、一次一个连续单词地递增地累积到第一中间子串中;
在连续单词每次连续累积到第一中间子串中之后,将标点模型应用于第一中间子串以生成预处理的第一中间子串,并且在预处理的第一中间子串中搜索由标点模型添加的第一特定标点,所述第一特定标点对用于TTS合成处理的第一中间子串进行定界;将第一触发点设置为第一特定标点在预处理的第一中间子串中的发生;和将第一子串确定为定界的第一中间子串;以及其中,将TTS系统的标点模型应用于第一子串以生成预处理的第一子串包括:生成具有第一特定标点的发生的预处理的第一中间子串。8.根据权利要求7所述的方法,还包括,与将TTS合成处理应用于预处理的第一子串以生成第一合成语音同时:从第一触发点,从所接收的实时流式文本、一次一个连续单词地递增地累积到第二中间子串中;在连续单词每次连续累积到第二中间子串中之后,将标点模型应用于第二中间子串以生成预处理的第二中间子串;将第二触发点设置为下述中的一个:(i)第二特定标点在预处理的第二中间子串中的发生,所述第二特定标点对用于TTS合成处理的第二中间子串进行定界,或者(ii)指示接收的实时流式文本的终点的信号;和将第二子串确定为从第一触发点到第二触发点的第二中间子串。9.根据权利要求8所述的方法,还包括:在产生第一合成语音的音频播放时,同时将TTS合成应用于第二子串以生成第二合成语音;以及,产生第二合成语音的音频播放。10.根据权利要求7所述的方法,还包括,与产生第一合成语音的音频播放同时:从第一触发点,从所接收的实时流式文本、一次一个连续单词地递增地累积到第二中间子串中;在连续单词每次连续累积到第二中间子串中之后,将标点模型应用于第二中间子串以生成预处理的第二中间子串;将第二触发点设置为下述中的一个:(i)第二特定标点在预处理的第二中间子串中的发生,所述第二特定标点对用于TTS合成处理的第二中间子串进行定界,或者(ii)指示接收的实时流式文本的终点的信号;将第二子串确定为从第一触发点到第二触发点的第二中间子串;和将TTS合成应用于第二子串以生成第二合成语音,以及其中,在产生第一合成语音的音频播放之后,产生第二合成语音的音频播放。11.根据权利要求10所述的方法,其中,接收实时流式文本串包括接收从在通信设备上执行的交互式文本应用程序输出的流式文本,所述交互式文本应用包括被配置用于显示用户输入文本并且提供文本编辑功能的交互式显示器,其中,第一触发点和第二触发点各自对应于流式文本输出的不同的、相应的单词的结束,并且其中,所述方法还包括:在第一合成语音的音频播放开始时,使得针对与第一子串相对应的任何显示的用户输入文本来禁用文本编辑功能。
12.根据权利要求1

11中任一项所述的方法,其中,所述标点模型包括人工神经网络(ANN),所述人工神经网络被训练用于向既包括多个单词又缺少任何语法标点的输入文本串添加语法标点,并且其中,添加语法标点包括预测特定的语法标点记号及其在输入文本串的单词之前和/或之后的相应位置。13.一种包括在装置上实现的文本到语音(TTS)系统的系统,所述装置包括:一个或...

【专利技术属性】
技术研发人员:M哈西德S卡杜里N巴尔D科恩B施莱辛格MT拉马诺维奇
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1