用于流式文本的文本到语音合成的方法和系统技术方案

技术编号：37359851 阅读：20 留言：0更新日期：2023-04-27 07:08

公开了一种用于流式文本的语音合成的方法和系统。在文本到语音(TTS)系统中，可以接收具有起点和终点的实时流式文本串，并且可以累积包括从初始点到第一触发点接收的文本串的第一部分的第一子串。初始点不早于起点并且在第一触发点之前，并且第一触发点不超过终点。TTS系统的标点模型可被应用于第一子串以生成预处理的第一子串，该预处理的第一子串包括添加了由标点模型确定的语法标点的第一子串。TTS合成处理可以至少应用于预处理的第一子串，以生成第一合成语音，并且产生第一合成语音的音频播放。音的音频播放。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于流式文本的文本到语音合成的方法和系统

[0001]除非本文另有说明，否则此部分中描述的材料不是本申请中权利要求的现有技术，并且不因为包含在此部分中而被承认为是现有技术。
[0002]自动语音识别(ASR)技术的目标是将特定的话语或语音样本映射到该话语的准确文本表示或其他符号表示。例如，对话语“我的狗有跳蚤”执行的ASR将理想地映射到文本串“我的狗有跳蚤”，而不是无意义的文本串“我的狗有冰冻”，或者合理但不准确的文本串“我的沼泽有树”。
[0003]语音合成技术的目标是将书面语言转换为能够以音频格式输出的语音，例如直接地用于音频输出或者存储为适合于音频输出的音频文件。这种语音合成可以由文本到语音(TTS)系统来执行。书面语言可以采取文本或符号语言表示的形式。语音可以由语音合成器生成为波形，该语音合成器产生人工的人类语音。听起来自然的人类语音也可以是语音合成系统的目标。

技术介绍

[0004]包括计算机、网络服务器、电话和个人数字助理(PDA)的各种技术可以被用来实现ASR系统和/或语音合成系统，或者这样的系统的一个或多个组件。通信网络可以转而在这样的设备中的一些或所有之间提供通信路径和链路，支持语音合成系统能力和可以利用ASR和/或语音合成系统能力的服务。

技术实现思路

[0005]在一个方面，本文呈现的示例实施例提供了一种方法，包括：在文本到语音(TTS)系统处，接收具有起点和终点的实时流式文本串；在TTS系统处，累积包括从初始点到第一触发点接收的文本串的第一部分的第一子串，其中，...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括：在文本到语音(TTS)系统处，接收具有起点和终点的实时流式文本串；在TTS系统处，累积包括从初始点到第一触发点接收的文本串的第一部分的第一子串，其中，初始点不早于起点且在第一触发点之前，并且第一触发点不超过终点；在TTS系统处，将TTS系统的标点模型应用于第一子串以生成预处理的第一子串，所述预处理的第一子串包括添加了由标点模型确定的语法标点的第一子串；在TTS系统处，至少对预处理的第一子串应用TTS合成处理，以生成第一合成语音；以及产生第一合成语音的音频播放。2.根据权利要求1所述的方法，其中，所述第一子串是下述中的一个：完整接收的文本串，其中，初始点是起点，以及第一触发点是终点并且标记文本串的结束；小于完整接收的文本串，其中，初始点是起点，并且第一触发点在终点之前；小于完整接收的文本串，其中，初始点在起点之后，并且第一触发点是终点；或者小于完整接收的文本串，其中，初始点在起点之后，并且第一触发点在终点之前。3.如权利要求1或2所述的方法，其中，接收实时流式文本串包括接收从在通信地连接到远程设备的通信设备上执行的交互式文本应用程序输出的流式文本，其中，第一触发点对应于来自交互式文本应用程序的将文本串发送到远程设备的命令，以及其中，产生第一合成语音的音频播放包括通过通信连接将音频播放从通信设备传送到远程设备。4.根据权利要求1或2所述的方法，其中，第一触发点在终点之前，并且其中，所述方法还包括：在对预处理的第一子串应用TTS合成处理以生成第一合成语音时，同时累积包括从第一触发点到第二触发点接收的文本串的第二部分的第二子串，所述第二触发点在所述第一触发点之后并且不超过终点；将标点模型应用于第二子串以生成预处理的第二子串；在产生第一合成语音的音频播放时，同时将TTS合成处理应用于预处理的第二子串以生成第二合成语音；以及产生第二合成语音的音频播放。5.根据权利要求4所述的方法，其中，所述第一子串是下述中的一个：小于完整接收的文本串，其中，初始点是起点；或者小于完整接收的文本串，其中，初始点在起点之后。6.根据权利要求4或5所述的方法，其中，接收实时流式文本串包括接收从在通信设备上执行的交互式文本应用程序输出的流式文本，以及其中，第一触发点和第二触发点各自对应于流式文本输出的不同的、相应的单词的结束。7.根据前述权利要求中任一项所述的方法，其中，所述第一触发点在所述终点之前，其中，累积第一子串包括：从所接收的实时流式文本、一次一个连续单词地递增地累积到第一中间子串中；
在连续单词每次连续累积到第一中间子串中之后，将标点模型应用于第一中间子串以生成预处理的第一中间子串，并且在预处理的第一中间子串中搜索由标点模型添加的第一特定标点，所述第一特定标点对用于TTS合成处理的第一中间子串进行定界；将第一触发点设置为第一特定标点在预处理的第一中间子串中的发生；和将第一子串确定为定界的第一中间子串；以及其中，将TTS系统的标点模型应用于第一子串以生成预处理的第一子串包括：生成具有第一特定标点的发生的预处理的第一中间子串。8.根据权利要求7所述的方法，还包括，与将TTS合成处理应用于预处理的第一子串以生成第一合成语音同时：从第一触发点，从所接收的实时流式文本、一次一个连续单词地递增地累积到第二中间子串中；在连续单词每次连续累积到第二中间子串中之后，将标点模型应用于第二中间子串以生成预处理的第二中间子串；将第二触发点设置为下述中的一个：(i)第二特定标点在预处理的第二中间子串中的发生，所述第二特定标点对用于TTS合成处理的第二中间子串进行定界，或者(ii)指示接收的实时流式文本的终点的信号；和将第二子串确定为从第一触发点到第二触发点的第二中间子串。9.根据权利要求8所述的方法，还包括：在产生第一合成语音的音频播放时，同时将TTS合成应用于第二子串以生成第二合成语音；以及，产生第二合成语音的音频播放。10.根据权利要求7所述的方法，还包括，与产生第一合成语音的音频播放同时：从第一触发点，从所接收的实时流式文本、一次一个连续单词地递增地累积到第二中间子串中；在连续单词每次连续累积到第二中间子串中之后，将标点模型应用于第二中间子串以生成预处理的第二中间子串；将第二触发点设置为下述中的一个：(i)第二特定标点在预处理的第二中间子串中的发生，所述第二特定标点对用于TTS合成处理的第二中间子串进行定界，或者(ii)指示接收的实时流式文本的终点的信号；将第二子串确定为从第一触发点到第二触发点的第二中间子串；和将TTS合成应用于第二子串以生成第二合成语音，以及其中，在产生第一合成语音的音频播放之后，产生第二合成语音的音频播放。11.根据权利要求10所述的方法，其中，接收实时流式文本串包括接收从在通信设备上执行的交互式文本应用程序输出的流式文本，所述交互式文本应用包括被配置用于显示用户输入文本并且提供文本编辑功能的交互式显示器，其中，第一触发点和第二触发点各自对应于流式文本输出的不同的、相应的单词的结束，并且其中，所述方法还包括：在第一合成语音的音频播放开始时，使得针对与第一子串相对应的任何显示的用户输入文本来禁用文本编辑功能。
12.根据权利要求1
‑
11中任一项所述的方法，其中，所述标点模型包括人工神经网络(ANN)，所述人工神经网络被训练用于向既包括多个单词又缺少任何语法标点的输入文本串添加语法标点，并且其中，添加语法标点包括预测特定的语法标点记号及其在输入文本串的单词之前和/或之后的相应位置。13.一种包括在装置上实现的文本到语音(TTS)系统的系统，所述装置包括：一个或...

【专利技术属性】
技术研发人员：M哈西德，S卡杜里，N巴尔，D科恩，B施莱辛格，MT拉马诺维奇，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人