本公开提供了“使用对抗神经网络的联合自动语音识别和文本到语音转换”。本文公开了一种可以使用未配对的文本和音频样本来联合解决ASR和TTS问题两者的基于端对端深度学习的系统。对抗训练方法用于生成可以单独或同时部署的更稳健的独立TTS神经网络和ASR神经网络。用于训练神经网络的过程包括使用TTS神经网络从文本样本生成音频样本,然后将生成的音频样本馈送到ASR神经网络中以重新生成文本。重新生成的文本与原始文本之间的差值用作用于训练神经网络的第一损失。类似过程用于音频样本。重新生成的音频与原始音频之间的差值用作第二损失。文本和音频鉴别器类似地用在神经网络的输出上以生成用于训练的附加损失。络的输出上以生成用于训练的附加损失。络的输出上以生成用于训练的附加损失。
【技术实现步骤摘要】
使用对抗神经网络的联合自动语音识别和文本到语音转换
[0001]本公开总体上涉及计算语言学,并且更具体地涉及自动语音识别和文本到语音转换。
技术介绍
[0002]计算语言学中的两种常见且广泛部署的技术是自动语音识别(ASR)和文本到语音(TTS)转换。然而,没有公共系统用于同时训练和/或部署两个系统。当前的基于端对端深度学习的ASR和TTS系统需要成对(文本和音频)样本,但难以大量获得所述成对样本来适当训练任一系统。
技术实现思路
[0003]在一些实施例中,本文公开了使用基于端对端深度学习的系统对上述问题的解决方案,所述基于端对端深度学习的系统可以使用未配对的文本和音频样本来联合解决ASR和TTS问题两者。所述系统包括对抗训练方法以生成可以单独或同时部署的更稳健的独立TTS神经网络和ASR神经网络。
[0004]一个或多个计算机的系统可以被配置为通过将软件、固件、硬件或它们的组合安装在系统上来执行特定操作或动作,所述软件、固件、硬件或它们的组合在操作中使系统执行所述动作。一个或多个计算机程序可以被配置为通过包括指令来执行特定操作或动作,所述指令在由数据处理设备执行时使所述设备执行所述动作。一个总体方面包括一种用于训练文本到语音(TTS)神经网络和自动语音识别(ASR)神经网络的方法。所述方法可以包括接收第一文本样本作为所述TTS神经网络的输入,以及使用所述TTS神经网络生成表示所述第一文本样本的第一音频样本。由所述TTS神经网络输出的所述第一音频样本可以被馈送到所述ASR神经网络中,所述ASR神经网络可以生成表示所述第一音频样本的第二文本样本。计算基于第一文本样本(馈送到TTS神经网络中)与第二文本样本(由ASR神经网络输出)之间的差值的损失。将第二音频样本输入到所述ASR神经网络,并且通过所述ASR神经网络生成表示所述第二音频样本的第三文本样本。由所述ASR神经网络生成的所述第三音频样本被输入到所述TTS神经网络中,所述TTS神经网络生成表示所述第三文本样本的第三音频样本。计算基于第二音频样本(输入到ASR神经网络中)与第三音频样本(由TTS神经网络输出)之间的差值的第二损失。通过基于计算的损失调整每个神经网络的参数来训练TTS神经网络和ASR神经网络。该方面的其他实施例包括对应的计算机系统、设备和被记录在一个或多个计算机存储装置上的计算机程序,每个计算机程序被配置为执行所述方法的动作。
[0005]各实现方式可以包括以下一个或多个特征。在一些实施例中,所述TTS神经网络包括文本编码器和音频解码器,并且训练TTS神经网络包括调整文本编码器的一个或多个参数或者音频解码器的一个或多个参数。在一些实施例中,所述ASR神经网络包括音频编码器和文本解码器,并且训练ASR神经网络包括调整音频编码器的一个或多个参数或者文本解码器的一个或多个参数。
[0006]在一些实施例中,ASR神经网络可以生成第四文本样本,所述第四文本样本表示被接收作为ASR神经网络的输入的第四音频样本。由ASR输出的第四文本样本和来自文本源的第五文本样本被提供给文本鉴别器。文本鉴别器可以基于第四文本样本和第五文本样本生成第三损失。可以至少部分地基于由文本鉴别器计算的第三损失来训练ASR和/或TTS神经网络。在一些实施例中,文本鉴别器输出假文本样本(通过ASR神经网络从音频样本生成)的第一值,并且输出真实文本样本(从文本源生成)的第二值。
[0007]在一些实施例中,TTS神经网络可以生成第四音频样本,所述第四音频样本表示被接收作为TTS神经网络的输入的第四文本样本。由TTS神经网络输出的第四音频样本和来自音频源的第五音频样本被提供给音频鉴别器。音频鉴别器可以基于第四音频样本和第五音频样本生成第三损失。可以至少部分地基于第三损失来训练ASR和/或TTS神经网络。在一些实施例中,音频鉴别器被训练以输出假文本音频(通过TTS神经网络从文本样本生成)的第一值,并且输出真音频样本(从音频源生成)的第二值。
[0008]在一些实施例中,独立于训练后的ASR神经网络部署训练后的TTS神经网络。在一些实施例中,训练后的TTS和ASR神经网络被一起部署到单个装置。所描述技术的实现方式可以包括硬件、方法或过程、或计算机可访问介质上的计算机软件。
附图说明
[0009]通过参考以下附图,可以实现对各种实施例的性质和优点的进一步理解。在附图中,类似的部件或特征可以具有相同的附图标记。此外,相同类型的各种部件可以通过在附图标记之后加上破折号和区分类似部件之间的第二标记来区分。如果在说明书中仅使用第一附图标记,则所述描述适用于具有相同第一附图标记的类似部件中的任一者,而与第二附图标记无关。
[0010]图1示出了根据一些实施例的训练系统。
[0011]图2示出了根据一些实施例的具有部署的TTS神经网络的用户装置。
[0012]图3示出了根据一些实施例的具有部署的ASR神经网络的用户装置。
[0013]图4示出了根据一些实施例的在训练的第一循环期间的训练系统。
[0014]图5示出了根据一些实施例的在训练的第二循环期间的训练系统。
[0015]图6示出了根据一些实施例的在训练的第三循环期间的训练系统。
[0016]图7示出了根据一些实施例的在训练的第四循环期间的训练系统。
[0017]图8示出了根据一些实施例的用于同时对抗性地训练ASR和TTS神经网络的方法。
[0018]图9示出了根据一些实施例的计算机系统。
[0019]图10示出了根据一些实施例的云计算系统。
具体实施方式
[0020]如上文所讨论的,本文公开了一种用于联合训练文本到语音(TTS)系统(例如,神经网络)和自动语音识别(ASR)系统(例如,神经网络)的系统和方法。所述系统不需要成对的文本和音频样本来进行训练,并且结果是可以联合或单独部署的稳健的ASR和TTS系统。用于训练的过程包括四个循环以训练总共6个部件(即,文本编码器、文本解码器、音频编码器、音频解码器、文本鉴别器和音频鉴别器)。使用生成式对抗网络技术,来自ASR的输出和
来自TTS系统的输出可以用作彼此和鉴别器的输入,以教导ASR和TTS神经网络在不需要成对样本的情况下稳健地执行。
[0021]现在转向图1,描绘了训练系统100。训练系统100包括文本语料库105、音频语料库110、文本嵌入器115、音频嵌入器120、TTS神经网络125、ASR神经网络130、音频鉴别器135、文本鉴别器140、文本损失循环1子系统145、音频GAN损失子系统150、文本GAN损失子系统155和音频损失循环2子系统160。尽管描绘和描述了训练系统100内的某些部件,但是训练系统100中可以存在更多或更少的部件(诸如例如处理器和存储器)来执行操作。为了便于描述,省略了这些部件。此外,在不脱离本公开的范围的情况下,一些部件可以被合并或分离成更多部件。
[0022]文本语料库105包括从文本源获取的文本样本。例如,可以包括本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于训练文本到语音(TTS)神经网络和自动语音识别(ASR)神经网络的方法,所述方法包括:接收第一文本样本作为所述TTS神经网络的输入;使用所述TTS神经网络生成表示所述第一文本样本的第一音频样本;使用所述ASR神经网络生成表示所述第一音频样本的第二文本样本;基于所述第一文本样本与所述第二文本样本之间的第一差值来计算第一损失;接收第二音频样本作为所述ASR神经网络的输入;使用所述ASR神经网络生成表示所述第二音频样本的第三文本样本;使用所述TTS神经网络生成表示所述第三文本样本的第三音频样本;基于所述第二音频样本与所述第三音频样本之间的第二差值来计算第二损失;通过至少部分地基于所述第一损失和所述第二损失调整所述TTS神经网络的参数来训练所述TTS神经网络;以及通过至少部分地基于所述第一损失和所述第二损失调整所述ASR神经网络的参数来训练所述ASR神经网络。2.如权利要求1所述的方法,其中所述TTS神经网络包括文本编码器和音频解码器,并且其中训练所述TTS神经网络包括调整所述文本编码器的一个或多个参数或者所述音频解码器的一个或多个参数。3.如权利要求1所述的方法,其中所述ASR神经网络包括音频编码器和文本解码器,并且其中训练所述ASR神经网络包括调整所述音频编码器的一个或多个参数或者所述文本解码器的一个或多个参数。4.如权利要求1所述的方法,其还包括:使用所述ASR神经网络生成表示作为所述ASR神经网络的输入接收的第四音频样本的第四文本样本;从文本源接收所述第四文本样本和第五文本样本作为文本鉴别器的输入;由所述文本鉴别器基于所述第四文本样本和所述第五文本样本生成第三损失;至少部分地基于所述第三损失来进一步训练所述TTS神经网络;以及至少部分地基于所述第三损失来进一步训练所述ASR神经网络。5.如权利要求4所述的方法,其中所述文本鉴别器被训练以输出假文本样本的第一值,其中所述假文本样本是从音频样本生成的,并且其中所述文本鉴别器被训练以输出真文本样本的第二值,其中所述真文本样本是从文本源生成的。6.如权利要求1所述的方法,其还包括:使用所述TTS神经网络生成表示作为所述TTS神经网络的输入接收的第四文本样本的第四音频样本;从音频源接收所述第四音频样本和第五音频样本作为音频鉴别器的输入;由所述音频鉴别器基于所述第四音频样本和所述第五音频样本生成第三损失;至少部分地基于所述第三损失来进一步训练所述TTS神经网络;以及至少部分地基于所述第三损失来进一步训练所述ASR神经网络。7.如权利要求6所述的方法,其中所述音频鉴别器被训练以输出假音频样本的第一值,其中所述假音频样本是从文本样本生成的,并且其中所述音频鉴别器被训练以输出真音频
样本的第二值,其中所述真音频样本是从音频源生成的。8.如权利要求1至4或6中任一项所述的方法,其还包括:部署所述训练后的TTS神经网络。9.如权利要求1至4或6中任一项所述的方法,其还包括:部署所述训练后的ASR神经网络。10.一种系统,其包括:文本到语音(TTS)神经网络;自动语音识别(ASR)神经网络;一个或多个处理...
【专利技术属性】
技术研发人员:考希克,
申请(专利权)人:福特全球技术公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。