一种用于估计嵌入容量的方法(1000)包括:在确定性参考编码器(500)处接收参考音频信号(412);和确定与参考音频信号对应的参考嵌入(550,650),该参考嵌入具有对应嵌入维数。该方法还包括:根据参考嵌入的对应嵌入维数测量第一重构损失;以及从变分后验获得变分嵌入(420)。变分嵌入具有对应嵌入维数和指定容量。该方法还包括根据变分嵌入的对应嵌入维数测量第二重构损失;以及通过相对于具有指定容量的变分嵌入的第二测量的重构损失比较参考嵌入的第一测量的重构损失来估计参考嵌入的容量。量。量。
【技术实现步骤摘要】
【国外来华专利技术】有表达力的端到端语音合成中的变分嵌入容量
[0001]本公开涉及有表达力的端到端语音合成中的变分嵌入容量的有效使用。
技术介绍
[0002]神经网络是机器学习模型,其采用非线性单元的一层或多层来预测所接收到的输入的输出。例如,神经网络可以转换输入文本以输出语音。除了输出层之外,一些神经网络包括一个或多个隐藏层。每个隐藏层的输出被用作对于在网络中下一层——即,下一个隐藏层或输出层——的输入。网络的每一层根据相应参数集的当前值从所接收到的输入生成输出。
[0003]一些神经网络是递归神经网络。递归神经网络是一种接收输入序列并从输入序列生成输出序列的神经网络。特别地,递归神经网络可以在当前时间步长计算输出时使用来自先前时间步长的一些或所有网络的内部状态。递归神经网络的示例是长短期(LSTM)神经网络,其包括一个或多个LSTM存储块。每个LSTM存储块能够包括一个或多个单元,每个单元包括输入门、忘记门和输出门,其允许该单元存储该单元的先前状态,例如,用于生成当前激活或要被提供给LSTM神经网络的其他组件。
技术实现思路
[0004]本公开的一个方面提供一种用于估计嵌入容量的方法,该方法包括:在数据处理硬件上执行的确定性参考编码器处接收参考音频信号;以及由数据处理硬件确定与参考音频信号对应的参考嵌入。参考嵌入具有对应嵌入维数。该方法还包括:由数据处理硬件根据参考嵌入的对应嵌入维数测量第一重构损失;以及由数据处理硬件从变分后验获得变分嵌入。变分嵌入具有对应嵌入维数和指定容量。该方法还包括:由数据处理硬件根据变分嵌入的对应嵌入维数测量第二重构损失;以及由数据处理硬件通过相对于具有指定容量的变分嵌入的第二测量的重构损失比较参考嵌入的第一测量的重构损失来估计参考嵌入的容量。
[0005]本公开的实现方式可以包括以下可选特征中的一个或多个。在一些实现方式中,参考嵌入包括tanh非线性韵律嵌入。参考嵌入可以包括softmax非线性韵律嵌入。参考嵌入可以包括风格嵌入。在一些示例中,当第一实测重构损失和第二实测重构损失彼此匹配时,参考嵌入的估计容量大体上等于变分嵌入的容量。
[0006]在一些示例中,变分嵌入的指定容量基于变分后验的可调整变分界限。在这些示例中,可调整变分界限可以包括提供变分嵌入的上界限的可调整KL项。可选地,可调整变分界限可以包括提供变分嵌入的上界限的可调谐KL权重。增加可调整变分界限可以增加变分嵌入的指定容量,然而降低可调整变分界限可以降低变分嵌入的指定容量。
[0007]本公开的另一方面提供一种用于估计嵌入容量的系统。该系统包括:数据处理硬件;以及存储器硬件,该存储器硬件与数据处理硬件通信并存储指令,当在数据处理硬件上执行时,这些指令使数据处理硬件执行操作。这些操作包括:在确定性参考编码器处接收参考音频信号;以及确定与参考音频信号对应的参考嵌入。参考嵌入具有对应嵌入维数。这些
操作还包括:根据参考嵌入的对应嵌入维数测量第一重构损失;以及从变分后验获得变分嵌入。变分嵌入具有对应嵌入维数和指定容量。这些操作还包括:根据变分嵌入的对应嵌入维数测量第二重构损失;以及通过相对于具有指定容量的变分嵌入的第二测量的重构损失比较参考嵌入的第一测量的重构损失来估计参考嵌入的容量。
[0008]此方面可以包括以下可选特征中的一个或多个。在一些实现方式中,参考嵌入包括tanh非线性韵律嵌入。参考嵌入可以包括softmax非线性韵律嵌入。参考嵌入可以包括风格嵌入。在一些示例中,当第一测量的重构损失和第二测量的重构损失彼此匹配时,参考嵌入的估计容量大体上等于变分嵌入的容量。
[0009]在一些示例中,变分嵌入的指定容量基于变分后验的可调整变分界限。在这些示例中,可调整变分界限可以包括提供变分嵌入的上界限的可调整KL项。可选地,可调整变分界限可以包括提供变分嵌入的上界限的可调谐KL权重。增加可调整变分界限可以增加变分嵌入的指定容量,然而降低可调整变分界限可以降低变分嵌入的指定容量。
[0010]在附图和下面的描述中阐述了本公开的一种或多种实施方式的细节。从描述和附图以及从权利要求中,其他方面、特征和优点将是显而易见的。
附图说明
[0011]图1是示例文本到语音转换系统的示意图。
[0012]图2是示例CBHG神经网络的示意图。
[0013]图3是用于从输入文本合成语音的操作的示例布置。
[0014]图4是用于控制和转移韵律和风格的示例变分自编码器的示意图。
[0015]图5是用于转移韵律的示例确定性参考编码器的示意图。
[0016]图6是包括确定性参考编码器和用于转移风格的风格层的示例性基于启发式的模型的示意图。
[0017]图7A和7B是描绘用于确定性嵌入的重建损失与嵌入维度的示例图。
[0018]图8A至8C示出使用条件依赖性作为输入的真实和变分后验。
[0019]图9A和9B示出使用条件依赖性作为输入并允许指定在变分嵌入中存在的变分分数以实现剩余变分的采样的真实和变分后验。
[0020]图10是用于估计参考嵌入的容量的方法的操作的示例布置的流程图。
[0021]图11是用于以变分嵌入的特定容量作为目标的方法的操作的示例布置的流程图。
[0022]图12是对与变分嵌入相关联的分层分数进行采样以改变合成语音对于给定风格的发声方式的方法的流程图。
[0023]图13是可用于实现本文描述的系统和方法的示例计算设备的示意图。
[0024]各图中相同的参考符号指示相同的元件。
具体实施方式
[0025]逼真的人类语音的合成是未确定的问题,因为相同的文本输入具有无限数目的合理口语实现。虽然基于端到端神经网络的方法在进步以与人类对类似助理的短话语的表现匹配,但是神经网络模型有时被视为与包括各自在细化语言或音素表示上操作的多个处理步骤的更常规模型比不太可解释或可控。因此,本文的实现方式致力于产生能够在合成语
音方面对剩余变分性(variability)以概率方式建模和/或直接控制的端到端模型。
[0026]变分性的来源包括声调(intonation)、重音(stress)、节奏(rhythm)和风格(style)的韵律(prosodic)特性以及讲话者和通道特性。口语话语的韵律特性传达的语言、语义和情感含义超过存在于词汇表示(例如,口语话语的转录)中的那些。提供用于将这些特性从一种话语转移到另一话语的能力使得用户能够通过使用他们自己的话音(例如,“say it like this(像这样说)”)来控制合成语音如何发声,而不是不得不手动操纵复杂的声学或语言参数。本文的实现方式进一步旨在使得能够从话语的很可能的韵律实现上的分布中采样以便允许用户体验存在于自然语音中的多样性的方法。本文的实现方式可以包括。
[0027]参考图1,在一些实现方式中,示例文本至语音(TTS)转换系统100包括子系统102,该子系统102被配置成接收输入文本104作为输入并且处理输入本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于估计嵌入容量的方法(100),所述方法包括:在数据处理硬件(1310)上执行的确定性参考编码器(410)处接收参考音频信号(412);由所述数据处理硬件(1310)确定与所述参考音频信号(412)对应的参考嵌入(550,650),所述参考嵌入(550,650)具有对应嵌入维数;由所述数据处理硬件(1310)根据所述参考嵌入(550,650)的所述对应嵌入维数测量第一重构损失;由所述数据处理硬件(1310)从变分后验获得变分嵌入(420),所述变分嵌入(420)具有对应嵌入维数和指定容量;由所述数据处理硬件(1310)根据所述变分嵌入(420)的所述对应嵌入维数测量第二重构损失;以及由所述数据处理硬件(1310)通过相对于具有所述指定容量的所述变分嵌入(420)的所测量的第二重构损失比较所述参考嵌入(550,650)的所测量的第一重构损失来估计所述参考嵌入(550,650)的容量。2.根据权利要求1所述的方法(1000),其中,所述参考嵌入(550,650)包括tanh非线性韵律嵌入(550)。3.根据权利要求1或者2所述的方法(1000),其中,所述参考嵌入(550,650)包括softmax非线性韵律嵌入(550)。4.根据权利要求1至3中的任一项所述的方法(1000),其中,所述参考嵌入(550,650)包括风格嵌入(650)。5.根据权利要求1至4中的任一项所述的方法(1000),其中,所述变分嵌入(420)的所述指定容量基于所述变分后验的可调整变分界限。6.根据权利要求5所述的方法(1000),其中,所述可调整变分界限包括可调整KL项,所述可调整KL项提供所述变分嵌入(420)的上界限。7.根据权利要求5所述的方法(1000),其中,所述可调整变分界限包括可调谐KL权重,所述可调谐KL权重提供所述变分嵌入(420)的上界限。8.根据权利要求5至7中的任一项所述的方法(1000),其中,增加所述可调整变分界限增加所述变分嵌入(420)的所述指定容量。9.根据权利要求5至8中的任一项所述的方法(1000),其中,降低所述可调整变分界限降低所述变分嵌入(420)的所述指定容量。10.根据权利要求1至9中的任一项所述的方法(1000),其中,当所测量的第一重构损失和所测量的第二重构损失彼此匹配时,所述参考嵌入(550,650)的估计容量大体上等于所述变分嵌入(420)的容量。11.一种系统(1300),包括:数据处理硬件(1310);和存...
【专利技术属性】
技术研发人员:埃里克,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。