有表达力的端到端语音合成中的变分嵌入容量制造技术

技术编号：31683077 阅读：28 留言：0更新日期：2022-01-01 10:30

一种用于估计嵌入容量的方法(1000)包括：在确定性参考编码器(500)处接收参考音频信号(412)；和确定与参考音频信号对应的参考嵌入(550，650)，该参考嵌入具有对应嵌入维数。该方法还包括：根据参考嵌入的对应嵌入维数测量第一重构损失；以及从变分后验获得变分嵌入(420)。变分嵌入具有对应嵌入维数和指定容量。该方法还包括根据变分嵌入的对应嵌入维数测量第二重构损失；以及通过相对于具有指定容量的变分嵌入的第二测量的重构损失比较参考嵌入的第一测量的重构损失来估计参考嵌入的容量。量。量。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】有表达力的端到端语音合成中的变分嵌入容量

[0001]本公开涉及有表达力的端到端语音合成中的变分嵌入容量的有效使用。

技术介绍

[0002]神经网络是机器学习模型，其采用非线性单元的一层或多层来预测所接收到的输入的输出。例如，神经网络可以转换输入文本以输出语音。除了输出层之外，一些神经网络包括一个或多个隐藏层。每个隐藏层的输出被用作对于在网络中下一层——即，下一个隐藏层或输出层——的输入。网络的每一层根据相应参数集的当前值从所接收到的输入生成输出。
[0003]一些神经网络是递归神经网络。递归神经网络是一种接收输入序列并从输入序列生成输出序列的神经网络。特别地，递归神经网络可以在当前时间步长计算输出时使用来自先前时间步长的一些或所有网络的内部状态。递归神经网络的示例是长短期(LSTM)神经网络，其包括一个或多个LSTM存储块。每个LSTM存储块能够包括一个或多个单元，每个单元包括输入门、忘记门和输出门，其允许该单元存储该单元的先前状态，例如，用于生成当前激活或要被提供给LSTM神经网络的其他组件。

技术实现思路

[0004]本公开的一个方面提供一种用于估计嵌入容量的方法，该方法包括：在数据处理硬件上执行的确定性参考编码器处接收参考音频信号；以及由数据处理硬件确定与参考音频信号对应的参考嵌入。参考嵌入具有对应嵌入维数。该方法还包括：由数据处理硬件根据参考嵌入的对应嵌入维数测量第一重构损失；以及由数据处理硬件从变分后验获得变分嵌入。变分嵌入具有对应嵌入维数和指定容量。该方法还包括：由数据处理硬件根...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于估计嵌入容量的方法(100)，所述方法包括：在数据处理硬件(1310)上执行的确定性参考编码器(410)处接收参考音频信号(412)；由所述数据处理硬件(1310)确定与所述参考音频信号(412)对应的参考嵌入(550,650)，所述参考嵌入(550，650)具有对应嵌入维数；由所述数据处理硬件(1310)根据所述参考嵌入(550，650)的所述对应嵌入维数测量第一重构损失；由所述数据处理硬件(1310)从变分后验获得变分嵌入(420)，所述变分嵌入(420)具有对应嵌入维数和指定容量；由所述数据处理硬件(1310)根据所述变分嵌入(420)的所述对应嵌入维数测量第二重构损失；以及由所述数据处理硬件(1310)通过相对于具有所述指定容量的所述变分嵌入(420)的所测量的第二重构损失比较所述参考嵌入(550，650)的所测量的第一重构损失来估计所述参考嵌入(550，650)的容量。2.根据权利要求1所述的方法(1000)，其中，所述参考嵌入(550，650)包括tanh非线性韵律嵌入(550)。3.根据权利要求1或者2所述的方法(1000)，其中，所述参考嵌入(550，650)包括softmax非线性韵律嵌入(550)。4.根据权利要求1至3中的任一项所述的方法(1000)，其中，所述参考嵌入(550，650)包括风格嵌入(650)。5.根据权利要求1至4中的任一项所述的方法(1000)，其中，所述变分嵌入(420)的所述指定容量基于所述变分后验的可调整变分界限。6.根据权利要求5所述的方法(1000)，其中，所述可调整变分界限包括可调整KL项，所述可调整KL项提供所述变分嵌入(420)的上界限。7.根据权利要求5所述的方法(1000)，其中，所述可调整变分界限包括可调谐KL权重，所述可调谐KL权重提供所述变分嵌入(420)的上界限。8.根据权利要求5至7中的任一项所述的方法(1000)，其中，增加所述可调整变分界限增加所述变分嵌入(420)的所述指定容量。9.根据权利要求5至8中的任一项所述的方法(1000)，其中，降低所述可调整变分界限降低所述变分嵌入(420)的所述指定容量。10.根据权利要求1至9中的任一项所述的方法(1000)，其中，当所测量的第一重构损失和所测量的第二重构损失彼此匹配时，所述参考嵌入(550,650)的估计容量大体上等于所述变分嵌入(420)的容量。11.一种系统(1300)，包括：数据处理硬件(1310)；和存...

【专利技术属性】
技术研发人员：埃里克，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人