使用神经网络和向量量化器压缩音频波形制造技术

技术编号：40529820 阅读：10 留言：0更新日期：2024-03-01 13:50

方法、系统和装置，包括编码在计算机存储介质上的计算机程序。其中，方法中的一个包括：接收包括多个时间步长中的每个时间步长的相应音频样本的音频波形；使用编码器神经网络处理音频波形以生成表示音频波形的多个特征向量；使用多个向量量化器来生成所述多个特征向量中的每个特征向量的相应编译表示，向量量化器各自与代码向量的相应码本相关联，其中，每个特征向量的相应的编译表示识别多个代码向量，多个代码向量包括来自每个向量量化器的码本的相应代码向量，多个代码向量定义特征向量的量化表示；以及，通过压缩多个特征向量中的每个特征向量的相应编译表示来生成所述音频波形的压缩表示。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本说明书涉及使用机器学习模型处理数据。

技术介绍

1、机器学习模型接收输入并基于接收到的输入生成输出，例如预测输出。一些机器学习模型是参数模型，并且基于接收到的输入和模型的参数值来生成输出。

2、一些机器学习模型是深度模型，深度模型采用多层模型对于接收的输入生成输出。例如，深度神经网络是包括一个输出层和一个或多个隐藏层的深度机器学习模型，每个隐藏层对接收到的输入应用非线性变换以生成输出。

技术实现思路

1、本说明书通常描述了一种压缩系统，该压缩系统在一个或多个位置中的一个或多个计算机上被实现为计算机程序，该压缩系统可以压缩音频波形。本说明书进一步描述了一种解压缩系统，该解压缩系统在一个或多个位置中的一个或多个计算机上被实现为计算机程序，该解压缩系统可以对音频波形进行解压缩。

2、通常，压缩系统和解压缩系统可以位于任何适当的位置。特别地，压缩系统可以可选地位于远离解压缩系统的位置。例如，压缩系统可以由第一位置处的一个或多个第一计算机来实现，而解压缩系统可以由第二(不同)位置处的一个或多个第二(不同)计算机来实现。

3、在一些实施方式中，压缩系统可以生成输入音频波形的压缩表示，并将压缩表示存储在数据存储，例如逻辑数据存储区或物理数据存储设备中。解压缩系统可以稍后从数据存储访问压缩表示，并处理压缩表示以生成对应的输出音频波形。输出音频波形可以是例如输入音频波形的重构或者输入音频波形的增强(例如去噪)版本。

4、在一些实施方式中，压缩系统可以

5、根据第一方面，提供了一种由一个或多个计算机执行的方法，该方法包括：接收音频波形，音频波形包括多个时间步长中的每个时间步长的相应音频样本；使用编码器神经网络处理音频波形以生成表示音频波形的多个特征向量；使用多个向量量化器来生成多个特征向量中的每个特征向量的相应编译表示，向量量化器各自与代码向量的相应码本相关联，其中，每个特征向量的相应编译表示识别多个代码向量，多个代码向量包括来自每个向量量化器的码本的相应代码向量；多个代码向量定义特征向量的量化表示；以及，通过压缩多个特征向量中的每个特征向量的相应编译表示来生成音频波形的压缩表示。

6、在一些实施方式中，多个向量量化器被排序成序列，并且其中，对于多个特征向量中的每个特征向量，生成特征向量的编译表示包括：对于向量量化器序列中的第一向量量化器：接收特征向量；基于特征向量，从向量量化器的码本识别相应的代码向量以表示特征向量；以及，基于(i)特征向量和(ii)表示特征向量的代码向量之间的误差来确定当前残差向量；其中，特征向量的编译表示识别表示特征向量的代码向量。

7、在一些实施方式中，对于多个特征向量中的每个特征向量，生成特征向量的编译表示还包括：对于向量量化器序列中的第一向量量化器之后的每个向量量化器：接收由向量量化器序列中的先前向量量化器生成的当前残差向量；基于当前残差向量，从向量量化器的码本识别相应的代码向量以表示当前残差向量；以及，如果向量量化器不是向量量化器序列中的最后一个向量量化器：基于(i)当前残差向量和(ii)表示当前残差向量的代码向量之间的误差来更新当前残差向量；其中，特征向量的编译表示识别表示当前残差向量的代码向量。

8、在一些实施方式中，生成音频波形的压缩表示包括：对多个特征向量中的每个特征向量的相应编译表示进行熵编码。

9、在一些实施方式中，由特征向量的编译表示所识别的多个代码向量的和来定义每个特征向量的相应量化表示。

10、在一些实施方式中，多个向量量化器的码本都包括相等数量的代码向量。

11、在一些实施方式中，编码器神经网络和多个向量量化器的码本与解码器神经网络一起被联合训练，其中，解码器神经网络被配置为：接收使用编码器神经网络和多个向量量化器生成的表示输入音频波形的多个特征向量中的每个特征向量的相应量化表示；以及，处理表示输入音频波形的特征向量的量化表示以生成输出音频波形。

12、在一些实施方式中，训练包括：获得多个训练示例，每个训练示例包括：(i)相应的输入音频波形和(ii)对应的目标音频波形；使用编码器神经网络、来自向量量化器序列的多个向量量化器和解码器神经网络处理来自每个训练示例的相应输入音频波形，以生成作为对应的目标音频波形的估计的输出音频波形；确定取决于每个训练示例的相应输出和目标波形的目标函数的梯度；以及，使用目标函数的梯度来更新以下的一个或多个：编码器神经网络参数集合、解码器神经网络参数集合或多个向量量化器的码本。

13、在一些实施方式中，对于训练示例中的一个或多个，目标音频波形是输入音频波形的增强版本。

14、在一些实施方式中，对于训练示例中的一个或多个，目标音频波形是输入音频波形的去噪版本。

15、在一些实施方式中，对于训练示例中的一个或多个，目标音频波形与输入音频波形相同。

16、在一些实施方式中，处理每个输入音频波形以生成对应的输出音频波形包括：根据以定义对应的目标音频波形是(i)输入音频波形还是(ii)输入音频波形的增强版本的数据，调节编码器神经网络、解码器神经网络或两者。

17、在一些实施方式中，该方法还包括，对于每个训练示例：选择要在量化表示输入音频波形的特征向量中使用的相应数量的向量量化器；仅使用来自向量量化器序列的所选择的数量的向量量化器来生成对应的输出音频波形。

18、在一些实施方式中，要在量化表示输入音频波形的特征向量时使用的向量量化器的所选择的数量在训练示例之间变化。

19、在一些实施方式中，对于每个训练示例，选择要在量化表示输入音频波形的特征向量中使用的相应数量的向量量化器包括：随机采样要在量化表示输入音频波形的特征向量中使用的向量量化器的数量。

20、在一些实施方式中，目标函数包括重建损失，对于每个训练示例，重建损失测量(i)输出音频波形和(ii)对应的目标音频波形之间的误差。

21、在一些实施方式中，对于每个训练示例，重建损失测量(i)输出音频波形和(ii)对应的目标音频波形之间的多尺度频谱误差。

22、在一些实施方式中，对于每个训练示例：使用鉴别器神经网络处理从输出音频波形导出的数据，以生成一个或多个鉴别器分数的集合，其中，每个鉴别器分数表征输出音频波形是使用编码器神经网络、多个向量量化器和解码器神经网络生成的音频波形的估计可能性；其中，目标函数包括对抗性损失，对抗性损失取决于由鉴别器神经网络生成的鉴别器分数。

23、在一些实施方式中，从输出音频波形导出的数据包括输出音频波形、输出音频波形的下采样版本或输出音频波形的傅立叶变换版本。

24、在一些实施方式中，对于每个训练示例，重建损失测量以下之间的误差：(i)本文档来自技高网...

【技术保护点】

1.一种由一个或多个计算机执行的方法，所述方法包括：

2.根据权利要求1所述的方法，其中，所述多个向量量化器被排序成序列，并且其中，对于所述多个特征向量中的每个特征向量，生成所述特征向量的所述编译表示包括：

3.根据权利要求2所述的方法，其中，对于所述多个特征向量中的每个特征向量，生成所述特征向量的所述编译表示还包括：

4.根据任一前述权利要求所述的方法，其中，生成所述音频波形的所述压缩表示包括：

5.根据任一前述权利要求所述的方法，其中，由所述特征向量的所述编译表示所识别的所述多个代码向量的和来定义每个特征向量的所述相应量化表示。

6.根据任一前述权利要求所述的方法，其中，所述多个向量量化器的所述码本都包括相等数量的代码向量。

7.根据任一前述权利要求所述的方法，其中，所述编码器神经网络和所述多个向量量化器的所述码本与解码器神经网络一起被联合训练，其中，所述解码器神经网络被配置为：

8.根据权利要求7所述的方法，其中，所述训练包括：

9.根据权利要求8所述的方法，其中，对于所述训练示

10.根据权利要求9所述的方法，其中，对于所述训练示例中的一个或多个，所述目标音频波形是所述输入音频波形的去噪版本。

11.根据权利要求9-10中任一项所述的方法，其中，对于所述训练示例中的一个或多个，所述目标音频波形与所述输入音频波形相同。

12.根据权利要求11所述的方法，其中，处理每个输入音频波形以生成对应的输出音频波形包括：

13.根据权利要求8-12中任一项所述的方法，还包括，对于每个训练示例：

14.根据权利要求13所述的方法，其中，要在量化表示输入音频波形的特征向量时使用的向量量化器的所选择的数量在训练示例之间变化。

15.根据权利要求13-14中任一项所述的方法，其中，对于每个训练示例，选择要在量化表示所述输入音频波形的特征向量中使用的所述相应数量的向量量化器包括：

16.根据权利要求8-15中任一项所述的方法，其中，所述目标函数包括重构损失，对于每个训练示例，所述重构损失测量(i)所述输出音频波形和(ii)所述对应的目标音频波形之间的误差。

17.根据权利要求16所述的方法，其中，对于每个训练示例，所述重构损失测量(i)所述输出音频波形和(ii)所述对应的目标音频波形之间的多尺度频谱误差。

18.根据权利要求8-17中任一项所述的方法，其中，所述训练还包括，对于每个训练示例：

19.根据权利要求18所述的方法，其中，从所述输出音频波形导出的所述数据包括所述输出音频波形、所述输出音频波形的下采样版本或所述输出音频波形的傅立叶变换版本。

20.根据权利要求18-19中任一项所述的方法，其中，对于每个训练示例，所述重构损失测量以下之间的误差：(i)由所述鉴别器神经网络通过处理所述输出音频波形而生成的一个或多个中间输出，以及(ii)由所述鉴别器神经网络通过处理所述对应的目标音频波形而生成的一个或多个中间输出。

21.根据权利要求8-20中任一项所述的方法，其中，在所述训练期间，使用由所述编码器神经网络生成的特征向量的指数移动平均来重复更新所述多个向量量化器的所述码本。

22.根据任一前述权利要求所述的方法，其中，所述编码器神经网络包括编码器块序列，每个编码器块被配置为根据编码器块参数集合来处理相应的输入特征向量集合，以生成具有比所述输入特征向量集合低的时间分辨率的输出特征向量集合。

23.根据权利要求7-22中任一项所述的方法，其中，所述解码器神经网络包括解码器块序列，每个解码器块被配置为根据解码器块参数集合来处理相应的输入特征向量集合，以生成具有比所述输入特征向量集合高的时间分辨率的输出特征向量集合。

24.根据任一前述权利要求所述的方法，其中，所述音频波形是语音波形或音乐波形。

25.根据任一前述权利要求所述的方法，还包括通过网络传输所述音频波形的所述压缩表示。

26.一种由一个或多个计算机执行的方法，所述方法包括：

27.一种系统，包括：

28.一个或多个存储指令的非暂时性计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1-26中任一项所述的相应方法的操作。

...

【技术特征摘要】
【国外来华专利技术】