音频处理方法、装置、系统及存储介质制造方法及图纸

技术编号：43947384 阅读：1 留言：0更新日期：2025-01-07 21:36

本公开关于一种音频处理方法、装置、系统及存储介质，涉及数据处理技术领域，以至少解决相关技术中输出的音频失真严重的问题。该方法包括：将待处理音频输入至音频转换模型，以采用音频转换模型执行如下操作：调用编码器将待处理音频编码成目标连续编码信号；基于预设编码本，将目标连续编码信号向量量化为目标离散编码信号；调用解码器基于预设编码本，将目标离散编码信号解码为由连续的目标输出编码信号构成的目标音频；其中，预设编码本包括连续编码信号与离散编码信号之间的关联映射关系，音频转换模型是以重构损失、码本损失和编码器和解码器的编解码的保持损失为约束目标训练而成的；输出音频转换模型完成操作后得到的目标音频。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及数据处理，尤其涉及音频处理方法、装置、系统及存储介质。

技术介绍

1、随着如智慧医疗和金融领域等各个服务领域的语音智能化发展需求，音频处理已成为一种日益增长的应用趋势，而音频编解码技术在音频的数字信号处理中具有重要的应用价值。为了确保音频数据可以高效地存储、传输和播放，在当前音频编解码过程中，通常将音频信号从模拟转换为数字，并通过压缩和编码减小数据大小，然后通过解码和重构恢复为模拟信号，以实现将音频信号转化为模拟信号输出。因上述模拟信号是基于压缩和编码减小数据大小这一信号压缩处理技术得到的，会过滤一些频段使用较少的比特数信号，从而导致输出的音频失真严重，特别是在比特数极低的情况下(例如16千比特每秒或更低)，上述音频编解码方式会使输出的音频出现明显的失真，极大地影响听觉效果，不具有实用价值。

技术实现思路

1、本专利技术提供一种音频处理方法、装置、系统及存储介质，以至少解决相关技术中输出的音频失真严重的问题。本专利技术的技术方案如下：

2、根据本专利技术实施例的第一方面，提供了一种音频处理方法，该方法包括：将待处理音频输入至音频转换模型，以采用音频转换模型执行如下操作：调用编码器将待处理音频编码成目标连续编码信号；基于预设编码本，将目标连续编码信号向量量化为目标离散编码信号；调用解码器基于预设编码本，将目标离散编码信号解码为由连续的目标输出编码信号构成的目标音频；其中，预设编码本包括连续编码信号与离散编码信号之间的关联映射关系，音频转换模型是以重构损失、码本损

3、在一种实现方式中，重构损失表征音频转换模型输入的输入样本音频与音频转换模型对应输出的输出音频之间的音频信号损失；码本损失表征在编码器的第一网络参数和解码器的第二网络参数确定的情况下，编码器输出的连续编码信号与基于预设编码本向量量化处理后的离散编码信号之间的编码损失；保持损失表征在预设码本中表征连续编码信号与离散编码信号之间关联映射关系的各个码字对应的码字值确定的情况下，编码器输出的连续编码信号与基于预设编码本向量量化处理后的离散编码信号之间的编码损失。

4、另一种实现方式中，约束目标包括第一约束目标和第二约束目标；在将待处理音频输入至音频转换模型之前，该方法还包括：交替执行以下训练过程，直至得到满足第一约束目标的预设编码本和满足第二约束目标的第一网络参数下的编码器和第二网络参数下的解码器：以重构损失小于第一损失阈值和码本损失小于第二损失阈值为第一约束目标，对预设编码本中表征连续编码信号与离散编码信号之间关联映射关系的各个码字对应的码字值进行训练；以及，以重构损失小于第一损失阈值和保持损失小于第三损失阈值为第二约束目标，对编码器的第一网络参数和解码器的第二网络参数进行训练。

5、另一种实现方式中，以重构损失小于第一损失阈值和码本损失小于第二损失阈值为第一约束目标，对预设编码本中表征连续编码信号与离散编码信号之间关联映射关系的各个码字对应的码字值进行训练，包括：当码本损失大于或等于第二损失阈值时，从各个码字中，确定出离散编码信号与连续编码信号之间信号差异大于或等于第一预设差异的目标码字；基于目标码字对应的码字值与相邻码字之间所表征的线性关系，确定表征目标码字的码字值的变化趋势的第一梯度；根据第一梯度，对应调整目标码字的码字值。

6、另一种实现方式中，根据第一梯度，对应调整目标码字的码字值，包括：在第一梯度大于或等于0时，将目标码字的码字值调小；在第一梯度小于0时，将目标码字的码字值调大。

7、另一种实现方式中，以重构损失小于第一损失阈值和保持损失小于第三损失阈值为第二约束目标，对编码器的第一网络参数和解码器的第二网络参数进行训练，包括：按照编码器输出的连续编码信号之间的变化趋势的第二梯度，确定对连续编码信号向量量化处理后的离散编码信号的第三梯度；在保持损失大于或等于第三损失阈值时，若连续编码信号与对应的样本连续编码信号的信号损失大于第四损失阈值，根据第二梯度与第一网络参数之间映射关系，调整编码器的第一网络参数；以及，若离散编码信号与对应的样本离散编码的信号损失大于第五损失阈值，根据第三梯度与第二网络参数之间映射关系，调整解码器的第二网络参数。

8、另一种实现方式中，以重构损失小于第一损失阈值和码本损失小于第二损失阈值为第一约束目标，对预设编码本中表征连续编码信号与离散编码信号之间关联映射关系的各个码字对应的码字值进行训练，包括：在重构损失大于或等于第一损失阈值和/或码本损失大于或等于第二损失阈值时，对预设编码本中各个码字对应的码字值进行调整；以重构损失小于第一损失阈值和保持损失小于第三损失阈值为第二约束目标，对编码器的第一网络参数和解码器的第二网络参数进行训练，包括：在重构损失大于或等于第一损失阈值和/或保持损失大于或等于第三损失阈值，对第一网络参数和第二网络参数进行调整。

9、根据本专利技术实施例的第二方面，提供了一种音频处理装置，该音频处理装置包括：输入单元，用于将待处理音频输入至音频转换模型，以采用音频转换模型执行如下操作：调用编码器将待处理音频编码成目标连续编码信号；基于预设编码本，将目标连续编码信号向量量化为目标离散编码信号；调用解码器基于预设编码本，将目标离散编码信号解码为由连续的目标输出编码信号构成的目标音频；其中，预设编码本包括连续编码信号与离散编码信号之间的关联映射关系，音频转换模型是以重构损失、码本损失和编码器和解码器的编解码的保持损失为约束目标训练而成的；输出单元，用于输出音频转换模型完成操作后得到的目标音频。

10、根据本专利技术实施例的第三方面，提供了一种音频处理系统，该系统包括编码器、解码器和预设编码本以及该系统设置有音频转换模型，该系统被配置为执行如第一方面及其任一种可能的实现方式的音频处理方法。

11、根据本专利技术实施例的第四方面，提供了一种电子设备，包括：处理器和用于存储处理器可执行指令的存储器；其中，处理器被配置为执行可执行指令，以实现如第一方面及其任一种可能的实现方式的音频处理方法。

12、根据本专利技术实施例的第五方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有指令，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面及其任一种可能的实现方式的音频处理方法。

13、根据本公开实施例的第六方面，提供一种计算机程序产品，计算机程序产品包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行上述第一方面及其任一种可能的实现方式的音频处理方法。

14、本专利技术的实施例提供的技术方案至少带来以下有益效果：直接依据音频转换模型将待处理音频直接转化为输出的目标音频，实现简单、易操作，无需额外的信号处理模块，减少了硬件成本和操作流程。采用音频转换模型将待处理音频直接转化为目标音频的过程中，基于预设编码本，将编码器中的目标连续编码信号向量量化为本文档来自技高网...

【技术保护点】

1.一种音频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的音频处理方法，其特征在于，所述重构损失表征所述音频转换模型输入的输入样本音频与所述音频转换模型对应输出的输出音频之间的音频信号损失；所述码本损失表征在所述编码器的第一网络参数和所述解码器的第二网络参数确定的情况下，所述编码器输出的连续编码信号与基于所述预设编码本向量量化处理后的离散编码信号之间的编码损失；所述保持损失表征在所述预设码本中表征连续编码信号与离散编码信号之间关联映射关系的各个码字对应的码字值确定的情况下，所述编码器输出的连续编码信号与基于所述预设编码本向量量化处理后的离散编码信号之间的编码损失。

3.根据权利要求2所述的音频处理方法，其特征在于，所述约束目标包括第一约束目标和第二约束目标；在所述将待处理音频输入至音频转换模型之前，所述方法还包括：

4.根据权利要求3所述的音频处理方法，其特征在于，所述以所述重构损失小于第一损失阈值和所述码本损失小于第二损失阈值为所述第一约束目标，对所述预设编码本中表征连续编码信号与离散编码信号之间关联映射关系的各个码字对应的码字值进行训练，包括：

5.根据权利要求4所述的音频处理方法，其特征在于，所述根据所述第一梯度，对应调整所述目标码字的码字值，包括：

6.根据权利要求3所述的音频处理方法，其特征在于，所述以所述重构损失小于第一损失阈值和所述保持损失小于第三损失阈值为所述第二约束目标，对所述编码器的第一网络参数和所述解码器的第二网络参数进行训练，包括：

7.根据权利要求3至6中任一项所述的音频处理方法，其特征在于，所述以所述重构损失小于第一损失阈值和所述码本损失小于第二损失阈值为所述第一约束目标，对所述预设编码本中表征连续编码信号与离散编码信号之间关联映射关系的各个码字对应的码字值进行训练，包括：在所述重构损失大于或等于所述第一损失阈值和/或所述码本损失大于或等于所述第二损失阈值时，对所述预设编码本中各个码字对应的码字值进行调整；

8.一种音频处理装置，其特征在于，所述装置包括：

9.一种音频处理系统，其特征在于，所述系统包括编码器、解码器和预设编码本以及所述系统设置有音频转换模型，所述系统被配置为执行如权利要求1-7中任一项所述的音频处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-7中任一项所述的音频处理方法。

...

【技术特征摘要】

1.一种音频处理方法，其特征在于，所述方法包括：

5.根据权利要求4所述的音频处理方法，其特征在于，所述根据所述第一梯度，对应调...

【专利技术属性】
技术研发人员：张旭龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人