高解析音频生成方法、电子设备及其训练方法技术

技术编号：32357807 阅读：18 留言：0更新日期：2022-02-20 03:20

本申请公开一种高解析音频生成模型的训练方法，所述训练方法包括：提取全频带上采样音频数据的频谱对数特征；截取低频带频谱对数特征；将低频带频谱对数特征输入到第一高解析音频生成模型生成输出信息；将输出信息和频谱对数特征输入到第一判别器网络中，利用损失函数计算损失值，根据所述损失值更新所述第一高解析音频生成模型和所述第一判别器网络中的模型参数，循环训练直至所述损失值小于损失阈值，将所述第一高解析音频生成模型作为所述高解析音频生成模型。本申请的方案能有效充分低频细节，训练充分，所生成的高解析音频生成模型能够有效预测高频部分，使得输出的特征生成音频数据时，细节丰富，更加逼真。更加逼真。更加逼真。

全部详细技术资料下载

【技术实现步骤摘要】
高解析音频生成方法、电子设备及其训练方法

[0001]本申请涉及音频数据处理的
，具体地涉及一种高解析音频生成方法、一种高解析音频生成模型的训练方法和一种音效切换方法。另外，本申请还涉及相关的电子设备。

技术介绍

[0002]衡量数字信号记录的图像有分辨率一说，分辨率越高，图像越清晰。同样，数字音频同样有它的“分辨率”，因为数字信号不能像模拟信号一样记录线性音频，只能让音频曲线更接近线性。而高解析音频(High
‑
resolution audio，Hi
‑
Res)则是对线性还原程度的一个量化体现的定义，高解析音频音频文件的采样频率为96kHz/24bit，用来衡量“声音很好”。Hi
‑
Res高解析音频是一种无损音频，它在录音上力求最大程度还原源声，其音质表现高于CD音频源。Hi
‑
Res音源得益于自身极高的信息量和对音乐最真实全面的还原能力，目前Hi
‑
Res概念已经逐渐在发烧友群体中普及，无论是台式系统还是随身播放器，Hi
‑
Res级别音源的播放能力已经逐渐成为标配。但是Hi
‑
Res音源一般比较少，而制作成本高，且内存大小比较大不利于网络便捷传输。而且曲库现有Hi
‑
Res音源极少，大多是44.1kHz无损音频(最高频谱高度为22.05K)，普通用户很难体验到Hi
‑
Res效果。因此市场中存在需要将44.1kHz无损音频转换到Hi
‑/>Res音频的需求。
[0003]本
技术介绍
描述的内容仅为了便于了解本领域的相关技术，不视作对现有技术的承认。

技术实现思路

[0004]因此，本专利技术实施例意图提供一种高解析音频生成模型训练方法、高解析音频生成方法、音效切换方法以及相关电子设备和计算机可读存储介质。这些方案生成的高解析音频数据，失真少，音质更接近原声，训练出的模型量级小，能够在移动客户端上运行，便于在手机客户端上部署。
[0005]在本专利技术实施例中，提供一种高解析音频生成模型的训练方法，所述训练方法包括：
[0006]S110、提取全频带上采样音频数据的频谱对数特征；
[0007]S120、截取所述频谱对数特征中对应的频率小于第一频率阈值的特征作为低频带频谱对数特征；
[0008]S130、将所述低频带频谱对数特征输入到第一高解析音频生成模型生成输出信息，所述第一高解析音频生成模型的输出信息包括高频带频谱对数特征的信息，所述高频带频谱对数特征对应的频率大于第二频率阈值，其中，第二频率阈值小于所述第一频率阈值；
[0009]S140、将所述第一高解析音频生成模型的输出信息和所述频谱对数特征输入到第一判别器网络中，利用损失函数计算损失值，根据所述损失值更新所述第一高解析音频生
成模型和所述第一判别器网络中的模型参数，获得第二高解析音频生成模型和第二判别器网络；
[0010]S150、将所述第二高解析音频生成模型替换所述步骤S130中的第一高解析音频生成模型，将所述第二判别器网络替换所述步骤S140中的第一判别器网络，循环执行步骤S130和步骤S140，直至所述损失值小于损失阈值，将所述第一高解析音频生成模型作为所述高解析音频生成模型。
[0011]在本专利技术的一些实施例中，所述将所述低频带频谱对数特征输入到第一高解析音频生成模型生成输出信息，包括：
[0012]所述第一高解析音频生成模型根据所述低频带频谱对数特征生成所述高频带频谱对数特征，并将所述低频带频谱对数特征和所述高频带频谱对数特征做拼接处理，生成所述输出信息。
[0013]在本专利技术的一些实施例中，所述提取全频带上采样音频数据的频谱对数特征包括：
[0014]提取所述全频带上采样音频数据的初始谱对数特征；
[0015]计算所述初始谱对数特征的方差和均值；
[0016]利用所述方差、均值对所述初始谱对数特征进行标准化处理，生成所述频谱对数特征。
[0017]在本专利技术的一些实施例中，所述第一高解析音频生成模型采用端到端encoder
‑
decoder架构。
[0018]在本专利技术的一些实施例中，所述第一高解析音频生成模型包括前级网络、后级网络和输出网络，所述前级网络、后级网络和输出网络中设有轻量级深度可分离卷积网络DWconv2D，所述后级网络中设有子像素卷积网络SubPixel2D。
[0019]在本专利技术的一些实施例中，所述前级网络包括第一前级网络、第二前级网络、第三前级网络和第四前级网络，所述后级网络包括第一后级网络、第二后级网络、第三后级网络、第四后级网络；
[0020]所述将所述低频带频谱对数特征输入到所述第一高解析音频生成模型，包括：
[0021]所述低频带频谱对数特征输入到所述第一前级网络；
[0022]所述第一前级网络的输出输入到所述第二前级网络，所述第一前级网络的输出还与所述第三后级网络的输出叠加后输入到所述第四后级网络；
[0023]所述第二前级网络的输出输入到第三前级网络，所述第二前级网络的输出还与第二后级网络的输出叠加后输入到第三后级网络；
[0024]所述第三前级网络的输出输入到第四前级网络，所述第三前级网络的输出还与第一后级网络的输出叠加后输入到第二后级网络；
[0025]所述第四前级网络的输出输入到所述第一后级网络；
[0026]所述第四后级网络的输出输入到所述输出网络。
[0027]在本专利技术的一些实施例中，所述损失函数包括对应所述第一高解析音频生成模型的损失函数和对应所述第一判别器网络的损失函数
[0028]在本专利技术的一些实施例中，所述损失函数采用如下公式表达：
[0029]L
G
＝L
GGAN
+λ1L
LSD
+λ2L
l1pixcel
，其中，λ1和λ2是权重超参数，
[0030]在本专利技术的一些实施例中，所述提取所述全频带上采样音频数据的初始谱对数特征，包括：
[0031]对所述全频带上采样音频数据进行短时傅里叶变换，生成全频带短时傅里叶矩阵特征；
[0032]对所述全频带短时傅里叶矩阵特征中每一元素取模，并取对数，获取所述初始谱对数特征，其中，所述初始谱对数特征中的元素为频点数。
[0033]在本专利技术的一些实施例中，所述截取所述频谱对数特征中对应小于第一频率阈值的特征作为低频带频谱对数特征，包括：
[0034]依据第一频率阈值对应的频点数，对所述全频带频谱对数特征进行切分，生成所述低频带频谱对数特征。在本专利技术实施例中，提供一种高解析音频生成方法，包括如下步骤：
[0035]提取上采样音频数据的短时傅里叶模对数矩阵特征和相位矩阵特征；
[0036]截取所述短时傅里叶模对数矩阵特征中对应小于第一阈值频率的特征作为低频带短时傅本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种高解析音频生成模型的训练方法，其特征在于，所述训练方法包括：S110、提取全频带上采样音频数据的频谱对数特征；S120、截取所述频谱对数特征中对应的频率小于第一频率阈值的特征作为低频带频谱对数特征；S130、将所述低频带频谱对数特征输入到第一高解析音频生成模型生成输出信息，所述第一高解析音频生成模型的输出信息包括高频带频谱对数特征的信息，所述高频带频谱对数特征对应的频率大于第二频率阈值，其中，第二频率阈值小于所述第一频率阈值；S140、将所述第一高解析音频生成模型的输出信息和所述频谱对数特征输入到第一判别器网络中，利用损失函数计算损失值，根据所述损失值更新所述第一高解析音频生成模型和所述第一判别器网络中的模型参数，获得第二高解析音频生成模型和第二判别器网络；S150、将所述第二高解析音频生成模型替换所述步骤S130中的第一高解析音频生成模型，将所述第二判别器网络替换所述步骤S140中的第一判别器网络，循环执行步骤S130和步骤S140，直至所述损失值小于损失阈值，将所述第一高解析音频生成模型作为所述高解析音频生成模型。2.根据权利要求1所述的方法，其特征在于，所述将所述低频带频谱对数特征输入到第一高解析音频生成模型生成输出信息，包括：所述第一高解析音频生成模型根据所述低频带频谱对数特征生成所述高频带频谱对数特征，并将所述低频带频谱对数特征和所述高频带频谱对数特征做拼接处理，生成所述输出信息。3.根据权利要求1或2所述的训练方法，其特征在于，所述提取全频带上采样音频数据的频谱对数特征包括：提取所述全频带上采样音频数据的初始谱对数特征；计算所述初始谱对数特征的方差和均值；利用所述方差、均值对所述初始谱对数特征进行标准化处理，生成所述频谱对数特征。4.根据权利要求1或2所述的训练方法，其特征在于，所述第一高解析音频生成模型采用端到端encoder
‑
decoder架构。5.根据权利要求4所述的训练方法，其特征在于，所述第一高解析音频生成模型包括前级网络、后级网络和输出网络，所述前级网络、后级网络和输出网络中设有轻量级深度可分离卷积网络DWconv2D，所述后级网络中设有子像素卷积网络SubPixel2D。6.根据权利要求5所述的训练方法，其特征在于，所述前级网络包括第一前级网络、第二前级网络、第三前级网络和第四前级网络，所述后级网络包括第一后级网络、第二后级网络、第三后级网络、第四后级网络；所述将所述低频带频谱对数特征输入到所述第一高解析音频生成模型，包括：所述低频带频谱对数特征输入到所述第一前级网络；所述第一前级网络的输出输入到所述第二前级网络，所述第一前级网络的输出还与所述第三后级网络的输出叠加后输入到所述第四后级网络；所述第二前级网络的输出输入到第三前级网络，所述第二前级网络的输出还与第二后级网络的输出叠加后输入到第三后级网络；
所述第三前级网络的输出输入到第四前级网络，所述第三前级网络的输出还与第一后级网络的输出叠加后输入到第二后级网络；所述第四前级网络的输出输入到所述第一后级网络；所述第四后级网络的输出输入到所述输出网络。7.根据权利要求1或2所述的训练方法，其特征在于，所述损失函数包括对应所述第一高解析音频生成模型的损失函数和对应所述第一判别器网络的损失函数8.根据权利要求7所述的训练方法，其特征在于，所述损失函数采用如下公式表达：L
G
＝L
GGAN
+λ1L
LSD
+λ2L
l1pixcel
，其中，λ1...

【专利技术属性】
技术研发人员：张斌，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人