当前位置: 首页 > 专利查询>四川大学专利>正文

基于DCT-DDPM的音乐音频修复方法及系统技术方案

技术编号:37488296 阅读:12 留言:0更新日期:2023-05-07 09:27
本发明专利技术公开了一种基于DCT

【技术实现步骤摘要】
基于DCT

DDPM的音乐音频修复方法及系统


[0001]一种基于DCT

DDPM的音乐音频修复方法及系统,用于音乐音频修复,属于语音处理领域和深度学习领域。

技术介绍

[0002]音频信号在传输和存储的过程中经常会有部分损坏。例如,音频信号在远距离传输时会产生丢包现象,在用光盘等介质存储时,如果介质的一部分损毁,也会导致音频信号的局部损坏。而一项基于音频上下文的语义信息从损坏的音频片段(也称间隙)中恢复信息的研究被称为音频修复。
[0003]在音乐音频修复领域,当音乐音频信号损坏的间隙长度不超过100ms时,音频修复的目的是根据上下文特征精确恢复原始信号,这方面的现有研究有基于稀疏度的、基于概率非负矩阵分解或基于神经网络的模型。然而,对于几百甚至几千毫秒的长间隙(大于100ms),在没有额外信息的情况下,要精确地恢复音频信号丢失的信息是不切实际的。
[0004]因此,目前的相关工作对长空隙进行修复的首要目的是生成与上下文语义兼容的片段来插入到间隙中,使得人们在听到音频时不会或尽量少地产生突兀感。一项现有研究试图通过利用音频信号中已有的信息,将合适的候选片段插入空隙中,这种方法不需要收集数据进行训练,但是其局限性也很大,因为无法产生新的信息,而现有的信息在很多情况下不一定适合插入。另外的一项工作使用包含多尺度上下文编码器的生成对抗网络(GAN),在频域生成音频片段,这种方法在训练数据量小时生成的音频片段质量很差,同时只能修复固定长度的间隙,例如480ms,960ms,很难在实际应用。另外,目前已有的音频修复工作集中于无条件修复,也就是说只能生成新的片段,而无法还原原始片段的信息。
[0005]综上所述,现有的音频修复方法存在如下技术问题:
[0006]1.只能进行无条件修改,无法还原原始片段信息的问题,当听众听到熟悉的音乐时会产生很大的不适应感;
[0007]2.传统的机器学习方法只能修复100ms以下的片段,而现有的深度学习方法在修复100ms以上的片段时,只能修复固定长度的片段,对于不同长度的片段要重新训练;
[0008]3.现有的机器学习和深度学习方法生成的片段质量不佳,和上下文片段的旋律和清晰度有较大差距;
[0009]4.现有的机器学习和深度学习方法鲁棒性差,在跨数据集修复时,即使是同种乐器,若音频内容特征有差距,那么修复的质量也会大大降低。

技术实现思路

[0010]针对上述研究的问题,本专利技术的目的在于提供一种基于DCT

DDPM的音乐音频修复方法及系统,解决现有技术只能进行无条件修改,无法还原原始片段信息的问题。
[0011]为了达到上述目的,本专利技术采用如下技术方案:
[0012]一种基于DCT

DDPM的音乐音频修复方法,包括如下步骤:
[0013]步骤1:获取音乐的音频及对应音频的乐谱,其中,乐谱为MIDI文件;
[0014]步骤2:使用短时傅里叶变换和梅尔滤波器将音频转换为梅尔频谱图,并把梅尔频谱图平均切分,将乐谱转换为pianoroll格式,转换后并进行切分,将切分后的音频的梅尔频谱图和pianoroll格式的乐谱对齐;
[0015]步骤3:将梅尔频谱图的随机范围替换为高斯噪声作为Mask,得到带有Mask的梅尔频谱图,其中,Mask表示遮挡;
[0016]步骤4:在无条件修复的情况下,将带有Mask的梅尔频谱图和步骤2得到的梅尔频谱图使用拼接函数在通道维度上拼接后送入DCT

DDPM进行训练,或在条件修复的情况下,将Pianoroll格式的乐谱特征提取后再与带有Mask的梅尔频谱图使用拼接函数在通道维度上拼接后送入DCT

DDPM进行训练,最后得到对应的训练后的DCT

DDPM,其中,DCT

DDPM为离散余弦变换去噪扩散概率模型;
[0017]步骤5:当DCT

DDPM训练完毕后,对于有间隙的音频,将待修复的音频转换为待修复的梅尔频谱图后,在无条件修复的情况下,首先随机初始化一个与待修复的梅尔频谱图形状相同的高斯噪声,然后将待修复的梅尔频谱图和高斯噪声在通道维度拼接后送入DCT

DDPM,得到完整的梅尔频谱图,或在条件修复的情况下,使用乐谱编码器提取待修复的音频所对应的Pianoroll格式的乐谱的乐谱特征后,再与带有Mask的梅尔频谱图在通道维度拼接后送入DCT

DDPM,得到完整的梅尔频谱图;
[0018]步骤6:使用神经网络声码器或者PGHI相位重建算法将得到的完整的梅尔频谱图反转为音频波形。
[0019]进一步,所述步骤1中,音乐的音频的时长最低为0.5小时,获取的音频的采样率均重采样到24kHZ。
[0020]进一步,所述步骤2中,短时傅里叶变换的参数为:win_size=50ms,fft_size=50ms,hop_size=12.5ms,其中,STFT表示短时傅里叶变换,win_size代表STFT中窗函数的窗大小,fft_size代表使用多长的局部数据进行傅里叶变换,hop_size代表窗函数在取不同窗时的重叠范围,hop_size、fft_size和win_size的取值得到梅尔频谱图一帧所对应的音频长度为12.5ms;
[0021]切分梅尔频谱图的切分长度为512帧;
[0022]pianoroll格式的乐谱与梅尔频谱图的切分方式相同,切分后的pianoroll格式的乐谱与切分后的梅尔频谱图形状相同,其中,切分pianoroll格式的文件包括pretty

midi。
[0023]进一步,所述步骤3中,随机范围的取值区间为[0,128],对应的音频长度为0ms到1600ms。
[0024]进一步,所述步骤4中,DCT

DDPM的结构为Unet结构,包括结构相对称的编码器和解码器,编码器依次由输入卷积和3个残差模块组成,解码器依次由3个残差模块和输出卷积组成,编码器的最后一个残差模块和解码器的第一个残差模块之间通过另一个残差卷积模块相连接,编码器的第i个残差模块的输出和解码器的第4

i个残差模块的输入跳跃连接,其中,3≥i≥1,跳跃连接指的是编码器第i个残差模块的输出会和解码器的第4

i个残差模块的输入在通道维度拼接后再送入解码器的残差模块;
[0025]编码器中的每个残差模块由依次相连接的一个残差卷积模块和一个重采样层组成,其中,编码器中的重采样层为下采样,解码器中的每个残差模块由依次相连接的一个重
采样层和一个残差卷积模块组成,其中,解码器中的重采样层为上采样;
[0026]在编码器的第一层和解码器的最后一层都有一个单独的卷积,即输入卷积和输出卷积,其分别用于:在无条件修复的情况下,编码器第一层的卷积将梅本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DCT

DDPM的音乐音频修复方法,其特征在于,包括如下步骤:步骤1:获取音乐的音频及对应音频的乐谱,其中,乐谱为MIDI文件;步骤2:使用短时傅里叶变换和梅尔滤波器将音频转换为梅尔频谱图,并把梅尔频谱图平均切分,将乐谱转换为pianoroll格式,转换后并进行切分,将切分后的音频的梅尔频谱图和pianoroll格式的乐谱对齐;步骤3:将梅尔频谱图的随机范围替换为高斯噪声作为Mask,得到带有Mask的梅尔频谱图,其中,Mask表示遮挡;步骤4:在无条件修复的情况下,将带有Mask的梅尔频谱图和步骤2得到的梅尔频谱图使用拼接函数在通道维度上拼接后送入DCT

DDPM进行训练,或在条件修复的情况下,将Pianoroll格式的乐谱特征提取后再与带有Mask的梅尔频谱图使用拼接函数在通道维度上拼接后送入DCT

DDPM进行训练,最后得到对应的训练后的DCT

DDPM,其中,DCT

DDPM为离散余弦变换去噪扩散概率模型;步骤5:当DCT

DDPM训练完毕后,对于有间隙的音频,将待修复的音频转换为待修复的梅尔频谱图后,在无条件修复的情况下,首先随机初始化一个与待修复的梅尔频谱图形状相同的高斯噪声,然后将待修复的梅尔频谱图和高斯噪声在通道维度拼接后送入DCT

DDPM,得到完整的梅尔频谱图,或在条件修复的情况下,使用乐谱编码器提取待修复的音频所对应的Pianoroll格式的乐谱的乐谱特征后,再与带有Mask的梅尔频谱图在通道维度拼接后送入DCT

DDPM,得到完整的梅尔频谱图;步骤6:使用神经网络声码器或者PGHI相位重建算法将得到的完整的梅尔频谱图反转为音频波形。2.根据权利要求1所述的一种基于DCT

DDPM的音乐音频修复方法,其特征在于:所述步骤1中,音乐的音频的时长最低为0.5小时,获取的音频的采样率均重采样到24kHZ。3.根据权利要求2所述的一种基于DCT

DDPM的音乐音频修复方法,其特征在于:所述步骤2中,短时傅里叶变换的参数为:win_size=50ms,fft_size=50ms,hop_size=12.5ms,其中,STFT表示短时傅里叶变换,win_size代表STFT中窗函数的窗大小,fft_size代表使用多长的局部数据进行傅里叶变换,hop_size代表窗函数在取不同窗时的重叠范围,hop_size、fft_size和win_size的取值得到梅尔频谱图一帧所对应的音频长度为12.5ms;切分梅尔频谱图的切分长度为512帧;pianoroll格式的乐谱与梅尔频谱图的切分方式相同,切分后的pianoroll格式的乐谱与切分后的梅尔频谱图形状相同,其中,切分pianoroll格式的文件包括pretty

midi。4.根据权利要求3所述的一种基于DCT

DDPM的音乐音频修复方法,其特征在于:所述步骤3中,随机范围的取值区间为[0,128],对应的音频长度为0ms到1600ms。5.根据权利要求4所述的一种基于DCT

DDPM的音乐音频修复方法,其特征在于:所述步骤4中,DCT

DDPM的结构为Unet结构,包括结构相对称的编码器和解码器,编码器依次由输入卷积和3个残差模块组成,解码器依次由3个残差模块和输出卷积组成,编码器的最后一个残差模块和解码器的第一个残差模块之间通过另一个残差卷积模块相连接,编码器的第i个残差模块的输出和解码器的第4

i个残差模块的输入跳跃连接,其中,3≥i≥1,跳跃连接指的是编码器第i个残差模块的输出会和解码器的第4

i个残差模块的输入在通道维度拼接后再送入解码器的残差模块;
编码器中的每个残差模块由依次相连接的一个残差卷积模块和一个重采样层组成,其中,编码器中的重采样层为下采样,解码器中的每个残差模块由依次相连接的一个重采样层和一个残差卷积模块组成,其中,解码器中的重采样层为上采样;在编码器的第一层和解码器的最后一层都有一个单独的卷积,即输入卷积和输出卷积,其分别用于:在无条件修复的情况下,编码器第一层的卷积将梅尔频谱图和带有Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积把输出数据的通道从64变为1;在条件修复的情况下,将pianoroll格式的乐谱先输入到乐谱编码器中,得到乐谱特征,然后编码器第一层的卷积将乐谱编码器输出的乐谱特征和带有Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积将输出数据的通道从64变为1。每个残差卷积模块包括两个并列的卷积模块,两个卷积模块分别接受对应的特征图和time embedding的输入,接受特征图输入的卷积模块由依次相连接的接收特征图输入的正则化函数、激活函数和1
×
3卷积构成;而接受time embedding输入的卷积模块由依次相连接的接收time embedding输入的激活函数、Linear和1
×
3卷积构成,两个卷积模块的卷积在编码器中,会让输入的特征的通道维度加倍,在解码器中,会让输入的特征通道的维度减半,time embedding表示时间步嵌入,是DDPM在训练时要根据范围对数据加噪,设定取值范围在[1,1000]之间;输入的特征图和time embedding分别经过对应的卷积模块后相加,并依次输入到正则化函数、激活函数和DCTS模块中,得到输出的特征图,最后,DCTS模块输出的特征图会加上输入残差卷积模块的特征图作为最终的输出特征图;DCTS(离散余弦变换结构)模块包括依次相连接的DCT模块、1
×
1卷积、激活函数和iDCT,在残差卷积中,所有卷积核步长均为1,即1
×
1卷积步长为1,DCT模块表示离散余弦变换模块,iDCT表示反离散余弦变换模块;乐谱编码器的结构包含依次连接的1
×
1卷积,Transformer层和1
×
1卷积,第一个卷积将pianoroll格式的乐谱的通道维度从1变换为128,为输入卷积,第二个卷积则将Transformer输出的特征的通道维度从128变换为1,为输出卷积。6.根据权利要求5所述的一种基于DCT

DDPM的音乐音频修复方法,其特征在于:所述步骤6中,得到的完整的梅尔频谱图大于10小时,使用神经网络声码器,否则使用...

【专利技术属性】
技术研发人员:魏骁勇刘凯洋杨震群
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1