一种基于深度学习的多模型综合效果器预设生成方法技术

技术编号：43198255 阅读：21 留言：0更新日期：2024-11-01 20:17

本发明专利技术公开了一种基于深度学习的多模型综合效果器预设生成方法，通过用户端向上位机上传歌曲；上位机截取歌曲中需要提取音色预设的片段，随后将片段上传至云服务器；云服务器中的深度学习模型根据片段推断出吉他演奏部分处的音色预设，并生成音色预设文件返回给上位机；上位机将生成的音色预设文件下载到综合效果器中，完成整个音色预设生成。本发明专利技术提供的基于深度学习的多模型综合效果器预设生成方法，简化传统综合效果器中繁琐的音色预设的制作和调试过程，帮助用户更好更快的制作音色预设。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音乐，尤其公开了一种基于深度学习的多模型综合效果器预设生成方法。

技术介绍

1、电吉他作为吉他类乐器的一个分支，与传统的原声吉他或古典吉他的主要不同之处在于，原声吉他强调的是尽可能还原乐器原本的音色，而电吉他往往会使用各种专用乐器音箱、效果器来改变其原有的声音，从而创造出适合于不同风格的独特音色。这也是电吉他在各种不同风格的现代音乐中都被广泛使用的原因之一。

2、传统的电吉他音频处理设备是以模拟电路设备为主的，例如电子管音箱和单块效果器。这类设备不仅昂贵、笨重，而且每个设备都需要有专业的电源提供供电，每个设备之间也需要使用专业的音频线材进行链接和路由才能组成一条完整的效果链，并获得最终的输出。若需要快速更换信号的路由结构或快速的切换某一个设备中的某一个参数，则可能需要使用到多块相同的设备。这样的一套音色系统的调试、维护和运输问题长期以来都是乐手所需要面对的难题。

3、随着数字信号处理、模拟电路建模等技术的不断发展，电吉他在塑造音色的过程中原本所需要使用到的电子管音箱、单块效果器等模拟电路设备，开始慢慢的被数字类效果器设备所取代，而其中作为代表的是数字类综合效果器(后简称综合效果器)。综合效果器可以通过算法实现对目标模拟电路设备的建模，从而还原出目标模拟电路类设备的音色。更重要的是，不同效果处理模块的调用、参数配置、信号路由均可在综合效果器内部通过音色预设来实现和管理。乐手只需要携带一台综合效果器即可实现原本需要庞大数量的模拟电路设备才能实现的音色和功能，这大大的简化了音色系统的调试、维护和运

4、综合效果器在为用户提供了便利性的同时也面临着一些新的问题。首先，综合效果器中的算法通常是对真实模拟设备的建模，其音色特点和参数调试技巧往往也是遵循真实模拟设备的，这意味着选择和调试一个效果模块需要用户有大量的真实设备调试经验。其次，现在的一款综合效果器中通常集成了成百上千个效果模块的算法，每个算法中又有几个到几十个的控制参数，不同的算法之间可以自由的进行排列组合，信号链路的路由方式也有多种选择。这导致业余爱好者或对综合效果器不熟悉的用户很难根据自身的音色需求，在海量的算法和参数的排列中完成音色预设的制作，从而获得自己想要的音色。

技术实现思路

1、本专利技术提供了一种基于深度学习的多模型综合效果器预设生成方法，旨在解决上述问题中的至少一种。

2、本专利技术涉及一种基于深度学习的多模型综合效果器预设生成方法，包括以下步骤：

3、用户端向上位机上传歌曲；

4、上位机截取歌曲中需要提取音色预设的片段，随后将片段上传至云服务器；

5、云服务器中的深度学习模型根据片段推断出吉他演奏部分处的音色预设，并生成音色预设文件返回给上位机；

6、上位机将生成的音色预设文件下载到综合效果器中，完成整个音色预设生成。

7、进一步地，云服务器中的深度学习模型根据片段推断出吉他演奏部分处的音色预设，并生成音色预设文件返回给上位机的步骤包括：

8、音乐源分离模块分离提取出片段中不同乐器的音轨，并输出吉他音轨分轨文件，音轨包括人声、贝斯、键盘、鼓、主音吉他、节奏吉他和其他音轨，吉他音轨分轨文件中包含主音吉他他音轨和节奏吉他音轨；

9、音色类型分类模块将吉他音轨分轨文件作为输入，使用用于音色分类的第一分类神经网络判断出吉他音轨所属的音色类型，输出音色类型标签；

10、音箱参数估计模块根据音色类型标签来缩小音箱模拟算法的选择范围，将吉他音轨分轨文件输入到用于音箱模拟算法类型识别与参数估计的第二分类神经网络中，输出音箱模拟算法的类型和参数，以匹配给定音轨中的吉他音色；

11、音箱频响匹配模块根据参数估计的结果生成一个只有箱头和箱体算法的第一音色预设文件返回给用户终端，获取用户终端加载音色预设文件的演奏内容的输出音频，并以目标分轨音频作为参照，匹配目标音色与估计音色的整体频响，以进一步的提高音色的相似度；

12、音乐特征提取模块提取用户终端上传的音频文件中与音色预设相关的特征值；

13、音乐风格分类模块将音频文件作为输入，使用用于音乐风格分类的第三分类神经网络判断出该音频所属的音乐风格类型，输出音乐风格标签；

14、演奏内容分类模块将吉他音轨分轨文件作为输入，使用用于演奏内容分类的第四神经网络判断出该吉他音轨的演奏内容类型，输出演奏内容类型标签；

15、预设相似度匹配模块将音乐风格标签、演奏内容标签、以及音色类型标签作为输入，在拥有大量音色预设的预设数据库中匹配符合给定标签的预设文件，并根据吉他分轨音频文件选择出最为符合目标音色的一个第二音色预设文件，确定其他效果模块的参数；

16、将所有的算法模块信息和参数汇总成一个第三音色预设文件并返回给用户的上位机，完成音色预设的生成。

17、进一步地，音乐源分离模块分离提取出片段中不同乐器的音轨，并输出吉他音轨分轨文件的步骤包括：

18、对混音音频进行短时傅立叶变换得到混音频谱x；

19、提取混音频谱x的特征值z，采用时序建模将特征值z变换为转变特征值q；

20、根据转变特征值q，采用掩蔽估计计算出时频掩蔽系数m；

21、将混音频谱x乘上时频掩蔽系数m，得到分轨频谱s；

22、对分轨频谱做短时傅立叶逆变换，得到分轨音频。

23、进一步地，对混音音频进行短时傅立叶变换得到混音频谱x的步骤中，混音频谱x由复数组成的频谱，表示为：

24、

25、其中，x为混音频谱，f为频率维度，t为时间维度，为复数集合。

26、进一步地，提取混音频谱x的特征值z，采用时序建模将特征值z变换为转变特征值q的步骤包括：

27、将复数频谱按照给定的子带分频配置fi，分割成k个子带频谱其中，i＝1,…,k；fi为目标分频频段，bi为fi对应的子带频谱；

28、将每个子带频谱bi的实部和虚部拼接起来输入到频带特征提取模块，频带特征提取模块由一个层归一化和一个全连接层组成，频带特征提取模块将输出由实数组成的子带频谱特征其中，zi为子带频谱特征；为实数集合；n为特征维度；

29、将所有的k个子带频谱特征合并成一个全频带的特征值并输出到下一环节。

30、进一步地，提取混音频谱x的特征值z，采用时序建模将特征值z变换为转变特征值q的步骤包括：

31、对于时间序列，使用一组rnn在时间序列维度t上对特征值进行建模；对于频带，使用一组rnn在频带维度k上对特征值进行建模，其中，zi为全频带的特征值；为经过时间序列建模后的全频带特征值；

32、将输入与全连接层的输出残差链接得到rnn的输出，时频建模的最终输出定义为其中，q为转变特征值。

33、进一步地，根据转变特征值q，采用掩蔽估计计算本文档来自技高网...

【技术保护点】

1.一种基于深度学习的多模型综合效果器预设生成方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于深度学习的多模型综合效果器预设生成方法，其特征在于，所述云服务器中的深度学习模型根据所述片段推断出吉他演奏部分处的音色预设，并生成音色预设文件返回给上位机的步骤包括：

3.如权利要求2所述的基于深度学习的多模型综合效果器预设生成方法，其特征在于，所述音乐源分离模块分离提取出所述片段中不同乐器的音轨，并输出吉他音轨分轨文件的步骤包括：

4.如权利要求3所述的基于深度学习的多模型综合效果器预设生成方法，其特征在于，所述对混音音频进行短时傅立叶变换得到混音频谱X的步骤中，所述混音频谱X由复数组成的频谱，表示为：

5.如权利要求4所述的基于深度学习的多模型综合效果器预设生成方法，其特征在于，所述提取所述混音频谱X的特征值Z，采用时序建模将所述特征值Z变换为转变特征值Q的步骤包括：

6.如权利要求5所述的基于深度学习的多模型综合效果器预设生成方法，其特征在于，所述提取所述混音频谱X的特征值Z，采用时序建模将所述特征值Z变换为转变特征值Q的步骤包括：

7.如权利要求6所述的基于深度学习的多模型综合效果器预设生成方法，其特征在于，所述根据所述转变特征值Q，采用掩蔽估计计算出时频掩蔽系数M的步骤包括：

8.如权利要求2所述的基于深度学习的多模型综合效果器预设生成方法，其特征在于，所述音色类型分类模块将所述吉他音轨分轨文件作为输入，使用用于音色分类的第一分类神经网络判断出吉他音轨所属的音色类型，输出音色类型标签的步骤中，将数据集中的音频分割为设定时间的片段，对所述片段进行音频特征提取，提取的音频特征为梅尔频谱，所述梅尔频谱与频率之间的换算关系为：

9.如权利要求2所述的基于深度学习的多模型综合效果器预设生成方法，其特征在于，所述音色类型分类模块将所述吉他音轨分轨文件作为输入，使用用于音色分类的第一分类神经网络判断出吉他音轨所属的音色类型，输出音色类型标签的步骤中，梅尔滤波器组是在梅尔频率尺度上的一组三角滤波器，梅尔滤波器组的计算公式为：

10.如权利要求9所述的基于深度学习的多模型综合效果器预设生成方法，其特征在于，所述音色类型分类模块将所述吉他音轨分轨文件作为输入，使用用于音色分类的第一分类神经网络判断出吉他音轨所属的音色类型，输出音色类型标签的步骤中，将每一个三角滤波器与梅尔频谱的能量谱卷积，得到与三角滤波器对应的一组系数，再对其取对数，得到用于计算起始强度包络的系数S(m)：

...

【技术特征摘要】

1.一种基于深度学习的多模型综合效果器预设生成方法，其特征在于，包括以下步骤：

4.如权利要求3所述的基于深度学习的多模型综合效果器预设生成方法，其特征在于，所述对混音音频进行短时傅立叶变换得到混音频谱x的步骤中，所述混音频谱x由复数组成的频谱，表示为：

5.如权利要求4所述的基于深度学习的多模型综合效果器预设生成方法，其特征在于，所述提取所述混音频谱x的特征值z，采用时序建模将所述特征值z变换为转变特征值q的步骤包括：

6.如权利要求5所述的基于深度学习的多模型综合效果器预设生成方法，其特征在于，所述提取所述混音频谱x的特征值z，采用时序建模将所述特征值z变换为转变特征值q的步骤包括：

7.如权利要求6所述的基于深度学习的多模型综合效果器预设生成方法，其特征在于...

【专利技术属性】
技术研发人员：旷世强，曹强，明振，李从源，刘杰，
申请(专利权)人：长沙幻音电子科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人