本发明专利技术公开了一种基于SE卷积网络的乐器识别方法及系统,方法包括如下步骤:待识别数据预处理,将待识别音频文件转换为待识别自相关谱图;待识别数据识别,将待识别自相关谱图输入预先构建的乐器识别模型进行识别,得到输出结果矩阵;乐器解析,将乐器识别模型的输出结果矩阵整合解析为自然语言表示的乐器标签。该方法将待识别音频文件转换为自相关谱图,自相关谱图采用自相关算法,能够有效克服短时傅里叶变换的不足,利用预先构建的乐器识别模型对自相关谱图进行处理,能够识别出音频数据所使用的乐器种类,对真实场景的复调音乐有着较高的识别率,且识别速度较快,可以极大地降低人工成本,节省时间,提升效率。
An Instrument Recognition Method and System Based on SE Convolutional Network
【技术实现步骤摘要】
一种基于SE卷积网络的乐器识别方法及系统
本专利技术属于计算机软件
,具体地说,涉及一种基于SE卷积网络的乐器识别方法及系统。
技术介绍
随着我国小康水平的提高,人们的物质生活基本达到满足,越来越多的人开始追求精神生活上的提升,娱乐是提升精神生活的一种方式,越来越多的人们开始关注音乐,关注乐器。乐器按一定的旋律进行组合发声形成音乐,不同的乐器发出的声音的特征不一样。乐器识别是音乐内容分析的一个中要问题,它可以为其他声源识别技术提供有效的参考。申请号为2018107298471的专利技术专利公开了音频数据的乐器识别方法及装置、电子设备、存储介质,包括:对待识别音频数据进行预处理;通过短时傅里叶变换将待识别音频数据从时域信号转换成预设窗口数量的频域信号;将预设窗口数量的频域信号从频率标度转换为梅尔标度,得到梅尔谱图;将梅尔谱图输入预先构建的乐器识别模型,得到待识别音频数据所使用的乐器种类。本专利技术提供的方案,解决了现有技术无法识别出复调音乐中所使用乐器种类的缺陷,通过预先构建的乐器识别模型对待识别音频数据的梅尔谱图进行处理,进而可以识别出复调音乐中所使用的乐器种类。该技术方案采用短时傅里叶变换将待识别音频数据从时域信号转换成预设窗口数量的频域信号,短时傅里叶变换不能兼顾时间分辨率和频率分辨率,不能较好提取非稳态信号,对于基频的信息提取有所欠缺。同时该技术方案使用卷积模型卷积层学习到的特征之间没有做重要性区分,制约了识别能力的进一步提高。申请号为2014100085334的专利技术专利公开了一种乐器信号的分类方法,包括相空间重构模块,主成分分析模块,特征提取模块和柔性神经树模块。特征在于实施步骤是对不同乐器样本信号产生的时间序列进行相空间重构,通过主成分分析去除冗余信息,达到降维目的,再通过分析各种乐器特性,采用概率密度函数来刻画各个乐器在相空间中的差异,最后,采用柔性神经树模型作为分类器来进行分类,它能够有效的解决人工神经网络结构的高度依赖性问题,可以使单个乐器的分类准确率最高达到了98.7%。该技术方案采用主成分分析法,会不可避免的丢弃一些对提升识别效率有帮助的特征,同时该技术方案只是对单乐器的音频做了识别,无法有效地应用于复调音乐的识别。
技术实现思路
针对现有技术中上述的不足,本专利技术提供一种基于SE卷积网络的乐器识别方法和系统,该方法将待识别音频文件转换为自相关谱图,自相关谱图采用自相关算法,能够有效克服短时傅里叶变换的不足,能够兼顾时间分辨率和频率分辨率,利用预先构建的乐器识别模型对自相关谱图进行处理,能够识别出音频数据所使用的乐器种类,对真实场景的复调音乐有着较高的识别率,且识别速度较快,可以极大地降低人工成本,节省时间,提升效率。为了达到上述目的,本专利技术采用的解决方案是:一种基于SE卷积网络的乐器识别方法,包括如下步骤:待识别数据预处理,将待识别音频文件转换为待识别自相关谱图;待识别数据识别,将待识别自相关谱图输入预先构建的乐器识别模型进行识别,得到一个s行num_ins列的矩阵,其中s代表音乐被切分的片段数目,num_ins代表可识别的乐器种类数;乐器解析,将乐器识别模型的输出结果矩阵整合解析为自然语言表示的乐器标签。所述的将待识别音频文件转换为待识别自相关谱图包括如下子步骤:将待识别音频文件解码为wave格式,并归一化至(-1~1);将wave格式的音频文件通过平均得到单声道的音频;将单声道的音频降采样;对降采样后的音频进行切段;对切好的段进行自相关谱计算,得到自相关谱;将自相关谱表示的频率转换为对数度量;将对数度量的自相关谱中的数值归一化至(-1~1)。所述的自相关谱计算包括如下步骤:对切段后的音频数据分帧;对每个数据分帧的数据做窗函数运算;将加窗运算后的数据分帧分别进行自相关运算,如下式所示:τ代表延迟,acfxx[τ]是自相关函数的值,N为帧长度,n为采样点序号;取不同的τ重复自相关运算,将得到的自相关函数值按τ值从小到大排列起来,组成一个自相关向量,在得到向量后,根据时间顺序在频率轴上将每帧得到的自相关向量排列起来组成一个矩阵;对该矩阵进行转置,使其横轴代表时间,纵轴代表频率,得到自相关谱。所述的将自相关谱表示的频率转换为对数度量包括如下步骤:计算自相关谱矩阵行索引值对应的绝对频率,计算公式如下所示:其中,fabs为绝对频率,I为索引,S为采样率,b是索引数目,S/2是根据奈奎斯特采样定理求出的当前采样率下能表示的最大频率;计算梅尔频率的滤波器组;将绝对频率分别与滤波器组复合,得到复合后的向量即为对数度量。所述的将待识别自相关谱图输入预先构建的乐器识别模型进行识别包括如下步骤:通过预先构建的乐器识别模型对待识别自相关谱图进行初步卷积计算,然后将卷积结果进行第一次最大池化处理,然后将第一次最大池化后的结果进行2次fire模块计算,将2次fire模块计算后的数据进行第二次最大池化处理,将第二次最大池化处理后的数据进行第三、第四次fire模块计算,第三、第四次fire模块计算后的数据进行第三次最大池化处理,第三次最大池化处理后的数据进行第五、第六次fire模块计算,第五、第六次fire模块计算后的数据进行一次卷积,然后对卷积后的数据进行批标准化,将标准化后的数据传输到SE模块进行处理,处理后的数据再依次进行卷积和批标准化,然后再将数据进行全局平均化,得到输出结果。所述的将乐器识别模型的输出结果矩阵整合解析为自然语言表示的乐器标签包括如下步骤:在S所在的轴上将输出结果矩阵的行向量加起来,得到shape为(num_ins)的向量;对向量做归一化;将归一化后的数据与阈值进行比较,判断存在的乐器的种类。所述的乐器识别模型的构建包括如下步骤:训练样本预处理,将训练样本音频文件转换为训练样本自相关谱图,将音频标签转换为与音频文件对应的标签向量;识别模型训练,将训练样本自相关谱图和音频文件对应的标签向量输入深度学习模型训练,得到乐器识别模型。所述的音频标签通过独热码转换为与音频对应的标签向量。所述的将训练样本自相关谱图和音频文件对应的标签向量输入深度学习模型训练,得到乐器识别模型,包括:将训练样本自相关谱图按训练集和验证集分割后输入深度学习模型训练,得到训练输出结果;将训练输出结果结合标签向量进行损失函数计算,得到损失函数值;判断损失函数值是否满足早停策略,若满足则训练完成,进行参数恢复后保存模型作为识别模型;若不满足则使用优化算法对深度学习模型进行参数优化,上述训练过程,直至满足早停策略。基于SE卷积网络的乐器识别方法的系统,包括:预处理模块,用于将待识别音频数据转换为待识别自相关谱图;音频识别模块,用于将待识别自相关谱图输入预先构建的乐器识别模型进行识别,得到识别结果;乐器解析模块,将乐器识别模型的识别结果整合解析为自然语言表示的乐器标签。本专利技术的有益效果是:(1)该方法将待识别音频文件转换为自相关谱图,自相关谱图采用自相关算法,能够有效克服短时傅里叶变换的不足,能够兼顾时间分辨率和频率分辨率,利用预先构建的乐器识别模型对自相关谱图进行处理,能够识别出音频数据所使用的乐器种类,对真实场景的复调音乐有着较高的识别率,且识别速度较快,可以极大地降低人工成本,节省时间,提升效率。(2)深度学习模型中使本文档来自技高网...
【技术保护点】
1.一种基于SE卷积网络的乐器识别方法,其特征在于:包括如下步骤:待识别数据预处理,将待识别音频文件转换为待识别自相关图谱;待识别数据识别,将待识别自相关图谱输入预先构建的乐器识别模型进行识别,得到一个s行num_ins列的矩阵,其中s代表音乐被切分的片段数目,num_ins代表可识别的乐器种类数;乐器解析,将乐器识别模型的输出结果矩阵整合解析为自然语言表示的乐器标签。
【技术特征摘要】
1.一种基于SE卷积网络的乐器识别方法,其特征在于:包括如下步骤:待识别数据预处理,将待识别音频文件转换为待识别自相关图谱;待识别数据识别,将待识别自相关图谱输入预先构建的乐器识别模型进行识别,得到一个s行num_ins列的矩阵,其中s代表音乐被切分的片段数目,num_ins代表可识别的乐器种类数;乐器解析,将乐器识别模型的输出结果矩阵整合解析为自然语言表示的乐器标签。2.根据权利要求1所述的基于SE卷积网络的乐器识别方法,其特征在于:所述的将待识别音频文件转换为待识别自相关图谱包括如下子步骤:将待识别音频文件解码为wave格式,并归一化至(-1~1);将wave格式的音频文件通过平均得到单声道的音频;将单声道的音频降采样;对降采样后的音频进行切段;对切好的段进行自相关谱计算,得到自相关谱;将自相关谱表示的频率转换为对数度量;将对数度量的自相关谱中的数值归一化至(-1~1)。3.根据权利要求2所述的基于SE卷积网络的乐器识别方法,其特征在于:所述的自相关谱计算包括如下步骤:对切段后的音频数据分帧;对每个数据分帧的数据做窗函数运算;将加窗运算后的数据分帧分别进行自相关运算,如下式所示:τ代表延迟,acfxx[τ]是自相关函数的值,N为帧长度,n为采样点序号;取不同的τ重复自相关运算,将得到的自相关函数值按τ值从小到大排列起来,组成一个自相关向量,在得到向量后,根据时间顺序在频率轴上将每帧得到的自相关向量排列起来组成一个矩阵;对该矩阵进行转置,使其横轴代表时间,纵轴代表频率,得到自相关谱。4.根据权利要求2所述的基于SE卷积网络的乐器识别方法,其特征在于:所述的将自相关谱表示的频率转换为对数度量包括如下步骤:计算自相关谱矩阵行索引值对应的绝对频率,计算公式如下所示:其中,fabs为绝对频率,I为索引,S为采样率,b是索引数目,S/2是根据奈奎斯特采样定理求出的当前采样率下能表示的最大频率;计算梅尔频率的滤波器组;将绝对频率分别与滤波器组复合,得到复合后的向量即为对数度量。5.根据权利要求1所述的基于SE卷积网络的乐器识别方法,其特征在于:所述的将待识别自相关图谱输入预先构建的乐器识别模型进行识别包括如下步骤:通过预先构建的乐器识别模型对待识别自相关图谱进行初步卷积计算,然后将卷积结果进行第一次最大池化处理,然后将第一次最大池化后的结果进行2...
【专利技术属性】
技术研发人员:尹学渊,祁松茂,江天宇,
申请(专利权)人:成都嗨翻屋科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。