音乐流派的识别方法、装置、设备及存储介质制造方法及图纸

技术编号:30228517 阅读:28 留言:0更新日期:2021-09-29 09:57
本发明专利技术涉及人工智能领域,公开了一种音乐流派的识别方法、装置、设备及存储介质。所述音乐流派的识别方法包括:接收待识别的音频文件,并获取音频文件的梅尔频谱;基于梅尔频谱,获取音频文件的时域向量和频域向量;通过训练好的流派特征提取模型对时域向量和频域向量进行特征提取,得到时域特征向量和频域特征向量;通过预置的特征编码器对时域特征向量和频域特征向量进行特征编码,得到音频文件对应的目标特征向量;将目标特征向量输入预置的流派分类器进行流派分类,得到音频文件对应的流派信息。此外,本发明专利技术还涉及区块链技术,流派信息可存储于区块链节点中。可存储于区块链节点中。可存储于区块链节点中。

【技术实现步骤摘要】
音乐流派的识别方法、装置、设备及存储介质


[0001]本专利技术涉及语音分类领域,尤其涉及一种音乐流派的识别方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网的发展,线上音乐成为了人们生活娱乐中的重要成分,正因为此,催生出了海量的互联网音乐和线上音乐平台,供人们获得喜爱的音乐。在用户检索音乐时,可以有多种个性化的标签检索方式,例如通过音乐流派标签或者音乐语言标签来检索音乐,使得音乐的分类检索效率更高。
[0003]现有的音乐流派识别技术发展比较落后,大多是使用机器学习的方式进行流派识别,并且识别精度较低,例如使用机器学习进行特征工程,并使用传统分类器(支持向量机SVM等)进行分类,在音乐流派识别上存在准确率低的技术问题。

技术实现思路

[0004]本专利技术提供了一种音乐流派的识别方法、装置、设备及存储介质,用于提高音乐流派识别的准确率。
[0005]本专利技术第一方面提供了一种音乐流派的识别方法,包括:
[0006]接收待识别的音频文件,并获取所述音频文件的梅尔频谱;
[0007]基于所述梅尔频谱,获取所述音频文件的时域向量和频域向量;
[0008]通过训练好的流派特征提取模型对所述时域向量和所述频域向量进行特征提取,得到时域特征向量和频域特征向量;
[0009]通过预置的特征编码器对所述时域特征向量和所述频域特征向量进行特征编码,得到所述音频文件对应的目标特征向量;
[0010]将所述目标特征向量输入预置的流派分类器进行流派分类,得到所述音频文件对应的流派信息。
[0011]可选的,在本专利技术第一方面的第一种实现方式中,在所述接收待识别的音频文件,并获取所述音频文件的梅尔频谱之前,所述音乐流派的识别方法还包括:
[0012]随机初始化初始流派特征提取模型的激活层、卷积层和池化层,并获取带标注的音频样本数据;
[0013]通过所述初始流派特征提取模型的激活层、卷积层和池化层,对所述音频样本数据进行流派特征提取,得到初始特征向量;
[0014]根据所述初始特征向量,计算所述初始流派特征提取模型的交叉熵函数,并判断所述交叉熵函数是否满足预置损失条件;
[0015]若所述交叉熵函数满足预置损失条件,则生成训练好的流派特征提取模型。
[0016]可选的,在本专利技术第一方面的第二种实现方式中,所述接收待识别的音频文件,并获取所述音频文件的梅尔频谱,包括:
[0017]接收待识别的音频文件,并提取所述音频文件中的音频信号;
[0018]按照预置长度的时间窗,对所述音频信号进行分帧处理,得到多帧音频信号片段;
[0019]分别对每帧音频信号片段进行短时傅里叶变换,得到所述音频文件对应的频域信号;
[0020]通过预置的梅尔标度滤波器组,将所述频域信号映射到梅尔频域,得到所述音频文件的梅尔频谱。
[0021]可选的,在本专利技术第一方面的第三种实现方式中,所述基于所述梅尔频谱,获取所述音频文件的时域向量和频域向量,包括:
[0022]根据所述梅尔频谱中的梅尔频率域,提取所述音频文件的时域信息和频域信息;
[0023]基于预置的卷积核,对所述时域信息和所述频域信息进行卷积计算,得到所述音频文件的时域向量和频域向量。
[0024]可选的,在本专利技术第一方面的第四种实现方式中,所述通过训练好的流派特征提取模型对所述时域向量和所述频域向量进行特征提取,得到时域特征向量和频域特征向量,包括:
[0025]将所述时域向量和所述频域向量依次输入训练好的流派特征提取模型的激活层进行非线性激活,得到第一时域特征矩阵和第一频域特征矩阵;
[0026]通过所述流派特征提取模型的卷积层,对所述第一时域特征矩阵和所述第一频域特征矩阵进行特征变换处理,得到第二时域特征矩阵和第二频域特征矩阵;
[0027]通过所述流派特征提取模型的池化层,对所述第二时域特征矩阵和所述第二频域特征矩阵进行降采样,得到时域特征向量和频域特征向量。
[0028]可选的,在本专利技术第一方面的第五种实现方式中,所述通过预置的特征编码器对所述时域特征向量和所述频域特征向量进行特征编码,得到所述音频文件对应的目标特征向量,包括:
[0029]将所述时域特征向量和所述频域特征向量进行融合,得到目标特征矩阵;
[0030]通过预置的特征编码器的多头注意力层,对所述目标特征矩阵进行特征编码,得到所述目标特征矩阵对应的注意力特征矩阵;
[0031]通过所述特征编码器的前向神经网络层,对所述注意力特征矩阵进行上下文关联特征编码,得到所述音频文件对应的目标特征向量。
[0032]可选的,在本专利技术第一方面的第六种实现方式中,所述将所述目标特征向量输入预置的流派分类器进行流派分类,得到所述音频文件对应的流派信息,包括:
[0033]通过预置的归一化函数,对所述目标特征向量进行流派归一化处理,得到所述音频文件对应的流派标签;
[0034]通过预置的流派分类器的全连接层,对所述音频文件对应的流派标签进行流派分类,得到所述音频文件对应的流派信息。
[0035]本专利技术第二方面提供了一种音乐流派的识别装置,包括:
[0036]接收模块,用于接收待识别的音频文件,并获取所述音频文件的梅尔频谱;
[0037]获取模块,用于基于所述梅尔频谱,获取所述音频文件的时域向量和频域向量;
[0038]提取模块,用于通过训练好的流派特征提取模型对所述时域向量和所述频域向量进行特征提取,得到时域特征向量和频域特征向量;
[0039]编码模块,用于通过预置的特征编码器对所述时域特征向量和所述频域特征向量进行特征编码,得到所述音频文件对应的目标特征向量;
[0040]分类模块,用于将所述目标特征向量输入预置的流派分类器进行流派分类,得到所述音频文件对应的流派信息。
[0041]可选的,在本专利技术第二方面的第一种实现方式中,所述音乐流派的识别装置还包括:
[0042]模型初始化模块,用于随机初始化初始流派特征提取模型的激活层、卷积层和池化层,并获取带标注的音频样本数据;
[0043]特征提取模块,用于通过所述初始流派特征提取模型的激活层、卷积层和池化层,对所述音频样本数据进行流派特征提取,得到初始特征向量;
[0044]损失计算模块,用于根据所述初始特征向量,计算所述初始流派特征提取模型的交叉熵函数,并判断所述交叉熵函数是否满足预置损失条件;
[0045]模型生成模块,用于若所述交叉熵函数满足预置损失条件,则生成训练好的流派特征提取模型。
[0046]可选的,在本专利技术第二方面的第二种实现方式中,所述接收模块具体用于:
[0047]接收待识别的音频文件,并提取所述音频文件中的音频信号;
[0048]按照预置长度的时间窗,对所述音频信号进行分帧处理,得到多帧音频信号片段;
[0049]分别对每帧音频信号片段进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音乐流派的识别方法,其特征在于,所述音乐流派的识别方法包括:接收待识别的音频文件,并获取所述音频文件的梅尔频谱;基于所述梅尔频谱,获取所述音频文件的时域向量和频域向量;通过训练好的流派特征提取模型对所述时域向量和所述频域向量进行特征提取,得到时域特征向量和频域特征向量;通过预置的特征编码器对所述时域特征向量和所述频域特征向量进行特征编码,得到所述音频文件对应的目标特征向量;将所述目标特征向量输入预置的流派分类器进行流派分类,得到所述音频文件对应的流派信息。2.根据权利要求1所述的音乐流派的识别方法,其特征在于,在所述接收待识别的音频文件,并获取所述音频文件的梅尔频谱之前,所述音乐流派的识别方法还包括:随机初始化初始流派特征提取模型的激活层、卷积层和池化层,并获取带标注的音频样本数据;通过所述初始流派特征提取模型的激活层、卷积层和池化层,对所述音频样本数据进行流派特征提取,得到初始特征向量;根据所述初始特征向量,计算所述初始流派特征提取模型的交叉熵函数,并判断所述交叉熵函数是否满足预置损失条件;若所述交叉熵函数满足预置损失条件,则生成训练好的流派特征提取模型。3.根据权利要求1所述的音乐流派的识别方法,其特征在于,所述接收待识别的音频文件,并获取所述音频文件的梅尔频谱,包括:接收待识别的音频文件,并提取所述音频文件中的音频信号;按照预置长度的时间窗,对所述音频信号进行分帧处理,得到多帧音频信号片段;分别对每帧音频信号片段进行短时傅里叶变换,得到所述音频文件对应的频域信号;通过预置的梅尔标度滤波器组,将所述频域信号映射到梅尔频域,得到所述音频文件的梅尔频谱。4.根据权利要求1所述的音乐流派的识别方法,其特征在于,所述基于所述梅尔频谱,获取所述音频文件的时域向量和频域向量,包括:根据所述梅尔频谱中的梅尔频率域,提取所述音频文件的时域信息和频域信息;基于预置的卷积核,对所述时域信息和所述频域信息进行卷积计算,得到所述音频文件的时域向量和频域向量。5.根据权利要求1所述的音乐流派的识别方法,其特征在于,所述通过训练好的流派特征提取模型对所述时域向量和所述频域向量进行特征提取,得到时域特征向量和频域特征向量,包括:将所述时域向量和所述频域向量依次输入训练好的流派特征提取模型的激活层进行非线性激活,得到第一时域特征矩阵和第一频域特征矩阵;通过所述流派特征提取模型的卷积层,对所述第一时域特征矩阵和所述第一频域特征矩阵进...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1