节拍检测模型的训练方法、节拍检测方法及装置制造方法及图纸

技术编号：29590335 阅读：24 留言：0更新日期：2021-08-06 19:50

本公开关于一种节拍检测模型的训练方法、节拍检测方法及装置。该训练方法包括：获取训练音频数据集，其中，训练音频数据集包括多个音频数据和每个音频数据对应的节拍标注信息；获取音频数据的梅尔谱特征；获取音频数据中每帧数据的音符起始点概率，其中，音符起始点概率表示音频数据中每帧数据是音符起始点的概率；将音符起始点概率与梅尔谱特征输入节拍检测模型，得到估计的音频数据中每帧数据的节拍点概率，其中，节拍点概率表示音频数据中每帧数据是节拍点的概率；基于节拍点概率和音频数据对应的节拍标注信息确定目标损失函数，通过目标损失函数调整节拍检测模型的参数，对节拍检测模型进行训练。

全部详细技术资料下载

【技术实现步骤摘要】
节拍检测模型的训练方法、节拍检测方法及装置
本公开涉及音频领域，尤其涉及一种节拍检测模型的训练方法、节拍检测方法及装置。
技术介绍
节拍是音乐在时间上的基本单位，是由一组强弱规律组织而成。节拍检测方法是音乐信息检索领域的一项重要任务，主要是通过分析音乐的特性自动识别音乐中节拍点位置。节拍检测在现实生活中有多种多样的应用，如音乐可视化、游戏制作和音乐风格迁移等，因此，准确高效的节拍检测方法有重要的应用意义。近些年来，深度学习被越来越多的应用到节拍检测方法中来提升传统算法的效果。目前，基于深度学习的节拍检测方法，不需要估计音符起始点的位置，依赖于较少的先验知识，较多数据的支撑下可以得到总体优于传统节拍检测方法的检测效果，但是在数据集没有覆盖到的情况下并没有比传统节拍检测好，有时比传统节拍检测方法的结果还要差。而现有的节拍检测数据集有限且存在标注有误的情况，导致神经网络模型有异常估计的情况；并且为了增加神经网络模型的鲁棒性以及适应于各种不同的音乐类型，神经网络模型的大小一般较大，导致不能实时的预测。
技术实现思路
本公开提供一种节拍检测模型的训练方法、节拍检测方法及装置，以至少解决相关技术中训练出的节拍检测模型范化能力差且模型大小较大，难以实现实时的预测的问题。根据本公开实施例的第一方面，提供一种节拍检测模型的训练方法，包括：获取训练音频数据集，其中，训练音频数据集包括多个音频数据和每个音频数据对应的节拍标注信息；获取音频数据的梅尔谱特征；获取音频数据中每帧数据的音符起始点概率，其中，音...

【技术保护点】
1.一种节拍检测模型的训练方法，其特征在于，包括：/n获取训练音频数据集，其中，所述训练音频数据集包括多个音频数据和每个音频数据对应的节拍标注信息；/n获取所述音频数据的梅尔谱特征；/n获取所述音频数据中每帧数据的音符起始点概率，其中，所述音符起始点概率表示所述音频数据中每帧数据是音符起始点的概率；/n将所述音符起始点概率与所述梅尔谱特征输入节拍检测模型，得到估计的所述音频数据中每帧数据的节拍点概率，其中，所述节拍点概率表示所述音频数据中每帧数据是节拍点的概率；/n基于所述节拍点概率和所述音频数据对应的节拍标注信息确定目标损失函数；/n通过所述目标损失函数调整所述节拍检测模型的参数，对所述节拍检测模型进行训练。/n

【技术特征摘要】
1.一种节拍检测模型的训练方法，其特征在于，包括：
获取训练音频数据集，其中，所述训练音频数据集包括多个音频数据和每个音频数据对应的节拍标注信息；
获取所述音频数据的梅尔谱特征；
获取所述音频数据中每帧数据的音符起始点概率，其中，所述音符起始点概率表示所述音频数据中每帧数据是音符起始点的概率；
将所述音符起始点概率与所述梅尔谱特征输入节拍检测模型，得到估计的所述音频数据中每帧数据的节拍点概率，其中，所述节拍点概率表示所述音频数据中每帧数据是节拍点的概率；
基于所述节拍点概率和所述音频数据对应的节拍标注信息确定目标损失函数；
通过所述目标损失函数调整所述节拍检测模型的参数，对所述节拍检测模型进行训练。

2.如权利要求1所述的训练方法，其特征在于，所述将所述音符起始点概率与所述梅尔谱特征输入节拍检测模型，得到估计的所述音频数据中每帧数据是节拍点概率，包括：
将所述音频数据中每帧数据的音符起始点概率与对应的梅尔谱特征进行拼接；
将拼接结果输入所述节拍检测模型，得到所述音频数据中每帧数据的节拍点概率。

3.如权利要求1所述的训练方法，其特征在于，所述音符起始点概率是利用频域差分方法对所述音频数据执行音频节奏检测得到的。

4.如权利要求3所述的训练方法，其特征在于，所述利用频域差分方法对所述音频数据执行音频节奏检测，包括：
基于所述音频数据的梅尔谱特征对所述音频数据中相邻两帧数据进行归一化处理；
针对所述音频数据中每帧数据，对归一化处理后的当前帧数据的特征与上一帧数据的特征进行差分运算，得到当前帧数据所有频率点上的差分运算后的特征，其中，归一化处理后的第一帧数据的差分运算后的特征为预先设定的；
获取差分运算后的每帧数据所有频率点上的特征的平均值；
将所述平均值输入双曲正切函数，得到所述音频数据中每帧数据的音符起始点概率。

5.一种节拍检测方法，其特征在于，包括：
获取待检测音频数据；
获取所述待检测音频数据的梅尔谱特征；
获取所述待检测音频数据中每帧数据的音符起始点概率，其中，所述音符起始点概率表示所述待检测音频数据中每帧数据是音符起始点的概率；
将所述音符起始点概率与所述梅尔谱特征输入到训练好的节拍检测模型中，得到估计的所述待检测音频数据中每帧数据...

【专利技术属性】
技术研发人员：崔凡，张晨，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人