节拍检测模型的训练方法、节拍检测方法及装置制造方法及图纸

技术编号:29590335 阅读:24 留言:0更新日期:2021-08-06 19:50
本公开关于一种节拍检测模型的训练方法、节拍检测方法及装置。该训练方法包括:获取训练音频数据集,其中,训练音频数据集包括多个音频数据和每个音频数据对应的节拍标注信息;获取音频数据的梅尔谱特征;获取音频数据中每帧数据的音符起始点概率,其中,音符起始点概率表示音频数据中每帧数据是音符起始点的概率;将音符起始点概率与梅尔谱特征输入节拍检测模型,得到估计的音频数据中每帧数据的节拍点概率,其中,节拍点概率表示音频数据中每帧数据是节拍点的概率;基于节拍点概率和音频数据对应的节拍标注信息确定目标损失函数,通过目标损失函数调整节拍检测模型的参数,对节拍检测模型进行训练。

【技术实现步骤摘要】
节拍检测模型的训练方法、节拍检测方法及装置
本公开涉及音频领域,尤其涉及一种节拍检测模型的训练方法、节拍检测方法及装置。
技术介绍
节拍是音乐在时间上的基本单位,是由一组强弱规律组织而成。节拍检测方法是音乐信息检索领域的一项重要任务,主要是通过分析音乐的特性自动识别音乐中节拍点位置。节拍检测在现实生活中有多种多样的应用,如音乐可视化、游戏制作和音乐风格迁移等,因此,准确高效的节拍检测方法有重要的应用意义。近些年来,深度学习被越来越多的应用到节拍检测方法中来提升传统算法的效果。目前,基于深度学习的节拍检测方法,不需要估计音符起始点的位置,依赖于较少的先验知识,较多数据的支撑下可以得到总体优于传统节拍检测方法的检测效果,但是在数据集没有覆盖到的情况下并没有比传统节拍检测好,有时比传统节拍检测方法的结果还要差。而现有的节拍检测数据集有限且存在标注有误的情况,导致神经网络模型有异常估计的情况;并且为了增加神经网络模型的鲁棒性以及适应于各种不同的音乐类型,神经网络模型的大小一般较大,导致不能实时的预测。
技术实现思路
本公开提供一种节拍检测模型的训练方法、节拍检测方法及装置,以至少解决相关技术中训练出的节拍检测模型范化能力差且模型大小较大,难以实现实时的预测的问题。根据本公开实施例的第一方面,提供一种节拍检测模型的训练方法,包括:获取训练音频数据集,其中,训练音频数据集包括多个音频数据和每个音频数据对应的节拍标注信息;获取音频数据的梅尔谱特征;获取音频数据中每帧数据的音符起始点概率,其中,音符起始点概率表示音频数据中每帧数据是音符起始点的概率;将音符起始点概率与梅尔谱特征输入节拍检测模型,得到估计的音频数据中每帧数据的节拍点概率,其中,节拍点概率表示音频数据中每帧数据是节拍点的概率;基于节拍点概率和音频数据对应的节拍标注信息确定目标损失函数,通过目标损失函数调整节拍检测模型的参数,对节拍检测模型进行训练。可选地,将音符起始点概率与梅尔谱特征输入节拍检测模型,得到估计的音频数据中每帧数据是节拍点概率,包括:将音频数据中每帧数据的音符起始点概率与对应的梅尔谱特征进行拼接;将拼接结果输入节拍检测模型,得到音频数据中每帧数据的节拍点概率。可选地,音符起始点概率是利用频域差分方法对音频数据执行音频节奏检测得到的。可选地,利用频域差分方法对音频数据执行音频节奏检测,包括:基于音频数据的梅尔谱特征对音频数据中相邻两帧数据进行归一化处理;针对所述音频数据中每帧数据,对归一化处理后的当前帧数据的特征与上一帧数据的特征进行差分运算,得到当前帧数据所有频率点上的差分运算后的特征,其中,归一化处理后的第一帧数据的差分运算后的特征为预先设定的;获取差分运算后的每帧数据所有频率点上的特征的平均值;将平均值输入双曲正切函数,得到音频数据中每帧数据的音符起始点概率。可选地,获取音频数据的梅尔谱特征包括:通过短时傅里叶变换获取音频数据的时频域特征;基于时频域特征获取音频数据的梅尔谱特征。根据本公开实施例的第二方面,提供一种节拍检测方法,包括:获取待检测音频数据;获取待检测音频数据的梅尔谱特征;获取待检测音频数据中每帧数据的音符起始点概率,其中,音符起始点概率表示待检测音频数据中每帧数据是音符起始点的概率;将音符起始点概率与梅尔谱特征输入到训练好的节拍检测模型中,得到估计的待检测音频数据中每帧数据的节拍点概率,其中,节拍点概率表示待检测音频数据中每帧数据是节拍点的概率。可选地,在得到估计的待检测音频数据中每帧数据的节拍点概率之后,还包括:基于音符起始点概率和节拍点概率,确定最终的节拍点概率。可选地,基于音符起始点概率和节拍点概率,获取最终的节拍点概率,包括:在节拍点概率大于预定阈值时,将节拍点概率作为最终的节拍点概率;在节拍点概率小于等于预定阈值且音符起始点概率大于预定阈值时,将音符起始点概率作为最终的节拍点概率;在节拍点概率和音符起始点概率均小于等于预定阈值时,并获取节拍点概率与预定比例的第一乘积、音符起始点概率与(1-预定比例)的第二乘积,将第一乘积和第二乘积的和作为最终的节拍点概率。可选地,在得到估计的待检测音频数据中每帧数据的节拍点概率之后,还包括:基于节拍点概率,获得待检测音频数据的节拍检测结果。可选地,将音符起始点概率与梅尔谱特征输入到训练好的节拍检测模型中,得到估计的待检测音频数据中每帧数据的节拍点概率,包括:将待检测音频数据中每帧数据的音符起始点率与对应的梅尔谱特征进行拼接;将拼接结果输入到训练好的节拍检测模型,得到估计的待检测音频数据中每帧数据的节拍点概率。可选地,音符起始点概率是利用频域差分方法对待检测音频数据执行音频节奏检测得到的。可选地,利用频域差分方法对待检测音频数据执行音频节奏检测,包括:基于待检测音频数据的梅尔谱特征对待检测音频数据中相邻两帧数据进行归一化处理;针对所述待检测音频数据中每帧数据,对归一化处理后的当前帧数据的特征与上一帧数据的特征进行差分运算,得到当前帧数据所有频率点上的差分运算后的特征,其中,归一化处理后的第一帧数据的差分运算后的特征为预先设定的;获取差分运算后的每帧数据所有频率点上的特征的平均值;将平均值输入双曲正切函数,得到待检测音频数据中每帧数据的音符起始点概率。可选地,获取待检测音频数据的梅尔谱特征包括:通过短时傅里叶变换获取待检测音频数据的时频域特征;基于时频域特征获取待检测音频数据的梅尔谱特征。可选地,节拍检测模型通过上述任一节拍检测模型的训练方法训练得到的。根据本公开实施例的第三方面,提供一种节拍检测模型的训练装置,包括:第一获取单元,用于获取训练音频数据集,其中,训练音频数据集包括多个音频数据和每个音频数据对应的节拍标注信息;第二获取单元,用于获取音频数据的梅尔谱特征;第三获取单元,用于获取音频数据中每帧数据的音符起始点概率,其中,音符起始点概率表示音频数据中每帧数据是音符起始点的概率;估计单元,用于将音频起始点概率与梅尔谱特征输入节拍检测模型,得到估计的音频数据中每帧数据的节拍点概率,其中,节拍点概率表示音频数据中每帧数据是节拍点的概率;确定单元,用于基于节拍点概率和音频数据对应的节拍标注信息确定目标损失函数;训练单元,用于通过目标损失函数调整节拍检测模型的参数,对节拍检测模型进行训练。可选地,估计单元,还用于将音频数据中每帧数据的音符起始点概率与对应的梅尔谱特征进行拼接;将拼接结果输入节拍检测模型,得到音频数据中每帧数据的节拍点概率。可选地,第三获取单元,还用于利用频域差分方法对音频数据执行音频节奏检测得到音符起始点概率。可选地,第三获取单元,还用于基于音频数据的梅尔谱特征对音频数据中相邻两帧数据进行归一化处理;针对所述音频数据中每帧数据对归一化处理后的当前帧数据的特征与上一帧数据的特征进行差分运算,得到当前帧数据所有频率点上的差分运算后的特征,其中,归一化处理后的第一帧数据的差分运算后的特征为预先设定的;获取差分运算后的每帧数据所有频率点上的特征的平均值;将本文档来自技高网...

【技术保护点】
1.一种节拍检测模型的训练方法,其特征在于,包括:/n获取训练音频数据集,其中,所述训练音频数据集包括多个音频数据和每个音频数据对应的节拍标注信息;/n获取所述音频数据的梅尔谱特征;/n获取所述音频数据中每帧数据的音符起始点概率,其中,所述音符起始点概率表示所述音频数据中每帧数据是音符起始点的概率;/n将所述音符起始点概率与所述梅尔谱特征输入节拍检测模型,得到估计的所述音频数据中每帧数据的节拍点概率,其中,所述节拍点概率表示所述音频数据中每帧数据是节拍点的概率;/n基于所述节拍点概率和所述音频数据对应的节拍标注信息确定目标损失函数;/n通过所述目标损失函数调整所述节拍检测模型的参数,对所述节拍检测模型进行训练。/n

【技术特征摘要】
1.一种节拍检测模型的训练方法,其特征在于,包括:
获取训练音频数据集,其中,所述训练音频数据集包括多个音频数据和每个音频数据对应的节拍标注信息;
获取所述音频数据的梅尔谱特征;
获取所述音频数据中每帧数据的音符起始点概率,其中,所述音符起始点概率表示所述音频数据中每帧数据是音符起始点的概率;
将所述音符起始点概率与所述梅尔谱特征输入节拍检测模型,得到估计的所述音频数据中每帧数据的节拍点概率,其中,所述节拍点概率表示所述音频数据中每帧数据是节拍点的概率;
基于所述节拍点概率和所述音频数据对应的节拍标注信息确定目标损失函数;
通过所述目标损失函数调整所述节拍检测模型的参数,对所述节拍检测模型进行训练。


2.如权利要求1所述的训练方法,其特征在于,所述将所述音符起始点概率与所述梅尔谱特征输入节拍检测模型,得到估计的所述音频数据中每帧数据是节拍点概率,包括:
将所述音频数据中每帧数据的音符起始点概率与对应的梅尔谱特征进行拼接;
将拼接结果输入所述节拍检测模型,得到所述音频数据中每帧数据的节拍点概率。


3.如权利要求1所述的训练方法,其特征在于,所述音符起始点概率是利用频域差分方法对所述音频数据执行音频节奏检测得到的。


4.如权利要求3所述的训练方法,其特征在于,所述利用频域差分方法对所述音频数据执行音频节奏检测,包括:
基于所述音频数据的梅尔谱特征对所述音频数据中相邻两帧数据进行归一化处理;
针对所述音频数据中每帧数据,对归一化处理后的当前帧数据的特征与上一帧数据的特征进行差分运算,得到当前帧数据所有频率点上的差分运算后的特征,其中,归一化处理后的第一帧数据的差分运算后的特征为预先设定的;
获取差分运算后的每帧数据所有频率点上的特征的平均值;
将所述平均值输入双曲正切函数,得到所述音频数据中每帧数据的音符起始点概率。


5.一种节拍检测方法,其特征在于,包括:
获取待检测音频数据;
获取所述待检测音频数据的梅尔谱特征;
获取所述待检测音频数据中每帧数据的音符起始点概率,其中,所述音符起始点概率表示所述待检测音频数据中每帧数据是音符起始点的概率;
将所述音符起始点概率与所述梅尔谱特征输入到训练好的节拍检测模型中,得到估计的所述待检测音频数据中每帧数据...

【专利技术属性】
技术研发人员:崔凡张晨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1