一种音频节拍解析方法、车辆、计算机设备和程序产品技术

技术编号：44408631 阅读：4 留言：0更新日期：2025-02-25 10:21

本公开提供了一种音频节拍解析方法、车辆、计算机设备和程序产品，其中，该方法包括：对音频数据进行音频信号解析处理，得到所述音频数据的幅度谱特征数据、音高特征数据和节奏特征数据；对所述幅度谱特征数据、所述音高特征数据和所述节奏特征数据进行拼接，得到拼接特征数据；将所述拼接特征数据输入深度学习模型，依次经过与所述幅度谱特征数据、所述音高特征数据和所述节奏特征数据分别对应的特征提取器进行特征提取后，得到所述音频数据对应的节拍特征；其中，不同特征提取器对应的特征提取尺度不同；根据所述节拍特征，生成所述音频数据的节拍信息。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机，具体而言，涉及一种音频节拍解析方法、车辆、计算机设备和程序产品。

技术介绍

1、对音频数据中的节拍进行解析，可以更好地帮助用户理解和学习音乐。但是传统的音频节拍解析方式，不仅会出现节拍解析错位的问题，而且由于在对不同风格或节奏的音频数据进行解析时，采用同样的解析参数，导致无法捕捉到音乐风格的节奏变化和个性化表现，造成了解析出的节拍与音频数据的实际节拍严重不符的问题，影响了节拍解析的准确性。

技术实现思路

1、本公开实施例至少提供一种音频节拍解析方法、车辆、计算机设备和程序产品。

2、第一方面，本公开实施例提供了一种音频节拍解析方法，包括：

3、对音频数据进行音频信号解析处理，得到所述音频数据的幅度谱特征数据、音高特征数据和节奏特征数据；

4、对所述幅度谱特征数据、所述音高特征数据和所述节奏特征数据进行拼接，得到拼接特征数据；

5、将所述拼接特征数据输入深度学习模型，依次经过与所述幅度谱特征数据、所述音高特征数据和所述节奏特征数据分别对应的特征提取器进行特征提取后，得到所述音频数据对应的节拍特征；其中，不同特征提取器对应的特征提取尺度不同；

6、根据所述节拍特征，生成所述音频数据的节拍信息。

7、该实施方式，通过提取音频幅度维度上的幅度谱特征数据、音乐风格维度上的音高特征数据和节奏变化特征维度上的节奏特征数据，可以实现充分挖掘音频数据在各方面的特征数据，再通过将三个维度上的特征数据进行拼接，可以

8、在一种可能的实施方式中，每个所述特征提取器包括卷积层和注意力提取层；与所述幅度谱特征数据、所述音高特征数据和所述节奏特征数据分别对应的特征提取器中的卷积层的卷积尺度不同。

9、该实施方式，利用特征提取器中的卷积层对输入特征进行卷积处理，可以实现对输入特征中的细粒度特征的充分挖掘，再利用注意力提取层进行特征提取，可以提取出能够更加准确反映节拍特征的特征数据。且利用不同卷积尺度的卷积层对特征进行提取，可以实现对各个维度上的特征进行针对性的卷积处理，从而得到更准确的卷积特征。

10、在一种可能的实施方式中，将所述拼接特征数据输入深度学习模型，依次经过与所述幅度谱特征数据、所述音高特征数据和所述节奏特征数据分别对应的特征提取器进行特征提取后，得到所述音频数据对应的节拍特征，包括：

11、利用与所述幅度谱特征数据对应的第一特征提取器，对所述拼接特征数据进行特征提取，得到第一中间特征数据；

12、将所述第一中间特征和所述节奏特征数据拼接后输入与节奏特征数据对应的第二特征提取器，得到第二中间特征数据；

13、将所述第二中间特征和所述音高特征数据拼接后输入与所述音高特征数据对应的第三特征提取器，得到第三中间特征数据；

14、利用所述深度学习模型中的解码器，对所述第三中间特征数据进行特征解码处理，得到所述节拍特征。

15、该实施方式，利用第一特征提取器，可以建模出能够宏观上反映音频数据的音乐特征的第一中间特征数据，利用第二特征提取器对第一中间特征数据和节奏特征数据的拼接数据进行特征提取，可以建模出更微观的节奏变化特征(即第二中间特征数据)，最后再利用第三特征提取器对第二中间特征数据和音高特征数据的拼接数据进行特征提取，可以利用更高维度的特征表示整条音频数据，实现对音频数据的准确表征。最后利用解码器进行解码处理，可以得到准确的节拍特征。

16、在一种可能的实施方式中，所述对音频数据进行音频信号解析处理，得到所述音频数据的幅度谱特征数据、音高特征数据和节奏特征数据，包括：

17、对所述音频数据进行预处理，得到所述音频数据对应的每帧音频信号；所述预处理包括采样率标准化、音频数据分帧、音频信号归一化和音频信号去噪；

18、对每帧所述音频信号进行短时傅里叶变换，得到每帧所述音频信号的幅度谱特征、频率信息、以及每帧音频信号对应的频率特征点的能量；

19、根据每帧所述音频信号的频率信息，确定所述音频数据的音高特征数据；

20、根据每帧所述音频信号对应的频率特征点的能量，确定所述音频数据的节奏特征数据。

21、该实施方式，通过对音频数据进行预处理，可以提高模型的输入质量。通过对每帧音频信号进行短时傅里叶变化，可以实现对音频数据在时域和频域上的转换，得到准确地幅度谱特征、频率信息和频率特征点的能量。再利用频率信息和能量信息，可以解析出音频数据对应的准确的音高特征数据和节奏特征数据。

22、在一种可能的实施方式中，所述根据每帧所述音频信号对应的频率特征点的能量，确定所述音频数据的节奏特征数据，包括：

23、根据每个所述频率特征点的能量和位于所述频率特征点的预设时间间隔内的各个目标特征点的能量，从各个所述频率特征点中确定所述音频数据对应的各个节拍点；

24、根据各个节拍点的节拍时间和相邻节拍点之间的时间间隔，确定所述音频数据的每分钟节拍数；

25、根据所述相邻节拍点之间的时间间隔和所述每分钟节拍数，确定所述节奏特征数据。

26、该实施方式，利用频率特征点的能量以及附近时间的目标特征点的能量，可以准确确定出频率特征点是否为明显的节拍点。利用确定出的节拍点和节拍间隔，可以确定出能够表征节奏缓急的每分钟节拍数，再利用时间间隔和每分钟节拍数，可以得到能够准确反映节奏变化的节奏特征数据。

27、在一种可能的实施方式中，所述根据每个所述频率特征点的能量和位于所述频率特征点的预设时间间隔内的各个目标特征点的能量，从各个所述频率特征点中确定所述音频数据对应的各个节拍点，包括：

28、针对任一所述频率特征点，若所述频率特征点的能量超过预设阈值、且超过位于所述频率特征点的预设时间间隔内的各个目标特征点的能量，确定所述频率特征点为所述音频数据对应的一个节拍点。

29、该实施方式，能量峰值点通常为节拍点，在频率特征点的能量超过预设阈值且超过附近时间的目标特征点的能量的情况下，可以说明该频率特征点为一段时间内的峰值点，将该点作为节拍点可以实现对节拍点的准确识别。

30、在一种可能的实施方式中，所述方法还包括训练所述深度学习模型的步骤：

31、获取音频数据集；所述音频数据集中包括多个样本音频数据，不同的所述音频数据具有不同的音乐风格、不同的音乐节奏和不同的音乐时长；

32、对所述样本音频本文档来自技高网...

【技术保护点】

1.一种音频节拍解析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，每个所述特征提取器包括卷积层和注意力提取层；与所述幅度谱特征数据、所述音高特征数据和所述节奏特征数据分别对应的特征提取器中的卷积层的卷积尺度不同。

3.根据权利要求1或2所述的方法，其特征在于，将所述拼接特征数据输入深度学习模型，依次经过与所述幅度谱特征数据、所述音高特征数据和所述节奏特征数据分别对应的特征提取器进行特征提取后，得到所述音频数据对应的节拍特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述对音频数据进行音频信号解析处理，得到所述音频数据的幅度谱特征数据、音高特征数据和节奏特征数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据每帧所述音频信号对应的频率特征点的能量，确定所述音频数据的节奏特征数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据每个所述频率特征点的能量和位于所述频率特征点的预设时间间隔内的各个目标特征点的能量，从各个所述频率特征点中确定所述音频数据对应的各个节拍点，包括：</p>

7.根据权利要求1所述的方法，其特征在于，所述方法还包括训练所述深度学习模型的步骤：

8.一种车辆，其特征在于，包括控制器，所述控制器包括：

9.一种计算机设备，其特征在于，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述处理器执行如权利要求1至7任意一项所述的音频节拍解析方法的步骤。

10.一种计算机程序产品，其特征在于，所述计算机程序产品被计算机设备运行时，所述计算机设备执行如权利要求1至7任意一项所述的音频节拍解析方法的步骤。

...

【技术特征摘要】

1.一种音频节拍解析方法，其特征在于，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据每帧所述音频信号对应的频率特征点的能量，确定所述音频数据的节奏特征数据，包括：

...

【专利技术属性】
技术研发人员：张鹏，孙政浩，
申请(专利权)人：集度科技武汉有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人