音频事件检测方法、装置、电子设备、存储介质及产品制造方法及图纸

技术编号：42371190 阅读：14 留言：0更新日期：2024-08-16 14:53

本发明专利技术提供一种音频事件检测方法、装置、电子设备、存储介质及产品，包括：获取音频信号的声谱图；将声谱图输入预先训练好的音频事件检测模型进行处理；音频事件检测模型包括卷积核大小不同的特征提取网络以及与各个特征提取网络对应连接的分类器；通过卷积核大小不同的特征提取网络提取声谱图中不同颗粒度的时频特征，通过分类器对单个颗粒度的时频特征进行分类；根据各个分类器的输出结果，确定音频信号中包含的音频事件。本发明专利技术通过采用卷积核大小不同的特征提取网络，对不同粗细颗粒度的频域及时域特征信息进行提取，可以提升提取出的特征信息的复杂度，避免信息同质化严重的问题，有利于提高音频事件检测的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种音频事件检测方法、装置、电子设备、存储介质及产品。

技术介绍

1、近年来，随着深度学习的发展，音频事件检测(audio event detection，aed)受到了越来越多的关注。在进行音频事件检测之前，通常需要从音频信号中提取相关特征，提取的这些特征可以用于表示音频信号的信息，以供深度学习模型对音频信号中的某些特征进行处理，得到音频事件的检测结果。

2、然而，传统的音频事件检测方案所采用的深度学习模型中的特征提取网络通常具有相同的视野，使得提取的特征信息同质化严重，从而导致音频事件检测的准确率较低。

技术实现思路

1、本专利技术提供一种音频事件检测方法、装置、电子设备、存储介质及产品，用以解决现有技术中传统的音频事件检测方案所采用的深度学习模型中的特征提取网络通常具有相同的视野，使得提取的特征信息同质化严重的缺陷，实现多样化的音频事件多颗粒度时频特征的提取。

2、本专利技术提供一种音频事件检测方法，包括：

3、获取音频信号的声谱图；

4、将所述声谱图输入预先训练好的音频事件检测模型进行处理；所述音频事件检测模型包括卷积核大小不同的特征提取网络以及与各个特征提取网络对应连接的分类器；通过所述卷积核大小不同的特征提取网络提取所述声谱图中不同颗粒度的时频特征，通过所述分类器对单个颗粒度的时频特征进行分类；

5、根据各个分类器的输出结果，确定所述音频信号中包含的音频事件。

6、根据

7、将所述声谱图分别输入卷积核大小不同的卷积层进行卷积操作，得到不同颗粒度的初始时频特征；

8、将所述不同颗粒度的初始时频特征输入瓶颈层和注意力机制进行特征增强，得到不同颗粒度的时频特征。

9、根据本专利技术提供的一种音频事件检测方法，所述音频事件检测模型通过以下方式训练得到：

10、获取样本数据集，所述样本数据集包括多种音频事件的样本声谱图、样本时频特征和对应的类别标签；

11、根据所述样本声谱图和所述样本时频特征，对卷积核大小不同的多个待训练特征提取网络进行训练，确定用于音频事件检测的目标特征提取网络；

12、根据所述样本时频特征和对应的类别标签，对与所述目标特征提取网络连接的待训练分类器进行训练，确定用于音频事件检测的目标分类器；

13、基于所述目标特征提取网络和与所述目标特征提取网络连接的目标分类器，构建音频事件检测模型。

14、根据本专利技术提供的一种音频事件检测方法，所述样本数据集包括训练数据集和测试数据集；所述根据所述样本声谱图和所述样本时频特征，对卷积核大小不同的多个待训练特征提取网络进行训练，确定用于音频事件检测的目标特征提取网络，包括：

15、根据训练数据集中的样本声谱图和样本时频特征，分别对卷积核大小不同的多个待训练特征提取网络进行初步训练，得到初步训练后的多个特征提取网络；

16、根据测试数据集中的样本声谱图和样本时频特征，分别对所述初步训练后的多个特征提取网络进行性能评估，按照性能评估得分由高到低的顺序，从所述初步训练后的多个特征提取网络中选取预设数量的特征提取网络；

17、根据训练数据集中的样本声谱图和样本时频特征，分别对卷积核大小不同的预设数量的特征提取网络进行迭代训练，得到训练好的预设数量的特征提取网络作为目标特征提取网络。

18、根据本专利技术提供的一种音频事件检测方法，所述采用所述样本声谱图和所述样本时频特征，分别对卷积核大小不同的预设数量的特征提取网络进行迭代训练，包括：

19、在迭代训练次数逐渐增加的过程中，按照卷积核尺寸由大到小的顺序，依次增高各个特征提取网络的学习率，以采用所述样本声谱图和所述样本时频特征，对卷积核大小不同的特征提取网络进行分层次训练。

20、根据本专利技术提供的一种音频事件检测方法，所述获取音频信号的声谱图，包括：

21、获取音频信号进行分帧与加窗处理，得到多个音频帧；

22、对各个音频帧作傅里叶变换，得到各个音频帧的能量谱；

23、采用滤波器对所述各个音频帧的能量谱进行处理，得到所述音频信号的声谱图。

24、本专利技术还提供一种音频事件检测装置，包括：

25、获取模块，用于获取音频信号的声谱图；

26、处理模块，用于将所述声谱图输入预先训练好的音频事件检测模型进行处理；所述音频事件检测模型包括卷积核大小不同的特征提取网络以及与各个特征提取网络对应连接的分类器；通过所述卷积核大小不同的特征提取网络提取所述声谱图中不同颗粒度的时频特征，通过所述分类器对单个颗粒度的时频特征进行分类；

27、输出模块，用于根据各个分类器的输出结果，确定所述音频信号中包含的音频事件。

28、本专利技术还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一项所述的音频事件检测方法的步骤。

29、本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述的音频事件检测方法的步骤。

30、本专利技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述音频事件检测方法的步骤。

31、本专利技术提供的音频事件检测方法、装置、电子设备、存储介质及产品，通过采用卷积核大小不同的特征提取网络，对不同粗细颗粒度的频域及时域特征信息进行提取，可以提升特征信息的复杂度，使得音频事件检测模型基于更加广泛复杂的多维度颗粒度信息进行检测，从而解决相同卷积核下相同卷积视野产生相同的颗粒度信息，导致同质化严重的问题，有利于提高音频事件检测的准确率。

本文档来自技高网...

【技术保护点】

1.一种音频事件检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，每个特征提取网络包括卷积层、瓶颈层和注意力机制；所述通过所述卷积核大小不同的特征提取网络提取所述声谱图中不同颗粒度的时频特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述音频事件检测模型通过以下方式训练得到：

4.根据权利要求3所述的方法，其特征在于，所述样本数据集包括训练数据集和测试数据集；所述根据所述样本声谱图和所述样本时频特征，对卷积核大小不同的多个待训练特征提取网络进行训练，确定用于音频事件检测的目标特征提取网络，包括：

5.根据权利要求4所述的方法，其特征在于，所述采用所述样本声谱图和所述样本时频特征，分别对卷积核大小不同的预设数量的特征提取网络进行迭代训练，包括：

6.根据权利要求1所述的方法，其特征在于，所述获取音频信号的声谱图，包括：

7.一种音频事件检测装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的音频事件检测方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述音频事件检测方法。

...

【技术特征摘要】

1.一种音频事件检测方法，其特征在于，包括：

3.根据权利要求1所述的方法，其特征在于，所述音频事件检测模型通过以下方式训练得到：

5.根据权利要求4所述的方法，其特征在于，所述采用所述样本声谱图和所述样本时频特征，分别对卷积核大小不同的...

【专利技术属性】
技术研发人员：刘壮壮，柳瑞波，王帅鑫，任玉玲，赵江江，
申请(专利权)人：中移在线服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人