一种基于残差计算的卷积神经网络的城市音频分类方法技术

技术编号：40843980 阅读：36 留言：0更新日期：2024-04-01 15:11

本申请实施例是关于一种基于残差计算的卷积神经网络的城市音频分类方法。该方法包括：构建城市音频分类模型；对城市音频数据进行数据增强，并将数据增强后的城市音频数据划分为训练集和测试集；分别对训练集和测试集进行处理，以得到训练集音频特征和测试集音频特征；将训练集音频特征送入城市音频分类模型中进行训练，得到训练后的城市音频分类模型；将测试集音频特征送入训练后的城市音频分类模型中进行训练，以对测试集音频特征进行分类，并根据测试集音频特征的分类结果对测试集进行分类。本申请实施例能够有效解决传统深度学习神经网络对城市音频分类精度不高的问题，在提升计算效率的同时，提升了城市音频的分类精度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及计算机听觉，尤其涉及一种基于残差计算的卷积神经网络的城市音频分类方法。

技术介绍

1、在日常生产生活过程中，声音在传递重要信息中发挥着不可替代的作用。近年来计算机听觉技术应运而生，凭借该技术来实现对音频信号在计算机设备上进行筛选以及分析的工作，并从中获取所需的重要信息越来越多应用于实际。所以，计算机听觉技术使得与音频处理相关研究所需的人力物力资源都大幅降低，同时还极大程度上保证了音频内容的正确性以及特征选取的准确性。

2、音频分类作为计算机听觉技术所研究的最基本问题之一，其对不同的声源进行区分的主要依据即音频中所包含的特征信息。音频分类范围广泛，主要涉及对人的身份进行辨别、对特定音频事件的识别检测以及对特定环境的场景判断等。

3、音频分类任务一般有两个重要步骤。首先是从音频数据中提取有效的特征用以代替整段声音信息。其次是较好完成测试阶段的音频分类任务，需构建性能良好的音频分类器，并利用上述有效的音频特征对其进行训练。

4、相关技术中，应用深度学习算法使得音频分类领域的科学研究取得了重大突破，使用深度学习神经网络来作为性能更好的音频分类器，可获取更好的分类精度和泛化能力。但不同的深度学习算法所带来的效果也不尽相同，仍有不少诸如过拟合、梯度消失、梯度爆炸以及神经网络模型的性能上限无法进一步突破等局限性问题等待研究解决。

5、因此，有必要改善上述相关技术方案中存在的一个或者多个问题。

6、需要注意的是，本部分旨在为权利要求书中陈述的本申请的技术方案提供背景或上

技术实现思路

1、本申请实施例的目的在于提供一种基于残差计算的卷积神经网络的城市音频分类方法，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

2、根据本申请实施例，提供一种基于残差计算的卷积神经网络的城市音频分类方法，该方法包括：

3、基于残差计算的卷积神经网络，构建城市音频分类模型；

4、对城市音频数据进行数据增强，并将数据增强后的所述城市音频数据划分为训练集和测试集；

5、分别对所述训练集和所述测试集进行处理，以得到训练集音频特征和测试集音频特征；

6、将所述训练集音频特征送入所述城市音频分类模型中进行训练，得到训练后的所述城市音频分类模型；

7、将所述测试集音频特征送入训练后的所述城市音频分类模型中进行训练，以对所述测试集音频特征进行分类，并根据所述测试集音频特征的分类结果对所述测试集进行分类。

8、本申请的一实施例中，所述城市音频分类模型包括：多层卷积层、多层池化层和多层全连接层；

9、所述城市音频分类模型利用所述残差计算对每层所述卷积层的输出结果进行优化；

10、其中，所述残差计算包括在所述城市音频分类模型中针对每层所述卷积层的恒等映射。

11、本申请的一实施例中，所述卷积层的计算公式为：

12、

13、其中，表示第lc层卷积层的第jc个节点，lc表示卷积层的层数，g表示激活函数，表示第lc层卷积层的第jc个节点和第ic个节点的卷积核，表示第jc个节点和第ic个节点的偏置，mci表示卷积神经网络中的音频信息映射矩阵，e表示指数常数；

14、所述池化层的计算公式为：

15、

16、其中，表示第lp层池化层的第jp个节点，表示第lp-1层池化层的第jp个节点，lp表示池化层的层数，表示第lp层池化层的第jp个节点的权值，down()表示采样函数，n表示输入数据的大小，down(n)表示输出数据的大小，p表示padding填充的大小，f表示池化层的窗口大小，s表示步长，表示第lp层池化层的第jp个节点的偏置；

17、所述全连接层的计算公式为：

18、

19、其中，表示第lf层全连接层的第jf个节点，表示第lf-1层全连接层的第if个节点，lf表示全连接层的层数，表示第if个节点和第jf个节点的权重，表示第if个节点和第jf个节点的偏置，mf表示全连接层的映射关系。

20、本申请的一实施例中，所述对城市音频数据进行数据增强，并将数据增强后的所述城市音频数据划分为训练集和测试集的步骤包括：

21、对所述城市音频数据进行音频调音或音频加噪声；

22、所述训练集和所述测试集按照预设比例进行划分。

23、本申请的一实施例中，所述音频调音包括：对所述城市音频数据的音量大小进行调节，即将所述城市音频数据的原始数据增加xdb，其中，x∈[-10，10]；

24、所述音频调音的计算公式为：

25、f'(t)＝f(t)+x (4)

26、其中，f'(t)表示进行音频调音后的城市音频数据，f(t)表示城市音频数据的原始数据，x表示将城市音频数据的原始数据增加x分贝，x∈[-10，10]。

27、本申请的一实施例中，所述音频加噪声包括：在增强信号之上增加一个随机噪声段，阻尼系数为预设值；

28、所述音频加噪声的计算公式为：

29、

30、其中，fr(t)表示进行音频加噪声后的城市音频数据，f(t)表示城市音频数据的原始数据，表示n个用于增强城市音频数据的噪声源。

31、本申请的一实施例中，所述分别对所述训练集和所述测试集进行处理，以得到训练集音频特征和测试集音频特征的步骤包括：

32、对所述训练集和所述测试集分别进行预加重、分帧和加窗、快速傅里叶变换、梅尔刻度转换和离散余弦变换，得到所述训练集音频特征和所述测试集音频特征。

33、本申请的一实施例中，所述将所述训练集音频特征送入所述城市音频分类模型中进行训练，得到训练后的所述城市音频分类模型的步骤包括：

34、将所述训练集音频特征输入至所述卷积层中，并通过所述卷积层提取训练集关键特征；

35、通过最大化的所述池化层将提取到的所述训练集关键特征中无法正确表达特征信息的部分进行舍弃，完成对所述训练集关键特征的降维，得到训练集降维后音频特征；

36、通过重复堆叠的带有残差计算恒等映射的多层所述卷积层，对所述训练集降维后音频特征做进一步提取，并通过所述全连接层对进一步提取的音频特征进行总结，得到训练集总结音频特征；

37、将所述训练集总结音频特征划分为不同类别的音频场景，并利用softmax分类器计算不同类别的所述音频场景的准确率，输出所述训练集音频特征的分类结果，完成对所述城市音频分类模型的训练。

38、本申请的一实施例中，所述卷积层提取所述训练集关键特征的表达式为：

39、h1＝conv(x) (6)

40、其中，h1表示卷积层提取的训练集关键特征；conv表示卷积层，x表示训练集音频特征；

41、本文档来自技高网...

【技术保护点】

1.一种基于残差计算的卷积神经网络的城市音频分类方法，其特征在于，该方法包括：

2.根据权利要求1所述基于残差计算的卷积神经网络的城市音频分类方法，其特征在于，

3.根据权利要求1所述基于残差计算的卷积神经网络的城市音频分类方法，其特征在于，

4.根据权利要求3所述基于残差计算的卷积神经网络的城市音频分类方法，其特征在于，所述对城市音频数据进行数据增强，并将数据增强后的所述城市音频数据划分为训练集和测试集的步骤包括：

5.根据权利要求4所述基于残差计算的卷积神经网络的城市音频分类方法，其特征在于，所述音频调音包括：对所述城市音频数据的音量大小进行调节，即将所述城市音频数据的原始数据增加xdb，其中，x∈[-10，10]；

6.根据权利要求4所述基于残差计算的卷积神经网络的城市音频分类方法，其特征在于，所述音频加噪声包括：在增强信号之上增加一个随机噪声段，阻尼系数为预设值；

7.根据权利要求5或6所述基于残差计算的卷积神经网络的城市音频分类方法，其特征在于，所述分别对所述训练集和所述测试集进行处理，以得到训练集

8.根据权利要求7所述基于残差计算的卷积神经网络的城市音频分类方法，其特征在于，所述将所述训练集音频特征送入所述城市音频分类模型中进行训练，得到训练后的所述城市音频分类模型的步骤包括：

9.根据权利要求8所述基于残差计算的卷积神经网络的城市音频分类方法，其特征在于，

10.根据权利要求9所述基于残差计算的卷积神经网络的城市音频分类方法，其特征在于，所述城市音频分类模型中卷积神经网络的损失函数为交叉熵损失函数，所述交叉熵损失函数的表达式为：

...

【技术特征摘要】

1.一种基于残差计算的卷积神经网络的城市音频分类方法，其特征在于，该方法包括：

2.根据权利要求1所述基于残差计算的卷积神经网络的城市音频分类方法，其特征在于，

3.根据权利要求1所述基于残差计算的卷积神经网络的城市音频分类方法，其特征在于，

6.根据权利要求4所述基于残差计算的卷积神经网络的城市音频分类方法...

【专利技术属性】
技术研发人员：邱博之，王磊，李盛，李迎纲，李莹，
申请(专利权)人：陕西黄河集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人