一种基于混合深度神经网络模型的城市噪声识别方法技术

技术编号:19636925 阅读:41 留言:0更新日期:2018-12-01 17:25
本发明专利技术公开了一种基于混合深度神经网络模型的城市噪声识别方法。本发明专利技术包括如下步骤:步骤1.采集城市噪声,建立声音样本库;步骤2.将声音样本库中的声音信号转换成语谱图;步骤3.将得到的语谱图进行裁剪,然后使用多个预训练好的深度神经网络模型分别进行特征提取;步骤4.将多个模型提取的特征进行拼接;步骤5.将拼接后得到的融合特征作为最后分类器的输入,进行预测模型训练;步骤6.对于未知的声音,首先将其转换成语谱图,使用上述的多个预训练好的深度神经网络模型进行特征提取,提取的特征进行拼接,然后使用训练好的预测模型进行预测,得到最终的声音类型。本发明专利技术不需要大量的数据集,且运算速度更快,所需资源更少。

A Method of Urban Noise Recognition Based on Hybrid Depth Neural Network Model

The invention discloses an urban noise recognition method based on a hybrid depth neural network model. The invention comprises the following steps: step 1. collecting urban noise and establishing sound sample library; step 2. converting sound signals in sound sample library into spectrograms; step 3. clipping the obtained spectrograms, and then extracting features using several pre-trained deep neural network models; step 4. converting multiple models The extracted features are mosaic; Step 5. The fused features obtained after mosaic are used as input of the final classifier to train the prediction model; Step 6. For unknown sounds, first transform them into spectrograms, and use the above-mentioned pre-trained depth neural network models to extract features, and then extract the features. Stitching, and then using the trained prediction model to predict the final sound type. The invention does not need a large number of data sets, and has faster operation speed and less resources.

【技术实现步骤摘要】
一种基于混合深度神经网络模型的城市噪声识别方法
本专利技术属于机器学习与智能声音信号处理领域,涉及一种基于混合深度神经网络模型的城市噪声识别方法。
技术介绍
随着我国经济社会的快速发展,城市化建设进程的不断加快,建筑施工、交通运输、社会生活等活动会产生大量的噪声。城市噪声识别在城市管理和安全运行中起着至关重要的作用,特别是在建设智慧城市工程中。城市噪声的分析和测量在全球引起了广泛的关注和研究,严重的城市噪声会对周围居住居民产生严重的影响。同时,城市噪声识别在城市安全检测中也有很多潜在的应用,有效的特征表示和分类算法是城市噪声识别的关键。当前城市噪声识别研究大都是基于传统声学特征提取方法结合识别算法进行的。然而城市噪声复杂多样,传统的声学特征提取方法并不能完全的对城市噪声信号进行充分的表示,此外传统的分类算法往往由于其浅层结构,缺乏对信号的表征能力。目前流行的深度学习方法,由于其对信号的强大的表示能力。在特征提取阶段更少的人工干预,以及良好的识别性能,因此将其应用于城市噪声识别具有非常好的前景。但是,深度学习方法需要以百万计的城市噪声数据来作为支撑,而获取如此庞大的数据是一个非常损耗时间的过程。同时,深度学习方法在大数据处理过程中,面临着模型训练复杂度高等问题。
技术实现思路
针对传统的识别方法以及目前流行的深度学习方法中存在的问题,本专利技术提出了一种基于混合深度神经网络模型的城市噪声识别方法。其主要思想是,将多个深度学习方法在大型图像库上训练得到的模型,将它们的特征表示层抽取出来对城市噪声进行特征提取,将得到的不同的模型提取的特征进行融合,输入给最终分类器进行分类训练。本专利技术的优势在于模型训练速度快、准确率高。本专利技术具体采用了三种深度神经网络在大型数据库ImageNet上训练得到的模型,分别是inpection_v3、resnet152、inception_resnet_v2。Inception_v3是改进版的GoogLeNet,它具有很强的图像分类能力,在数据表征能力及计算量等方面都体现出优势。Resnet模型引入了一种称为残差的学习单元,用来减轻深度神经网络的退化问题,它能够在不断增加模型复杂度的情况下产生更好的分类精度。共有152层的深度残差网络resnet_152在图像分类目标检测和语义分割都取得了很好的成绩。Inception_resnet_v2借鉴了resnet的残差网络,将其应用到了inception_v3当中,因此它不仅能避免神经网络中随着层数增加而造成的退化问题,还能减少训练时间。相比于单个深度神经网络模型进行特征提取并训练得到的识别率,本专利技术采用这三种深度神经网络对声信号语谱图进行特征融合并训练的识别率具有很大的提升。为了更详细的阐述本专利技术,这里采用实测的11类城市噪声为例来进行说明,但本算法的实际使用不局限于这11类城市噪声。本专利技术的技术方案主要包括如下步骤:步骤1.采集城市噪声,建立声音样本库;步骤2.将声音样本库中的声音信号转换成语谱图;步骤3.将得到的语谱图进行裁剪,然后使用多个预训练好的深度神经网络模型分别进行特征提取;步骤4.将多个模型提取的特征进行拼接;步骤5.将拼接后得到的融合特征作为最后分类器的输入,进行预测模型训练;步骤6.对于未知的声音,首先将其转换成语谱图,使用上述的多个预训练好的深度神经网络模型进行特征提取,提取的特征进行拼接,然后使用训练好的预测模型进行预测,得到最终的声音类型。所述步骤2的具体实现包括以下:设采集到的声音信号为x(n),采样频率为fs。首先对声音信号进行分帧加窗,然后将各帧信号进行傅里叶变换,将变换后的连续n帧信号进行拼接,最后得到语谱图。所述步骤5中的分类器,可以采用多种经典的分类器算法,如:支持向量机,超限学习机,基于反向传播算法的BP神经网络等。本专利技术有益效果如下:本专利技术使用多个在大型图像数据库上训练后的深度神经网络模型,对转换后的城市噪声信号语谱图进行特征提取,将提取的特征进行融合作为新的特征,将其使用分类器算法进行分类学习。相比于使用传统声学特征或单个深度神经网络模型提取的特征进行识别训练,其正确率有了大幅提升。另外,由于本专利技术是通过已有的深度神经网络来获得语谱图的特征,相比于直接使用深度神经网络算法来进行识别训练,本专利技术不需要大量的数据集,且运算速度更快,所需资源更少。附图说明图1为本专利技术所采用的模型基础结构图;图2(a)为汽车报警声的语谱图;图2(b)为切割机噪声的语谱图;图2(c)为发动机噪声的语谱图;图2(d)为音乐声的语谱图;图2(e)为风声的语谱图;图3(a)为inception_v3模型基础结构图;图3(b)为resnet152模型基础结构图;图3(c)为inception_resnet_v2模型基础结构图;图4为本专利技术具体采用的模型结构图;具体实施方式下面结合附图和实施例对本专利技术作进一步说明。如图2-图4所示,本专利技术是通过对声信号语谱图的差异,采用三种在大型图像库ImageNet上训练好的深度神经网络对声信号语谱图进行特征提取,提出了一种基于混合深度神经网络的城市噪声识别方法。本专利技术首先对11类声音信号进行预判,然后将这11类声音信号转换成如图2(a)-图2(e)所显示的声信号语谱图图像。然后将语谱图分别输入到如图3(a)-图3(c)所示的深度神经网络中进行特征提取。然后如图4所示进行特征融合和分类识别。本专利技术具体实现包括如下步骤:训练阶段:步骤1.采集城市噪声,建立声音样本库;步骤2.将声音样本库中的声音信号转换成语谱图;步骤3.将转换完成的语谱图分别使用inception_v3,resnet152,inception_resnet_v2这三种预训练好的深度神经网络模型进行特征提取;步骤4.将经过步骤3中3种深度神经网络模型提取的特征进行拼接;步骤5.将拼接后的特征,作为分类器的输入,进行预测模型训练;测试阶段:对于一个未知的声音信号步骤1.将声音信号转换成语谱图;步骤2.如上述训练阶段步骤3、4进行特征提取与拼接;步骤3.使用预测模型进行分类预测。所述训练阶段步骤2的具体实现包括以下:设声音信号为x(n),采样频率为fs。首先对声音信号进行分帧加窗,其帧长为wlen,帧移为inc,窗函数为汉明窗。将各帧信号进行傅里叶变换。我们将变换后的连续n帧信号进行拼接,得到语谱图。所述训练阶段步骤3的具体实现包括以下:读取语谱图,由于这三种深度神经网络对语谱图的尺寸有各自的要求,因此首先对语谱图进行裁剪,把裁剪后的图片分别输入到三种预处理模型中,得到各个模型下的特征向量。这里采用三种深度神经网络来对声信号语谱图进行特征提取。在inception_v3模型中,需要将图片调整为299×299×3,然后使用该模型进行特征提取得到2048维特征向量;在resnet152模型中,需要将图片调整为224×224×3,然后使用该模型进行特征提取得到2048维特征向量;在inception_resnet_v2模型中,需要将图片调整为299×299×3,然后使用该模型进行特征提取得到1536维特征向量;所述训练阶段步骤5的具体实现包括以下:5.1我们在得到融合特征之后,把特征值输入全连接层,然后采用softmax函数进行分类。sof本文档来自技高网...

【技术保护点】
1.一种基于混合深度神经网络模型的城市噪声识别方法,包括训练阶段和测试阶段,其特征在于,训练阶段步骤如下:步骤1.采集城市噪声,建立声音样本库;步骤2.将声音样本库中的声音信号转换成语谱图;步骤3.将转换完成的语谱图分别使用inception_v3,resnet152,inception_resnet_v2这三种预训练好的深度神经网络模型进行特征提取;步骤4.将经过步骤3中3种深度神经网络模型提取的特征进行拼接;步骤5.将拼接后的特征,作为分类器的输入,进行预测模型训练;测试阶段:步骤1.将一个未知的声音信号转换成语谱图;步骤2.如上述训练阶段步骤3、4进行特征提取与拼接;步骤3.使用预测模型进行分类预测。

【技术特征摘要】
1.一种基于混合深度神经网络模型的城市噪声识别方法,包括训练阶段和测试阶段,其特征在于,训练阶段步骤如下:步骤1.采集城市噪声,建立声音样本库;步骤2.将声音样本库中的声音信号转换成语谱图;步骤3.将转换完成的语谱图分别使用inception_v3,resnet152,inception_resnet_v2这三种预训练好的深度神经网络模型进行特征提取;步骤4.将经过步骤3中3种深度神经网络模型提取的特征进行拼接;步骤5.将拼接后的特征,作为分类器的输入,进行预测模型训练;测试阶段:步骤1.将一个未知的声音信号转换成语谱图;步骤2.如上述训练阶段步骤3、4进行特征提取与拼接;步骤3.使用预测模型进行分类预测。2.根据权利要求1所述的一种基于混合深度神经网络模型的城市噪声识别方法,其特征在于训练阶段步骤2的具体实现包括以下:设声音信号为x(n),采样频率为fs;首先对声音信号进行分帧加窗,其帧长为wlen,帧移为inc,窗函数为汉明窗;将各帧信号进行傅里叶变换;将变换后的连续n帧信号进行拼接,得到语谱图。3.根据权利要求2所述的一种基于混合深度神经网络模型的城市噪声识别方法,其特征在于训练阶段步骤3的具体实现包括以下:读取语谱图,由于这三种深度神经网络对语谱图的尺寸有各自的要求,因此首先对语谱图进行裁剪,把裁剪后的图片分别输入到三种预处理模型中,得到各个模型下的特征向量;采用三种深度神经网络来对声信号语谱图进行特征提取;在inception_v3模型中,需要将图片调整为299×299×3,然后使用该模型进行特征提取得到2048维特征向量;在resnet152模型中,需要将图片调整为224×224×3,然后使用该模型进行特征提取得到2048维特征向量;在inception_resnet_v2模型中,需要将图片调整为299×299×3,然后使用该模型...

【专利技术属性】
技术研发人员:曹九稳沈叶新王建中
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1