基于多分辨率空洞深度可分卷积网络的环境声音辨识方法技术

技术编号：32121711 阅读：74 留言：0更新日期：2022-01-29 19:08

本发明专利技术公开了一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法，包括下列步骤：首先采集环境声音音频样本；接着对音频样本进行预加重、分帧和加窗处理，再提取对数梅尔谱特征；然后将对数梅尔谱特征依次输入多分辨率空洞深度可分卷积网络的输入模块、空洞深度可分卷积模块和多分辨率深度特征模块进行特征变换与拼接，得到更具区分性的多分辨率深度特征；最后在多分辨率空洞深度可分卷积网络的输出模块对输入音频样本的多分辨率深度特征进行判决，得到环境声音类别。与基于常规卷积网络的方法相比，本发明专利技术方法运算量更小、相同网络参数规模时的感受野更大。与基于常规轻量级网络的方法相比，本发明专利技术方法的环境声音辨识精度更高。识精度更高。识精度更高。

全部详细技术资料下载

【技术实现步骤摘要】
基于多分辨率空洞深度可分卷积网络的环境声音辨识方法

[0001]本专利技术涉及音频信号处理和深度学习
，具体涉及一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法。

技术介绍

[0002]随着我国逐步进入重度老龄化社会，独居老人的智能监护已经成为一个严重的社会问题。目前独居老人的智能监护方法主要包括：基于视频的实时监测分析方法和基于体感设备的传感信号分析方法。这些方法存在下述不足之处。第一，视频采集设备的成本高于拾音器，并且涉及个人隐私问题，不容易被人接受。第二，视频采集设备的监测范围有限，存在监测死角且容易受到光线影响。第三，被监护人要时刻佩戴体感设备才能进行信息传感与监护，一定程度上妨碍了被监护人的正常生活，而且独居老人很容易忘记穿戴，造成漏测的情况。基于环境声音辨识的智能监护方法可以有效克服上述不足。环境声音可以全方向采集、不受光线与物体遮挡等影响，且不泄露个人隐私，不需要被监护人时刻佩戴任何体感设备，容易让人接受。因此，基于环境声音辨识的智能监护在我国即将到来的重度老龄化社会中将得到广泛应用，对于独居老人的日常护理尤为重要。
[0003]目前的环境声音辨识方法一般采用常规神经网络进行辨识判决。常规神经网络参数多、计算量大，难以移植到计算资源有限的移动端。轻量化神经网络的参数规模明显小于常规神经网络的参数规模，可以有效降低计算量和存储空间，使得网络移植到移动端成为可能。然而，现有的轻量化神经网络在环境声音辨识时，得到的准确率不高，且在数据集较小时辨识结果更差。

技术实现思路

[...

【技术保护点】

【技术特征摘要】
1.一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法，其特征在于，所述环境声音辨识方法包括以下步骤：S1、采集音频样本：在监控区域的预设位置放置拾音器，采集监控区域各位置的音频样本；S2、提取对数梅尔谱特征：对采集到的音频样本进行预加重、分帧和加窗处理，通过快速傅里叶变换得到音频样本的线性频谱，经梅尔三角滤波器组和对数运算后得到音频样本的对数梅尔谱特征；S3、搭建辨识网络：在训练阶段构建一个多分辨率空洞深度可分卷积网络作为辨识网络，其中，所述多分辨率空洞深度可分卷积网络包括依次顺序连接的输入模块、空洞深度可分卷积模块、多分辨率深度特征模块和输出模块，对输入的测试音频样本进行环境声音类别的辨识；S4、生成多分辨率深度特征：通过多分辨率空洞深度可分卷积网络的多分辨率深度特征模块对三种单分辨率的深度特征进行拼接，得到输入音频样本的多分辨率深度特征；S5、辨识环境声音：将输入音频样本的多分辨率深度特征输入多分辨率空洞深度可分卷积网络的输出模块进行判决，得到输入音频样本所对应的环境声音类别。2.根据权利要求1所述的基于多分辨率空洞深度可分卷积网络的环境声音辨识方法，其特征在于，所述步骤S1中采集音频样本的过程如下：S1.1、将拾音器放置在监控区域的不同位置，采集对应位置的环境声音；S1.2、设置音频样本采集的参数：采样频率为16kHz，量化精度为16bits。3.根据权利要求1所述的基于多分辨率空洞深度可分卷积网络的环境声音辨识方法，其特征在于，所述步骤S2中提取对数梅尔谱特征的过程如下：S2.1、预加重：采用一个高通滤波器对采集到的音频样本进行滤波，高通滤波器的时域表达式为：y(t)＝x(t)
‑
αx(t
‑
1)，其中α为常数，取0.97；S2.2、分帧：将经过滤波的音频样本切分成固定长度的音频帧，帧长N为256个采样点，帧移为128个采样点；S2.3、加窗：将音频帧与汉明窗函数相乘实现加窗操作，汉明窗函数的时域表达式为：0≤n≤N
‑
1，其中N为帧长；S2.4、傅里叶变换：对加窗后的音频帧进行快速傅里叶变换，得到线性频谱，傅里叶变换定义为：0≤k,n≤N
‑
1,0≤i≤M
‑
1，其中，X
i
(k)为第i帧音频x
i
(n)的线性频谱，M为总帧数，N为每帧帧长；S2.5、构建梅尔三角滤波器组：将线性频率f转换为梅尔频率f
mel
的定义为：将梅尔三角滤波器组中的滤波器根据中心频率f(q)的大小顺
序，从0到Q
‑
1进行编号，梅尔三角滤波器的频率响应定义为：其中，f(q)表示第q个滤波器的中心频率，k表示频率，Q取23～40；S2...

【专利技术属性】
技术研发人员：卢狄峰，李艳雄，王锐淇，曾雨非，周镇峰，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人