基于多分辨率空洞深度可分卷积网络的环境声音辨识方法技术

技术编号:32121711 阅读:62 留言:0更新日期:2022-01-29 19:08
本发明专利技术公开了一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法,包括下列步骤:首先采集环境声音音频样本;接着对音频样本进行预加重、分帧和加窗处理,再提取对数梅尔谱特征;然后将对数梅尔谱特征依次输入多分辨率空洞深度可分卷积网络的输入模块、空洞深度可分卷积模块和多分辨率深度特征模块进行特征变换与拼接,得到更具区分性的多分辨率深度特征;最后在多分辨率空洞深度可分卷积网络的输出模块对输入音频样本的多分辨率深度特征进行判决,得到环境声音类别。与基于常规卷积网络的方法相比,本发明专利技术方法运算量更小、相同网络参数规模时的感受野更大。与基于常规轻量级网络的方法相比,本发明专利技术方法的环境声音辨识精度更高。识精度更高。识精度更高。

【技术实现步骤摘要】
基于多分辨率空洞深度可分卷积网络的环境声音辨识方法


[0001]本专利技术涉及音频信号处理和深度学习
,具体涉及一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法。

技术介绍

[0002]随着我国逐步进入重度老龄化社会,独居老人的智能监护已经成为一个严重的社会问题。目前独居老人的智能监护方法主要包括:基于视频的实时监测分析方法和基于体感设备的传感信号分析方法。这些方法存在下述不足之处。第一,视频采集设备的成本高于拾音器,并且涉及个人隐私问题,不容易被人接受。第二,视频采集设备的监测范围有限,存在监测死角且容易受到光线影响。第三,被监护人要时刻佩戴体感设备才能进行信息传感与监护,一定程度上妨碍了被监护人的正常生活,而且独居老人很容易忘记穿戴,造成漏测的情况。基于环境声音辨识的智能监护方法可以有效克服上述不足。环境声音可以全方向采集、不受光线与物体遮挡等影响,且不泄露个人隐私,不需要被监护人时刻佩戴任何体感设备,容易让人接受。因此,基于环境声音辨识的智能监护在我国即将到来的重度老龄化社会中将得到广泛应用,对于独居老人的日常护理尤为重要。
[0003]目前的环境声音辨识方法一般采用常规神经网络进行辨识判决。常规神经网络参数多、计算量大,难以移植到计算资源有限的移动端。轻量化神经网络的参数规模明显小于常规神经网络的参数规模,可以有效降低计算量和存储空间,使得网络移植到移动端成为可能。然而,现有的轻量化神经网络在环境声音辨识时,得到的准确率不高,且在数据集较小时辨识结果更差。

技术实现思路

[0004]本专利技术的目的是为了克服常规神经网络参数规模大、计算复杂度高,已有轻量化神经网络辨识性能差的问题,提供一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法。本专利技术将音频信号前后文的相关性利用起来,同时将三个单分辨率深度特征进行拼接得到多分辨率深度特征,设计了一种计算复杂度低,辨识性能高的环境声音辨识方法。多分辨率深度特征既保留了高分辨率的低层特征分量,又保留了低分辨率的语义信息较强的高层特征分量。本专利技术一方面利用多分辨率深度特征克服了低层特征语义表达能力差、噪声多的缺点,另一方面也克服了高层特征分辨率低、对细节感知能力差的不足。
[0005]为了实现更加准确的环境声音辨识,本专利技术可以通过采取如下技术方案达到:
[0006]一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法,所述环境声音辨识方法包括以下步骤:
[0007]S1、采集音频样本:在监控区域的预设位置放置拾音器,采集监控区域各位置的音频样本;
[0008]S2、提取对数梅尔谱特征:对采集到的音频样本进行预加重、分帧和加窗处理,通过快速傅里叶变换得到音频样本的线性频谱,经梅尔三角滤波器组和对数运算后得到音频
样本的对数梅尔谱特征;
[0009]S3、搭建辨识网络:在训练阶段构建一个多分辨率空洞深度可分卷积网络作为辨识网络,其中,所述多分辨率空洞深度可分卷积网络包括依次顺序连接的输入模块、空洞深度可分卷积模块、多分辨率深度特征模块和输出模块,对输入的测试音频样本进行环境声音类别的辨识;
[0010]S4、生成多分辨率深度特征:通过多分辨率空洞深度可分卷积网络的多分辨率深度特征模块对三种单分辨率的深度特征进行拼接,得到输入音频样本的多分辨率深度特征;
[0011]S5、辨识环境声音:将输入音频样本的多分辨率深度特征输入多分辨率空洞深度可分卷积网络的输出模块进行判决,得到输入音频样本所对应的环境声音类别。
[0012]进一步地,所述步骤S1中采集音频样本的过程如下:
[0013]S1.1、将拾音器放置在监控区域的不同位置,采集对应位置的环境声音;
[0014]S1.2、设置音频样本采集的参数:采样频率为16kHz,量化精度为16bits。
[0015]进一步地,所述步骤S2中提取对数梅尔谱特征的过程如下:
[0016]S2.1、预加重:采用一个高通滤波器对采集到的音频样本进行滤波,高通滤波器的时域表达式为:y(t)=x(t)

αx(t

1),其中α为常数,取0.97;
[0017]S2.2、分帧:将经过滤波的音频样本切分成固定长度的音频帧,帧长N为256个采样点,帧移为128个采样点;
[0018]S2.3、加窗:将音频帧与汉明窗函数相乘实现加窗操作,汉明窗函数的时域表达式为:其中N为帧长;
[0019]S2.4、傅里叶变换:对加窗后的音频帧进行快速傅里叶变换,得到线性频谱,傅里叶变换定义为:其中,X
i
(k)为第i帧音频x
i
(n)的线性频谱,M为总帧数,N为每帧帧长;
[0020]S2.5、构建梅尔三角滤波器组:将线性频率f转换为梅尔频率f
mel
的定义为:将梅尔三角滤波器组中的滤波器根据中心频率f(q)的大小顺序,从0到Q

1进行编号,梅尔三角滤波器的频率响应定义为:其中,f(q)表示第q个滤波器的中心频率,k表示频率,Q取23~40;
[0021]S2.6、采用梅尔三角滤波器组对上述线性频谱进行滤波再取对数,得到音频样本的对数梅尔谱特征。
[0022]进一步地,所述步骤S3中搭建辨识网络步骤如下:
[0023]S3.1、构造输入模块,所述输入模块包括一个卷积层,该卷积层中卷积核的尺寸为3
×
3,该卷积层中输入通道的特征图数目为3、输出通道的特征图个数为32、步长为2、步长为1;
[0024]S3.2、构造空洞深度可分卷积模块,所述空洞深度可分卷积模块包括八个顺序连接的空洞深度可分卷积块,每个空洞深度可分卷积块中输入特征图的通道数为32、输出特征图的通道数为16、步长为1、卷积块重复次数为1,每个空洞深度可分卷积块由三个空洞深度可分卷积层组成,空洞深度可分卷积层的表达式为:
[0025]其中,*表示卷积操作符,*
d
表示空洞率为d的空洞卷积,F是输入特征图F(s)的简称,K是卷积核函数K(t)的简称,p表示输出特征图的尺寸,s表示输入特征图的尺寸,t表示卷积核的尺寸,d表示空洞率,卷积核的尺寸,d表示空洞率,n是整数,[

n,n]2表示二维整数数组,表示整数集;
[0026]S3.3、构造多分辨率深度特征模块,所述多分辨率深度特征模块包括三个并行的独立通道,每个独立通道包括顺序连接的一个卷积层和一个平均池化层,其中,每个卷积层中卷积核的尺寸为1
×
1、输入通道的特征图数目为320、输出通道的特征图个数为1280、步长为1、重复卷积的次数为1,每个平均池化层中池化单元的尺寸为7
×
7、输入通道的特征图数目为1280,输出通道的特征图个数为1280;
[0027]S3.4、构造输出模块,所述输出模块包括顺序连接的一个全连接层和一个Softmax层,其中,全连接层的节点数为1280。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法,其特征在于,所述环境声音辨识方法包括以下步骤:S1、采集音频样本:在监控区域的预设位置放置拾音器,采集监控区域各位置的音频样本;S2、提取对数梅尔谱特征:对采集到的音频样本进行预加重、分帧和加窗处理,通过快速傅里叶变换得到音频样本的线性频谱,经梅尔三角滤波器组和对数运算后得到音频样本的对数梅尔谱特征;S3、搭建辨识网络:在训练阶段构建一个多分辨率空洞深度可分卷积网络作为辨识网络,其中,所述多分辨率空洞深度可分卷积网络包括依次顺序连接的输入模块、空洞深度可分卷积模块、多分辨率深度特征模块和输出模块,对输入的测试音频样本进行环境声音类别的辨识;S4、生成多分辨率深度特征:通过多分辨率空洞深度可分卷积网络的多分辨率深度特征模块对三种单分辨率的深度特征进行拼接,得到输入音频样本的多分辨率深度特征;S5、辨识环境声音:将输入音频样本的多分辨率深度特征输入多分辨率空洞深度可分卷积网络的输出模块进行判决,得到输入音频样本所对应的环境声音类别。2.根据权利要求1所述的基于多分辨率空洞深度可分卷积网络的环境声音辨识方法,其特征在于,所述步骤S1中采集音频样本的过程如下:S1.1、将拾音器放置在监控区域的不同位置,采集对应位置的环境声音;S1.2、设置音频样本采集的参数:采样频率为16kHz,量化精度为16bits。3.根据权利要求1所述的基于多分辨率空洞深度可分卷积网络的环境声音辨识方法,其特征在于,所述步骤S2中提取对数梅尔谱特征的过程如下:S2.1、预加重:采用一个高通滤波器对采集到的音频样本进行滤波,高通滤波器的时域表达式为:y(t)=x(t)

αx(t

1),其中α为常数,取0.97;S2.2、分帧:将经过滤波的音频样本切分成固定长度的音频帧,帧长N为256个采样点,帧移为128个采样点;S2.3、加窗:将音频帧与汉明窗函数相乘实现加窗操作,汉明窗函数的时域表达式为:0≤n≤N

1,其中N为帧长;S2.4、傅里叶变换:对加窗后的音频帧进行快速傅里叶变换,得到线性频谱,傅里叶变换定义为:0≤k,n≤N

1,0≤i≤M

1,其中,X
i
(k)为第i帧音频x
i
(n)的线性频谱,M为总帧数,N为每帧帧长;S2.5、构建梅尔三角滤波器组:将线性频率f转换为梅尔频率f
mel
的定义为:将梅尔三角滤波器组中的滤波器根据中心频率f(q)的大小顺
序,从0到Q

1进行编号,梅尔三角滤波器的频率响应定义为:其中,f(q)表示第q个滤波器的中心频率,k表示频率,Q取23~40;S2...

【专利技术属性】
技术研发人员:卢狄峰李艳雄王锐淇曾雨非周镇峰
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1