【技术实现步骤摘要】
基于多分辨率空洞深度可分卷积网络的环境声音辨识方法
[0001]本专利技术涉及音频信号处理和深度学习
,具体涉及一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法。
技术介绍
[0002]随着我国逐步进入重度老龄化社会,独居老人的智能监护已经成为一个严重的社会问题。目前独居老人的智能监护方法主要包括:基于视频的实时监测分析方法和基于体感设备的传感信号分析方法。这些方法存在下述不足之处。第一,视频采集设备的成本高于拾音器,并且涉及个人隐私问题,不容易被人接受。第二,视频采集设备的监测范围有限,存在监测死角且容易受到光线影响。第三,被监护人要时刻佩戴体感设备才能进行信息传感与监护,一定程度上妨碍了被监护人的正常生活,而且独居老人很容易忘记穿戴,造成漏测的情况。基于环境声音辨识的智能监护方法可以有效克服上述不足。环境声音可以全方向采集、不受光线与物体遮挡等影响,且不泄露个人隐私,不需要被监护人时刻佩戴任何体感设备,容易让人接受。因此,基于环境声音辨识的智能监护在我国即将到来的重度老龄化社会中将得到广泛应用,对于独居老人的日常护理尤为重要。
[0003]目前的环境声音辨识方法一般采用常规神经网络进行辨识判决。常规神经网络参数多、计算量大,难以移植到计算资源有限的移动端。轻量化神经网络的参数规模明显小于常规神经网络的参数规模,可以有效降低计算量和存储空间,使得网络移植到移动端成为可能。然而,现有的轻量化神经网络在环境声音辨识时,得到的准确率不高,且在数据集较小时辨识结果更差。
技术实现思路
[ ...
【技术保护点】
【技术特征摘要】
1.一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法,其特征在于,所述环境声音辨识方法包括以下步骤:S1、采集音频样本:在监控区域的预设位置放置拾音器,采集监控区域各位置的音频样本;S2、提取对数梅尔谱特征:对采集到的音频样本进行预加重、分帧和加窗处理,通过快速傅里叶变换得到音频样本的线性频谱,经梅尔三角滤波器组和对数运算后得到音频样本的对数梅尔谱特征;S3、搭建辨识网络:在训练阶段构建一个多分辨率空洞深度可分卷积网络作为辨识网络,其中,所述多分辨率空洞深度可分卷积网络包括依次顺序连接的输入模块、空洞深度可分卷积模块、多分辨率深度特征模块和输出模块,对输入的测试音频样本进行环境声音类别的辨识;S4、生成多分辨率深度特征:通过多分辨率空洞深度可分卷积网络的多分辨率深度特征模块对三种单分辨率的深度特征进行拼接,得到输入音频样本的多分辨率深度特征;S5、辨识环境声音:将输入音频样本的多分辨率深度特征输入多分辨率空洞深度可分卷积网络的输出模块进行判决,得到输入音频样本所对应的环境声音类别。2.根据权利要求1所述的基于多分辨率空洞深度可分卷积网络的环境声音辨识方法,其特征在于,所述步骤S1中采集音频样本的过程如下:S1.1、将拾音器放置在监控区域的不同位置,采集对应位置的环境声音;S1.2、设置音频样本采集的参数:采样频率为16kHz,量化精度为16bits。3.根据权利要求1所述的基于多分辨率空洞深度可分卷积网络的环境声音辨识方法,其特征在于,所述步骤S2中提取对数梅尔谱特征的过程如下:S2.1、预加重:采用一个高通滤波器对采集到的音频样本进行滤波,高通滤波器的时域表达式为:y(t)=x(t)
‑
αx(t
‑
1),其中α为常数,取0.97;S2.2、分帧:将经过滤波的音频样本切分成固定长度的音频帧,帧长N为256个采样点,帧移为128个采样点;S2.3、加窗:将音频帧与汉明窗函数相乘实现加窗操作,汉明窗函数的时域表达式为:0≤n≤N
‑
1,其中N为帧长;S2.4、傅里叶变换:对加窗后的音频帧进行快速傅里叶变换,得到线性频谱,傅里叶变换定义为:0≤k,n≤N
‑
1,0≤i≤M
‑
1,其中,X
i
(k)为第i帧音频x
i
(n)的线性频谱,M为总帧数,N为每帧帧长;S2.5、构建梅尔三角滤波器组:将线性频率f转换为梅尔频率f
mel
的定义为:将梅尔三角滤波器组中的滤波器根据中心频率f(q)的大小顺
序,从0到Q
‑
1进行编号,梅尔三角滤波器的频率响应定义为:其中,f(q)表示第q个滤波器的中心频率,k表示频率,Q取23~40;S2...
【专利技术属性】
技术研发人员:卢狄峰,李艳雄,王锐淇,曾雨非,周镇峰,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。