一种基于多特征融合和组合模型的鸟声识别方法技术

技术编号:31083606 阅读:6 留言:0更新日期:2021-12-01 12:32
本发明专利技术公开了一种基于多特征融合和组合模型的鸟声识别方法,包括:对读取的原始鸟声音频进行预处理,包括预加重和分帧加窗;提取鸟声的梅尔倒谱系数、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征,分别归一化后进行纵向拼接形成融合特征;绘制STFT语谱图;将融合特征和绘制的STFT语谱图分别输入构建的两个基于Inception模块的CNN模型进行训练,训练完成后将两个模型输出的概率数组进行拼接形成一个特征数组,并将该特征数组作为ANN模型的输入进行训练,训练完成后加载上述三个模型的最优参数;将待测的任一鸟声音频输入加载最优参数后的三个模型,得到鸟声识别分类结果。本发明专利技术可提高不同鸟声之间特征的差异性,并且提高了鸟声识别准确率。并且提高了鸟声识别准确率。并且提高了鸟声识别准确率。

【技术实现步骤摘要】
一种基于多特征融合和组合模型的鸟声识别方法


[0001]本专利技术涉及一种基于多特征融合和组合模型的鸟声识别方法,属于鸟鸣声分类识别的


技术介绍

[0002]鸟类是自然生态系统的重要组成部分,由于其对所生活的生态环境的变化十分敏感且易被观察和研究,因此对鸟类的监测和识别有助于对生态环境的监测,对生态环境保护工作的开展具有重大意义。鸟类监测是国内外研究的一个重要领域,传统的鸟类监测主要依赖于鸟类的形态特征差异完成,而在听觉上鸟鸣声中也包含着独有的特征,并且具有大范围性、稳定性、低干扰等优点,因此对鸟声识别的研究显得尤为重要。
[0003]鸟声识别的一般过程主要是预处理、特征参数提取、分类方法选择三个方面。目前国内外在鸟声识别技术上的改进主要是在于特征参数提取上,然后使用深度学习的方法构建神经网络进行训练完成鸟声识别。然而现有方法所提取的鸟声特征多基于人声领域的特征且较为单一,识别效果易受外界环境噪声影响。为解决此问题提出一种基于多特征融合和组合模型的鸟声识别方法。

技术实现思路

[0004]为解决现有的鸟声识别方法中提取特征单一,所代表的鸟声特性不足的问题,本专利技术提供一种基于多特征融合和组合模型的鸟声识别方法,使用融合特征替代了单一的特征,使不同鸟声之间的特征差异更大,更易被区分,且使用三个神经网络模型组合识别,提高了鸟声识别准确率。
[0005]本专利技术具体采用以下技术方案解决上述技术问题:
[0006]一种基于多特征融合和组合模型的鸟声识别方法,包括以下步骤:
[0007]步骤1、对读取的原始鸟声音频进行预处理,包括预加重和分帧加窗;
[0008]步骤2、对预处理后的原始鸟声音频提取鸟声的梅尔倒谱系数、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征,并对四种特征分别归一化后进行纵向拼接形成一个融合特征;以及,对预处理后的原始鸟声音频经短时傅里叶变换STFT的结果绘制STFT语谱图;
[0009]步骤3、将形成的一个融合特征和绘制的STFT语谱图分别输入构建的两个基于Inception模块的CNN模型进行训练,训练完成后将两个模型输出的概率数组进行拼接形成一个特征数组,并将该特征数组作为ANN模型的输入进行训练,训练完成后加载上述三个模型的最优参数;
[0010]步骤4、将待测的任一鸟声音频输入加载最优参数后的三个模型,得到鸟声识别分类结果。
[0011]进一步地,作为本专利技术的一种优选技术方案:所述步骤1中对原始鸟声音频采用一阶FIR高通数字滤波器进行预加重。
[0012]进一步地,作为本专利技术的一种优选技术方案:所述步骤1中对原始鸟声音频采用汉明窗进行分帧加窗。
[0013]进一步地,作为本专利技术的一种优选技术方案:所述步骤2中对预处理后的原始鸟声音频经短时傅里叶变换后的结果再进行梅尔滤波,得到梅尔滤波后的能量系数特征,并通过对梅尔滤波后的结果取对数再进行离散余弦变换DCT得到梅尔倒谱系数特征。
[0014]进一步地,作为本专利技术的一种优选技术方案:所述步骤3中采用单层神经元个数为512的ANN模型。
[0015]本专利技术采用上述技术方案,能产生如下技术效果:
[0016]1.本专利技术的方法,提出将梅尔倒谱系数(MFCC)、梅尔滤波后的能量系数、短时平均过零率和短时频谱质心四个特征参数进行融合形成一个融合特征,利用融合特征提高不同鸟声之间特征的差异性,使用融合特征替代了单一的特征,使不同鸟声之间的特征差异更大,更易被区分,有效地解决了单一特征所表征的鸟声特征不足的问题。此外,利用短时傅里叶变换(STFT)的结果数据绘制STFT语谱图,将语谱图也作为一种识别特征,增加了特征范围。
[0017]2.使用基于Inception模块搭建的自搭建卷积神经网络模型,降低了训练参数量。
[0018]3.为了提高识别准确率,提出了一种由三个神经网络组合而成的组合模型判决方法,首先选用深度学习方法中经典的卷积神经网络CNN作为网络模型,分别将融合特征和STFT语谱图作为构建的两个CNN模型的输入进行训练,将两种特征经两个模型的输出结果的概率数组进行组合得到特征数组并作为人工神经网络ANN模型的输入,其输出即识别结果。本方法基于融合特征和STFT语谱图特征的不同,使用这两个不同特征分别通过两个CNN模型的输出作为ANN模型的输入进行训练,即共使用三个神经网络模型组合的方法提高了鸟声识别准确率。
附图说明
[0019]图1为本专利技术基于多特征融合和组合模型的鸟声识别方法的原理示意图。
[0020]图2为本专利技术方法中的特征融合过程示意图。
[0021]图3为本专利技术方法中搭建的基于Inception模块的CNN模型示意图。
[0022]图4为本专利技术方法中Inception模块结构示意图。
[0023]图5为本专利技术方法中MFCC系数训练结果图。
[0024]图6为本专利技术方法中融合特征训练结果图。
[0025]图7为本专利技术方法中STFT语谱图训练结果图。
[0026]图8为本专利技术方法中ANN模型的训练结果图。
具体实施方式
[0027]下面结合说明书附图对本专利技术的实施方式进行描述。
[0028]如图1所示,本专利技术涉及一种基于多特征融合和组合模型的鸟声识别方法,该方法主要包括以下步骤:
[0029]步骤1、对读取的原始鸟声音频进行预处理,包括预加重和分帧加窗,具体如下:
[0030]首先,以22.5KHz的频率读取原始鸟声音频,对读取的原始鸟声音频采用一阶FIR
高通数字滤波器进行预加重,预加重系数为0.9665。然后采用汉明窗进行分帧加窗,帧长为23ms,帧移为11.5ms,共可分得173帧鸟声数据。
[0031]步骤2、对预处理后的原始鸟声音频提取鸟声的梅尔倒谱系数(MFCC)、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征,并对四种特征分别归一化后进行纵向拼接形成一个融合特征;以及,对预处理后的原始鸟声音频经短时傅里叶变换STFT的结果绘制STFT语谱图,具体如下:
[0032]首先,设置等面积梅尔滤波器组,梅尔滤波器数量选为128,并对预处理后的原始鸟声音频经短时傅里叶变换STFT得到一个二维数组的结果,其第一维是幅值和相位信息,第二维是帧数,根据该短时傅里叶变换STFT后的结果进行梅尔滤波,以此结果得到梅尔滤波后的能量系数数据大小为[128,173]的二维数组,再对其取对数后进行离散余弦变换DCT得到MFCC系数并取前40位,即得大小为[40,173]的二维数组。
[0033]然后,分别提取短时过零率、短时频谱质心特征,大小均为[1,173]的二维数组数据。
[0034]最后,由于四组二维数据的量级不同,因此对四组二维数据分别进行归一化,使其分布在[

1,1]之间,最后进行纵向拼接,形成大小为[170,173,1]的三维数组,如图2所示,形成融合特征。...

【技术保护点】

【技术特征摘要】
1.一种基于多特征融合和组合模型的鸟声识别方法,其特征在于,包括以下步骤:步骤1、对读取的原始鸟声音频进行预处理,包括预加重和分帧加窗;步骤2、对预处理后的原始鸟声音频提取鸟声的梅尔倒谱系数、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征,并对四种特征分别归一化后进行纵向拼接形成一个融合特征;以及,对预处理后的原始鸟声音频经短时傅里叶变换STFT的结果绘制STFT语谱图;步骤3、将形成的一个融合特征和绘制的STFT语谱图分别输入构建的两个基于Inception模块的CNN模型进行训练,训练完成后将两个模型输出的概率数组进行拼接形成一个特征数组,并将该特征数组作为ANN模型的输入进行训练,训练完成后加载上述三个模型的最优参数;步骤4、将待测的任一鸟声音频输入加载最优参数后的三...

【专利技术属性】
技术研发人员:周晓彦欧昀李大鹏刘文强
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1