【技术实现步骤摘要】
一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法
[0001]本专利技术属于智能识别
,具体公开了一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法。
[0002]背景介绍
[0003]精准养殖是鱼类养殖的新趋势,鱼类行为识别为精准养殖提供技术支持,目前鱼类行为监测主要采用计算机视觉技术量化和识别鱼类的多种行为,但目前鱼类行为声音信息难采集、频率波动大和特征差异小等特点使得目标特征信息难以捕捉,赵梦等将SKNet注意力机制与YOLOv5融合,构成了关注像素级信息的特征提取网络,有效的增强了检测效果;韦思学等提出通道非降维双重注意力机制ECBAM,对降维操作进行了优化,进一步提高了识别精度。然而,在规模化、集约化等更为复杂的养殖环境中,计算机视觉方法仍有局限性,一些研究者考虑到声波在水中衰减小且不受水体浑浊影响、传播范围更广,开始将深度学习引入声音识别领域,Kong等提出了在大规模AudioSet数据集上训练的预训练音频神经网络PANNs,并证明可以将神经网络转移到其他音频相关任务,但网络提取声音特征能力受限;Desplanques等提出利用1D卷积神经网络融合Res2Net和SE模块以聚合声音不同层次的特征,增强特征通道相互依赖性,但这种方法难以处理声音细节特征。在鱼类行为识别领域中,同样可使用声学特征,Meng等提出将鱼类摄食音频转换为声音特征信息,使用卷积神经网络CNN模型对鱼的摄食强度进行分类,但卷积神经网络CNN对鱼类细粒度声音信息提取能力有限;胥婧雯等采用能对鱼类声音特征进行细粒 ...
【技术保护点】
【技术特征摘要】
1.一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,其特征在于,包括如下步骤:S1.采集养殖水域中的鱼类音频信号,对所述鱼类音频信号进行预处理;S2.通过Mel声谱图特征提取方法对所述步骤1预处理后的鱼类音频信号进行声音特征提取,得到鱼类音频的Mel声谱图特征信息;S3.构建TAP
‑
SEResNet模型,所述TAP
‑
SEResNet模型包括SEResNet模块、SE注意力机制模块、TAP模块、全连接层模块和Softmax分类器模块;S4.将所述步骤S2得到的Mel声谱图特征信息输入所述步骤S3构建的TAP
‑
SEResNet模型中,通过SEResNet模块的残差连接,得到鱼类原始声音特征,通过嵌入的SE注意力机制模块对Mel声谱图特征信息进行关键特征加权计算,获得鱼类声音关键信息,将获得的所述鱼类声音关键信息和所述鱼类原始声音特征相加,得到鱼类声音信息特征;S5.将所述步骤S4得到的所述鱼类声音信息特征输入所述TAP模块,所述鱼类声音信息特征经过卷积处理后得到特征向量,将所述特征向量同时进行平均池化和最大池化,将平均池化和最大池化的输出结果进行拼接,得到深层声音特征向量;S6.将所述步骤S5得到的所述深层声音特征向量输入所述全连接层模块进行信息整合,得到声音特征整合信息;S7.将所述步骤S6得到的所述声音特征整合信息输入所述Softmax分类器模块进行分类,输出鱼类行为识别结果。2.根据权利要求1所述的一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,其特征在于,所述步骤S1中,通过水听器采集养殖水域中的所述鱼类音频信号,鱼类每个行为采集时长为120s,将采集到的鱼类音频信号按照每段2s进行人工切分并编号,另设一组空白噪声对照组同步采集环境噪声,所述空白噪声对照组用于区分鱼类音频信号和噪声音频信号,将编号后的鱼类音频信号中的噪声音频信号去除,得到预处理后的鱼类音频信号。3.根据权利要求2所述的一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,其特征在于,所述步骤S2中,所述Mel声谱图特征提取方法包括通过Mel滤波器对鱼类音频信号进行傅里叶变换,将能量非线性映射到频域梅尔刻度上,提取出傅里叶变换后的鱼类音频信号中的重要频率特征,在频率轴上对鱼类音频信号进行压缩,提取出鱼类细粒度声音信息,得到鱼类音频的Mel声谱图特征信息。4.根据权利要求3所述的一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,其特征在于,所述步骤S3中,所述SE注意力机制模块包括:池化层模块,用于获取Mel声谱图特征信息中的全局信息;第一全连...
【专利技术属性】
技术研发人员:于红,杨雨欣,杨宗轶,涂万,张鑫,林远山,
申请(专利权)人:大连海洋大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。