基于通道注意力与残差门控卷积的生猪声音事件检测方法及装置制造方法及图纸

技术编号:34641750 阅读:8 留言:0更新日期:2022-08-24 15:17
本发明专利技术公开了一种基于通道注意力与残差门控卷积的生猪声音事件检测方法及装置,方法包括,首先采集生猪声音数据,并对声音数据进行预处理;然后使用快速傅里叶变换,得到频谱图,并使用谱减法去除环境噪音;再使用单参数双门限端点检测方法,检测并裁剪得到频谱图中的含生猪声音的片段,将这些片段转换为梅尔频谱图;接下来构建基于通道注意力与残差门控卷积的深度特征提取器,提取基于梅尔频谱图的声音深度特征;最后,设计基于双向循环递归

【技术实现步骤摘要】
基于通道注意力与残差门控卷积的生猪声音事件检测方法及装置


[0001]本专利技术属于音频检测、声音识别的
,具体涉及一种基于通道注意力与残差门控卷积的生猪声音事件检测方法及装置。

技术介绍

[0002]动物疫病多发常发,内疫扩散和外疫传入的风险成为了畜牧业发展的重大挑战。现有的生猪疫病检测方法主要依靠人为蹲点检测、近距离观察,凭借经验判定,这些方法误判率高、耗时耗力,且容易造成猪只的应激反应和疾病的扩散。声音信号是生猪状态的一种表征,也是生猪之间交流的途径,包括生猪对内部机体状态和需求的反馈信息,蕴含着丰富的信息,有经验的畜牧工作者可以通过生猪的叫声了解生猪当前的状况。如当猪疫病产生时,猪会因为体温变化、呼吸道感染等原因产生声音变化。例如蓝耳病、猪流感、猪伪狂犬病、猪支气管炎等疫病会引起猪的咳嗽气喘。通过音频检测技术监测咳嗽、气喘、咆哮等许多疾病共有的征兆性症状的声音事件,有利于疫病的早发现、早治疗,是实现疫病监测的自动化、信息化的有效手段。

技术实现思路

[0003]本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于通道注意力与残差门控卷积的生猪声音事件检测方法及装置,本专利技术展示了如何在音频数据中基于通道注意力与残差门控卷积模块进行声音事件检测,可精确快速地提取长时间、多噪音的养殖场环境内反应生猪声音事件时域分布结果。
[0004]为了达到上述目的,本专利技术采用以下技术方案:
[0005]本专利技术提供了一种基于通道注意力与残差门控卷积的生猪声音事件检测方法,包括下述步骤:
[0006]采集养殖场内的生猪声音数据,并对部分生猪声音数据中的生猪声音事件类别和起止时间进行标注,形成带标签的标准数据集;
[0007]对所述标准数据集中的声音信号进行预处理,得到经预处理的频谱图;
[0008]提取经预处理的频谱图中含生猪声音的片段,并将这些片段转换为梅尔频谱图;
[0009]构建声音深度特征提取器,将梅尔频谱图输入深度特征提取器进行特征提取,得到深度特征图;所述声音深度特征提取器包括残差门控卷积模块与通道注意力模块,所述残差门控卷积模块用于提取梅尔频谱图于空间分布的深度特征,引导网络学习声音的高级语义信息;所述通道注意力模块用于将残差门控卷积模块提取的多通道特征图进行处理,利用深度特征图各通道间的相互依赖关系,自适应校准不同感受野下的特征响应;
[0010]基于双向循环递归

前馈神经网络设计帧级别声音分类器,利用帧级别声音分类器对所述深度特征图进行帧级别分类,得到每一帧的声音事件标签,最终输出生猪声音事件时域分布结果,所述生猪声音事件时域分布结果含生猪声音的事件类别和起止时间。
[0011]作为优选的技术方案,所述对所述标准数据集中的声音信号进行预处理,具体为:
[0012]对声音信号进行进行重采样,将声音信号统一为同一采样率;
[0013]对重采样后的声音信号进行预加重处理,音频信号的高频分量进行补偿
[0014]对预加重后的声音信号进行短时离散傅里叶变换,得到声音信号的频谱图;
[0015]对频谱图使用谱减法去噪。
[0016]作为优选的技术方案,所述提取经预处理的频谱图中含生猪声音的片段,并将这些片段转换为梅尔频谱图,具体为:
[0017]基于短时能量的单参数双门限端点检测方法计算每一帧声音信号的短时能量,根据短时能量判断该帧是否含生猪声音,裁剪含生猪声音的帧对应的频谱图,得到频谱图中的含生猪声音的片段;对生猪声音信号y(n)的第v帧生猪声音信号y
v
(n),有短时能量E
v
的计算公式:
[0018][0019]式中,L表示帧长,n代表猪声音样本采样点序号;所述单参数双门限端点检测方法中:单参数即幅值归一化后的短时能量;双门限即设定两个不同的阈值作为门限,其中低门限判定该帧是否是声音帧,高门限判定是否含猪声音;在短时能量超过高门限时作为含生猪声音的帧开始,在低于低门限时作为含生猪声音的帧结束;
[0020]将含生猪声音的频谱图片段通过梅尔滤波器组,得到梅尔频谱图,转换公式为:
[0021][0022]式中,f代表音频数据原本频率,m代表转换后的梅尔频率。
[0023]作为优选的技术方案,所述残差门控卷积模块包括:多个残差门控卷积单元,每个单元含一个门控卷积层与一个残差跳层;对于第l层残差门控卷积单元,执行步骤如下两步:
[0024]第一步,首先,将特征图X
l
分别输入门控卷积层内的卷积模块U与V;其次,分别经过sigmoid函数与线性函数激活,得到声音特征图与注意力掩膜;再次,将声音特征图与注意力掩膜进行逐元素积计算,得到第l层门控卷积层的输出Y
l
,计算公式如下:
[0025]Y
l
=(U*X
l
+b)

σ(V*X
l
+c)
[0026]式中,b、c为偏移量,σ为sigmoid函数计算,*为卷积操作,

为哈达玛积操作;
[0027]第二步,第l层残差门控卷积单元的输出R
l
由第l层门控卷积层的输出Y
l
与输入特征图X
l
相加形成,形成残差跳层连接,该步骤表达式为:
[0028][0029]作为优选的技术方案,所述通道注意力模块包括:一个全局最大池化、一个平均池化层、双层神经网络;所述通道注意力模块的执行步骤如下:
[0030]首先将第l层残差门控卷积模块的输出R
l
分别输入全局平均池化层与全局最大池化层,对特征图的每一通道做全局平均操作与取全局空间最大值操作,从而提取特征图每一通道全局特征,形成全局信息嵌入;接下来将通道全局特征输入到双层神经网络中,所述
双层神经网络参数共享,第一层网络的激活函数为ReLu函数,第二层激活函数使用sigmoid函数,从而将输出特征限制在[0,1]的范围内,得到声音深度特征图;
[0031]所述全局平均池化层的表达式为:
[0032][0033]其中,W为特征图的长度,H为特征图的宽度,r
c
(i,j)为c通道上于坐标(i,j)的特征图像素值,AP
l
为第l层全局平均信息嵌入;
[0034]所述全局最大池化层的表达式为:
[0035][0036]其中,R
WH
表示长度为W,宽为H的特征图,r
c
(i,j)为c通道上于坐标(i,j)的特征图像素值,MP
l
为第l层全局最大化信息嵌入;
[0037]综上,所述通道注意力模块全流程的表达式为:
[0038]M=σ(MLP(AvgPool(R
WH
))+MLP(MaxPool(R
WH
)))
[0039]式中,M为所述通道注意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于通道注意力与残差门控卷积的生猪声音事件检测方法,其特征在于,包括下述步骤:采集养殖场内的生猪声音数据,并对部分生猪声音数据中的生猪声音事件类别和起止时间进行标注,形成带标签的标准数据集;对所述标准数据集中的声音信号进行预处理,得到经预处理的频谱图;提取经预处理的频谱图中含生猪声音的片段,并将这些片段转换为梅尔频谱图;构建声音深度特征提取器,将梅尔频谱图输入深度特征提取器进行特征提取,得到深度特征图;所述声音深度特征提取器包括残差门控卷积模块与通道注意力模块,所述残差门控卷积模块用于提取梅尔频谱图于空间分布的深度特征,引导网络学习声音的高级语义信息;所述通道注意力模块用于将残差门控卷积模块提取的多通道特征图进行处理,利用深度特征图各通道间的相互依赖关系,自适应校准不同感受野下的特征响应;基于双向循环递归

前馈神经网络设计帧级别声音分类器,利用帧级别声音分类器对所述深度特征图进行帧级别分类,得到每一帧的声音事件标签,最终输出生猪声音事件时域分布结果,所述生猪声音事件时域分布结果含生猪声音的事件类别和起止时间。2.根据权利要求1所述基于通道注意力与残差门控卷积的生猪声音事件检测方法,其特征在于,所述对所述标准数据集中的声音信号进行预处理,具体为:对声音信号进行进行重采样,将声音信号统一为同一采样率;对重采样后的声音信号进行预加重处理,音频信号的高频分量进行补偿对预加重后的声音信号进行短时离散傅里叶变换,得到声音信号的频谱图;对频谱图使用谱减法去噪。3.根据权利要求1所述基于通道注意力与残差门控卷积的生猪声音事件检测方法,其特征在于,所述提取经预处理的频谱图中含生猪声音的片段,并将这些片段转换为梅尔频谱图,具体为:基于短时能量的单参数双门限端点检测方法计算每一帧声音信号的短时能量,根据短时能量判断该帧是否含生猪声音,裁剪含生猪声音的帧对应的频谱图,得到频谱图中的含生猪声音的片段;对生猪声音信号y(n)的第v帧生猪声音信号y
v
(n),有短时能量E
v
的计算公式:式中,L表示帧长,n代表猪声音样本采样点序号;所述单参数双门限端点检测方法中:单参数即幅值归一化后的短时能量;双门限即设定两个不同的阈值作为门限,其中低门限判定该帧是否是声音帧,高门限判定是否含猪声音;在短时能量超过高门限时作为含生猪声音的帧开始,在低于低门限时作为含生猪声音的帧结束;将含生猪声音的频谱图片段通过梅尔滤波器组,得到梅尔频谱图,转换公式为:式中,f代表音频数据原本频率,m代表转换后的梅尔频率。4.根据权利要求1所述基于通道注意力与残差门控卷积的生猪声音事件检测方法,其
特征在于,所述残差门控卷积模块包括:多个残差门控卷积单元,每个单元含一个门控卷积层与一个残差跳层;对于第l层残差门控卷积单元,执行步骤如下两步:第一步,首先,将特征图X
l
分别输入门控卷积层内的卷积模块U与V;其次,分别经过sigmoid函数与线性函数激活,得到声音特征图与注意力掩膜;再次,将声音特征图与注意力掩膜进行哈达玛积计算,得到第l层门控卷积层的输出Y
l
,计算公式如下:Y
l
=(U*X
l
+b)

σ(V*X
l
+c)式中,b、c为偏移量,σ为sigmoid函数计算,*为卷积操作,

为哈达玛积操作;第二步,第l层残差门控卷积单元的输出R
l
由第l层门控卷积层的输出Y
l
与输入特征图X
l
相加形成,形成残差跳层连接,该步骤表达式为:5.根据权利要求1所述基于通道注意力与残差门控卷积的生猪声音事件检测方法,其特征在于,所述通道注意力模块包括:一个全局最大池化、一个平均池化层、双层神经网络;所述通道注意力模块的执行步骤如下:首先将第l层残差门控卷积模块的输出R
l
分别输入全局平均池化层与全局最大池化层,对特征图的每一通道做全局平均操作与取全局空间最大值操作,从而提取特征图每一通道全局特征,形成全局信息嵌入;接下来将通道全局特征输入到双层神经网络中,所述双层神经网络参数共享,第一层网络的激活函数为ReLu函数,第二层激活函数使用sigmoid函数,从而将输出特征限制在[0,1]的范围内,得到声音深度特征图;所述全局平均池化层的表达式为:其中,W为特征图的长度,H为特征图的宽度,r
c
(i,j)为c通道上于坐标(i,j)的特征图像素值,AP
l
为第l层全局平均信息嵌入;所述全局最大池化层的表达式为:其中,R
WH
表示长度为W,宽为H的特征图,r
...

【专利技术属性】
技术研发人员:梁云翁诗彤郑燊隆刘定发邱少健刘财兴刘凯罗均
申请(专利权)人:广州市金宝生态农业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1