当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于分组特征校准的声音事件检测方法及系统技术方案

技术编号:38866769 阅读:14 留言:0更新日期:2023-09-22 14:05
本发明专利技术提供一种基于分组特征校准的声音事件检测方法及系统,包括:获取待检测声音事件的音频特征数据;将音频特征数据输入时频学习网络,通过卷积神经网络获取时频谱图,基于多个维度对时频谱图的中间表征进行分组特征学习得到分组强化特征,对分组强化特征进行任务感知激活得到自适应特征;将自适应特征输入上下文建模网络,获取音频信号时域相关性特征,对音频信号时域相关性特征进行分类,得到声音事件类别检测结果。本发明专利技术根据声音事件检测任务中不同类型音频的时频特性引入分组特征校准模块,增强了声音事件检测网络对各类音频的特征表示能力,参数量小且通用性强,以较小的计算代价引入现有的主流声音事件检测模型中并提升其性能。型中并提升其性能。型中并提升其性能。

【技术实现步骤摘要】
一种基于分组特征校准的声音事件检测方法及系统


[0001]本专利技术涉及数字媒体处理
,尤其涉及一种基于分组特征校准的声音事件检测方法及系统。

技术介绍

[0002]在日常生活中,声音信号中蕴含着丰富的场景信息和事件信息,声音事件检测技术(Sound Event Detection,SED)通过对音频信号的语义特征进行分析,挖掘音视频信号中的异常事件,在城市安防监控、网络空间内容安全审查等领域具有重要的应用价值。
[0003]SED包括事件分类和边界检测两个子任务,分别旨在识别声音片段中各种并发事件的类别以及各类事件发生的时间边界。目前,基于深度神经网络的SED模型最常用的架构是卷积递归神经网络(Convolutional Recurrent Neural Network,CRNN),如图1所示,对于输入网络的前端音频特征,首先使用卷积神经网络(Convolutional Neural Network,CNN)等时频学习网络提取时频谱图上具有平移不变性的高级特征并逐步压缩频率维度,然后使用递归神经网络(Recurrent Neural Network,RNN)等上下文建模网络学习音频信号时域上的长时相关性。由于声音事件在自然世界中的表现复杂多变,不同事件具有不同的持续时长和频率分布,构成了复杂的时频动态,因此提取有效的高维时频表征是提升模型检测能力的关键。
[0004]现有工作大多聚焦于从结构上优化时频学习网络,以获取更有效的特征表示。针对时频学习网络的优化旨在获取更有效的时频关系建模,可大致分类为基于特征选择的方法和基于表征学习的方法。基于特征选择的方法中,一种代表性结构是基于池化的注意力模块,如图2所示,该模块从通道维或时频维学习注意力信息后对每层CNN输出的网络表征进行重加权,以获取对下游分类任务更有利的判别性表示。由于只沿单一维度的注意力机制无法适应不同事件的时频表征需求,大部分工作通过并联或串联的方法堆叠融合不同维度的注意力模块。然而,模块的堆叠将导致较高的计算复杂度,无法以较低的成本集成到现有的网络结构中。另外,串联或并联的堆叠方式会一定程度上导致不同维度特征信息的损耗,串联方法还需进一步考虑模块堆叠的先后顺序的影响。基于表征学习的方法中,一个代表性结构是选择性核模块(Selective Kernel,SK),该模块是一个先拆分再融合的结构,将CNN模块由感受野固定的单分支计算改变为具有多个不同卷积核大小的多分支计算,并通挤压激励(Squeeze Excitation,SE)结构学习不同分支的融合权重,使得不同输入可以在一定范围内自适应地调节感受野大小。在SED任务中,该结构可以从局部捕获时频动态较复杂的声音事件,对短时非平稳事件的检测性能提升显著,但在部分平稳类别上的性能有所下降。基于表征学习方法的另一个代表性结构是频率动态卷积(frequency dynamic convolution),如图3所示。该结构根据不同输入的频带信息自适应地学习卷积核参数,解决了具有固定卷积核的CNN结构的平移不变性不适用于音频频带建模的问题。在SED任务中,该结构可以有效提升SED模型对非平稳声音事件的检测性能,而对频率成分稳定的声音事件的检测性能略有下降。
[0005]可以看出,现有的SED模型通常难以同时适应不同事件的时频表征需求,时频关系稳定的事件频率成分随时间推移近似不变,而时频关系不稳定的事件则需要更灵活的时频建模。此外,SED的事件分类和边界检测两个子任务间也存在需求冲突,事件分类需要更深度、更全局化的表征,通过更大的感受野整合音频上下文信息,而边界检测则更依赖细节信息,需求相对低层次、时间分辨率更高的表征。
[0006]因此,为进一步提升模型的检测性能还需研究更有效的时频特征表示方法,以提高声音事件检测的准确性。

技术实现思路

[0007]本专利技术提供一种基于分组特征校准的声音事件检测方法及系统,用以解决现有技术中SED网络在面对音频复杂的时频动态时表征能力不足的缺陷。
[0008]第一方面,本专利技术提供一种基于分组特征校准的声音事件检测方法,包括:
[0009]获取待检测声音事件的音频特征数据;
[0010]将所述音频特征数据输入时频学习网络,通过卷积神经网络获取时频谱图,基于多个维度对所述时频谱图的中间表征进行分组特征学习得到分组强化特征,对所述分组强化特征进行任务感知激活得到自适应特征;
[0011]将所述自适应特征输入上下文建模网络,获取音频信号时域相关性特征,对所述音频信号时域相关性特征进行分类,得到声音事件类别检测结果。
[0012]根据本专利技术提供的一种基于分组特征校准的声音事件检测方法,基于多个维度对所述时频谱图的中间表征进行分组特征学习得到分组强化特征,包括:
[0013]获取所述时频谱图的任一训练数据,确定所述任一训练数据通过中间特征表示层输出的特征张量包括通道维数、时间维数和频率维数;
[0014]基于所述通道维数,按照预设比例将所述特征张量划分为待校准特征和保留特征;
[0015]将所述待校准特征基于所述通道维数平均划分为时域待校准特征、频域待校准特征、全局待校准特征和局部待校准特征;
[0016]分别对所述时域待校准特征、所述频域待校准特征、所述全局待校准特征和所述局部待校准特征进行特征学习和重加权,得到分组校准特征;
[0017]连接所述分组校准特征与所述保留特征,得到所述分组强化特征。
[0018]根据本专利技术提供的一种基于分组特征校准的声音事件检测方法,对所述时域待校准特征进行特征学习和重加权,包括:
[0019]采用一维频域池化将所述时域待校准特征的频率维数压缩为一维,得到时域中间特征;
[0020]分别通过两个串联的一维卷积将所述时域中间特征的特征通道维数进行压缩和扩张,获取所述时域中间特征的时间上下文依赖特征;
[0021]利用激活函数sigmoid对所述时间上下文依赖特征进行重加权以及扩展至所述时域待校准特征的输入维数后,与所述时域待校准特征相乘得到时域学习特征。
[0022]根据本专利技术提供的一种基于分组特征校准的声音事件检测方法,对所述频域待校准特征进行特征学习和重加权,包括:
[0023]采用一维时域池化将所述频域待校准特征的时间维数压缩为一维,得到频域中间特征;
[0024]通过图注意力网络获取所述频域中间特征的图节点表征集合;
[0025]对所述图节点表征集合中任意两个原始节点表征进行逐元素相乘之后求取双曲正切函数,然后与可学习权重参数相乘,采用归一化指数函数计算得到任意两个节点间注意力权重;
[0026]对所述任意两个节点间注意力权重与任一原始节点表征之积求和,得到任一节点聚合特征;
[0027]通过批次归一化层将所述任一节点聚合特征与所述任一原始节点表征进行残差连接,得到图节点输出特征;
[0028]利用激活函数sigmoid对所述图节点输出特征进行重加权以及扩展至所述频域待校准特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分组特征校准的声音事件检测方法,其特征在于,包括:获取待检测声音事件的音频特征数据;将所述音频特征数据输入时频学习网络,通过卷积神经网络获取时频谱图,基于多个维度对所述时频谱图的中间表征进行分组特征学习得到分组强化特征,对所述分组强化特征进行任务感知激活得到自适应特征;将所述自适应特征输入上下文建模网络,获取音频信号时域相关性特征,对所述音频信号时域相关性特征进行分类,得到声音事件类别检测结果。2.根据权利要求1所述的基于分组特征校准的声音事件检测方法,其特征在于,基于多个维度对所述时频谱图的中间表征进行分组特征学习得到分组强化特征,包括:获取所述时频谱图的任一训练数据,确定所述任一训练数据通过中间特征表示层输出的特征张量包括通道维数、时间维数和频率维数;基于所述通道维数,按照预设比例将所述特征张量划分为待校准特征和保留特征;将所述待校准特征基于所述通道维数平均划分为时域待校准特征、频域待校准特征、全局待校准特征和局部待校准特征;分别对所述时域待校准特征、所述频域待校准特征、所述全局待校准特征和所述局部待校准特征进行特征学习和重加权,得到分组校准特征;连接所述分组校准特征与所述保留特征,得到所述分组强化特征。3.根据权利要求2所述的基于分组特征校准的声音事件检测方法,其特征在于,对所述时域待校准特征进行特征学习和重加权,包括:采用一维频域池化将所述时域待校准特征的频率维数压缩为一维,得到时域中间特征;分别通过两个串联的一维卷积将所述时域中间特征的特征通道维数进行压缩和扩张,获取所述时域中间特征的时间上下文依赖特征;利用激活函数sigmoid对所述时间上下文依赖特征进行重加权以及扩展至所述时域待校准特征的输入维数后,与所述时域待校准特征相乘得到时域学习特征。4.根据权利要求2所述的基于分组特征校准的声音事件检测方法,其特征在于,对所述频域待校准特征进行特征学习和重加权,包括:采用一维时域池化将所述频域待校准特征的时间维数压缩为一维,得到频域中间特征;通过图注意力网络获取所述频域中间特征的图节点表征集合;对所述图节点表征集合中任意两个原始节点表征进行逐元素相乘之后求取双曲正切函数,然后与可学习权重参数相乘,采用归一化指数函数计算得到任意两个节点间注意力权重;对所述任意两个节点间注意力权重与任一原始节点表征之积求和,得到任一节点聚合特征;通过批次归一化层将所述任一节点聚合特征与所述任一原始节点表征进行残差连接,得到图节点输出特征;利用激活函数sigmoid对所述图节点输出特征进行重加权以及扩展至所述频域待校准特征的输入维数后,与所述频域待校准特征相乘得到频域学习特征。
5.根据权利要求2所述的基于分组特征校准的声音事件检测方法,其特征在于,对所述全局待校准特征进行特征学习和重加权,包括:采用二维全局池化将所述全局待校准特征的时间维...

【专利技术属性】
技术研发人员:任延珍刘晨雨刘武洋
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1