一种基于分组特征校准的声音事件检测方法及系统技术方案

技术编号：38866769 阅读：14 留言：0更新日期：2023-09-22 14:05

本发明专利技术提供一种基于分组特征校准的声音事件检测方法及系统，包括：获取待检测声音事件的音频特征数据；将音频特征数据输入时频学习网络，通过卷积神经网络获取时频谱图，基于多个维度对时频谱图的中间表征进行分组特征学习得到分组强化特征，对分组强化特征进行任务感知激活得到自适应特征；将自适应特征输入上下文建模网络，获取音频信号时域相关性特征，对音频信号时域相关性特征进行分类，得到声音事件类别检测结果。本发明专利技术根据声音事件检测任务中不同类型音频的时频特性引入分组特征校准模块，增强了声音事件检测网络对各类音频的特征表示能力，参数量小且通用性强，以较小的计算代价引入现有的主流声音事件检测模型中并提升其性能。型中并提升其性能。型中并提升其性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分组特征校准的声音事件检测方法及系统

[0001]本专利技术涉及数字媒体处理
，尤其涉及一种基于分组特征校准的声音事件检测方法及系统。

技术介绍

[0002]在日常生活中，声音信号中蕴含着丰富的场景信息和事件信息，声音事件检测技术(Sound Event Detection，SED)通过对音频信号的语义特征进行分析，挖掘音视频信号中的异常事件，在城市安防监控、网络空间内容安全审查等领域具有重要的应用价值。
[0003]SED包括事件分类和边界检测两个子任务，分别旨在识别声音片段中各种并发事件的类别以及各类事件发生的时间边界。目前，基于深度神经网络的SED模型最常用的架构是卷积递归神经网络(Convolutional Recurrent Neural Network，CRNN)，如图1所示，对于输入网络的前端音频特征，首先使用卷积神经网络(Convolutional Neural Network，CNN)等时频学习网络提取时频谱图上具有平移不变性的高级特征并逐步压缩频率维度，然后使用递归神经网络(Recurrent Neural Network，RNN)等上下文建模网络学习音频信号时域上的长时相关性。由于声音事件在自然世界中的表现复杂多变，不同事件具有不同的持续时长和频率分布，构成了复杂的时频动态，因此提取有效的高维时频表征是提升模型检测能力的关键。
[0004]现有工作大多聚焦于从结构上优化时频学习网络，以获取更有效的特征表示。针对时频学习网络的优化旨在获取更有效的时频关系建模，可大致分...

【技术保护点】

【技术特征摘要】
1.一种基于分组特征校准的声音事件检测方法，其特征在于，包括：获取待检测声音事件的音频特征数据；将所述音频特征数据输入时频学习网络，通过卷积神经网络获取时频谱图，基于多个维度对所述时频谱图的中间表征进行分组特征学习得到分组强化特征，对所述分组强化特征进行任务感知激活得到自适应特征；将所述自适应特征输入上下文建模网络，获取音频信号时域相关性特征，对所述音频信号时域相关性特征进行分类，得到声音事件类别检测结果。2.根据权利要求1所述的基于分组特征校准的声音事件检测方法，其特征在于，基于多个维度对所述时频谱图的中间表征进行分组特征学习得到分组强化特征，包括：获取所述时频谱图的任一训练数据，确定所述任一训练数据通过中间特征表示层输出的特征张量包括通道维数、时间维数和频率维数；基于所述通道维数，按照预设比例将所述特征张量划分为待校准特征和保留特征；将所述待校准特征基于所述通道维数平均划分为时域待校准特征、频域待校准特征、全局待校准特征和局部待校准特征；分别对所述时域待校准特征、所述频域待校准特征、所述全局待校准特征和所述局部待校准特征进行特征学习和重加权，得到分组校准特征；连接所述分组校准特征与所述保留特征，得到所述分组强化特征。3.根据权利要求2所述的基于分组特征校准的声音事件检测方法，其特征在于，对所述时域待校准特征进行特征学习和重加权，包括：采用一维频域池化将所述时域待校准特征的频率维数压缩为一维，得到时域中间特征；分别通过两个串联的一维卷积将所述时域中间特征的特征通道维数进行压缩和扩张，获取所述时域中间特征的时间上下文依赖特征；利用激活函数sigmoid对所述时间上下文依赖特征进行重加权以及扩展至所述时域待校准特征的输入维数后，与所述时域待校准特征相乘得到时域学习特征。4.根据权利要求2所述的基于分组特征校准的声音事件检测方法，其特征在于，对所述频域待校准特征进行特征学习和重加权，包括：采用一维时域池化将所述频域待校准特征的时间维数压缩为一维，得到频域中间特征；通过图注意力网络获取所述频域中间特征的图节点表征集合；对所述图节点表征集合中任意两个原始节点表征进行逐元素相乘之后求取双曲正切函数，然后与可学习权重参数相乘，采用归一化指数函数计算得到任意两个节点间注意力权重；对所述任意两个节点间注意力权重与任一原始节点表征之积求和，得到任一节点聚合特征；通过批次归一化层将所述任一节点聚合特征与所述任一原始节点表征进行残差连接，得到图节点输出特征；利用激活函数sigmoid对所述图节点输出特征进行重加权以及扩展至所述频域待校准特征的输入维数后，与所述频域待校准特征相乘得到频域学习特征。
5.根据权利要求2所述的基于分组特征校准的声音事件检测方法，其特征在于，对所述全局待校准特征进行特征学习和重加权，包括：采用二维全局池化将所述全局待校准特征的时间维...

【专利技术属性】
技术研发人员：任延珍，刘晨雨，刘武洋，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人