当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于注意力机制的多尺度音频场景识别方法技术

技术编号:23316774 阅读:13 留言:0更新日期:2020-02-11 18:24
一种基于注意力机制的多尺度音频场景识别方法:建立基于注意力机制的多尺度音频场景识别卷积神经网络模型,用于准确识别不同频带大小和不同持续时间的音频场景;将包含有不同场景类别的音频文件和对应的场景类别的训练集输入基于注意力机制的多尺度音频场景识别卷积神经网络模型,对基于注意力机制的多尺度音频场景识别卷积神经网络模型进行训练;读取音频文件并进行预处理,得到音频信号片段;从音频信号片段中提取对数梅尔图;将对数梅尔图输入到训练后的基于注意力机制的多尺度音频场景识别卷积神经网络模型中,得到最终的场景类别。本发明专利技术对频带范围和持续时间不同的多尺度声音场景都有很好的识别准确率,可以应用到嵌入式等移动设备中。

A multi-scale audio scene recognition method based on attention mechanism

【技术实现步骤摘要】
一种基于注意力机制的多尺度音频场景识别方法
本专利技术涉及一种音频场景识别方法。特别是涉及一种基于注意力机制的多尺度音频场景识别方法。
技术介绍
音频场景识别是让机器通过处理一段已记录的音频文件或上传的数据流,目的为了让机器能够模仿人类来识别音频背后特定的背景信息(例如:公园、街道或餐厅)的一类方法。在机器学习领域,为了解决场景识别的问题,提出了很多不同的模型和音频特征表示方法。早在1997年,就已经出现利用神经网络解决场景音频的问题的相关研究了。1998年Liu等人使用循环神经网络(RecurrentNeuralNetworks,RNNs)和最近邻分类器对五类不同的环境声音进行区分。然而,由于训练过程中引进了过多的参数,以上两种神经网络的模型复杂度非常高,且训练后性能表现较差。在2013年由IEEEAASP举办的比赛中,许多参赛队伍试图利用一些传统的机器学习方法,例如高斯混合模型(GaussianMixtureModels,GMMs)、支持向量机(SupportVectorMachines,SVMs)、基于树的分类方法(Tree-basedMethods)和基于包的分类方法(Bag-basedMethods),来区分10类不同的声音场景类别。尽管这些方法有着较低的计算复杂度,但由于它们的模型结构相对简单并且无法充分利用当今大数据潮流下提供的越来越多的数据,传统机器学习方法无法达到令人满意的音频场景识别效果。近年来,卷积神经网络(ConvolutionalNeuralNetworks,CNNs)的提出推动了神经网络和深度学习在模式识别等领域的应用。其中局部感知和权重共享的思想在减少模型参数的同时,也可以捕获更多的特征从而提高网络模型性能。2017年Valenti等人将CNN应用在音频场景识别领域,并取得了不错的效果。2018年Kong等人提出了8层卷积操作的CNN结构,并在2018年由IEEEAASP举办的DECASE挑战赛上取得了不错的成绩。然而,现存基于CNNs的方法中,往往利用单一尺度的声音特征进行场景识别,使得训练好的模型往往适用于某类或某几类特殊的场景,导致整体场景识别准确率不理想。
技术实现思路
本专利技术所要解决的技术问题是,提供一种具有更高的准确率和更好的实时性的基于注意力机制的多尺度音频场景识别方法。本专利技术所采用的技术方案是:一种基于注意力机制的多尺度音频场景识别方法,包括如下步骤:1)建立基于注意力机制的多尺度音频场景识别卷积神经网络模型,用于准确识别不同频带大小和不同持续时间的音频场景;2)将包含有不同场景类别的音频文件和对应的场景类别的训练集输入基于注意力机制的多尺度音频场景识别卷积神经网络模型,对基于注意力机制的多尺度音频场景识别卷积神经网络模型进行训练;3)读取音频文件并进行预处理,得到音频信号片段;4)从所述的音频信号片段中提取对数梅尔图;5)将所述的对数梅尔图输入到训练后的基于注意力机制的多尺度音频场景识别卷积神经网络模型中,得到最终的场景类别。步骤1)所述的基于注意力机制的多尺度音频场景识别卷积神经网络模型,包括有依次串联的:用于提取所接收的对数梅尔图的不同尺度的特征的由Xception模型构成特征提取模块,用于对特征提取模块所提取的不同尺度特征进行处理,得到表示不同尺度的特征向量的特征处理模块,用于将表示不同尺度特征向量进行融合及场景分类的注意力模块,以及对特征提取模块输出的最底层尺度特征进行处理后输出给注意力模块的权重分配模块。所述的特征提取模块的第二、第三和第四池化层输出的不同尺度特征分别送入特征处理模块,所述的特征提取模块的第一池化层输出的最底层尺度特征送入权重分配模块。所述的特征处理模块,包括有:第一横向连接结构,对所接收的上层尺度特征依次进行1×1卷积处理、3×3卷积处理和全局池化处理后得到上层尺度特征向量,送入注意力模块,并将1×1卷积处理的上层尺度特征信息送入第二横向连接结构;第二横向连接结构,分别对所接收的中层尺度特征进行1×1卷积处理,以及对所接收的上层尺度特征信息进行上采样处理,再将1×1卷积处理的结果与上采样处理的结果相加后的中层尺度特征信息进行3×3卷积处理和全局池化处理后得到中层尺度特征向量,送入注意力模块,并将所述的中层尺度特征信息送入第三横向连接结构;第三横向连接结构,分别对所接收的底层尺度特征进行1×1卷积处理,以及对所接收的中层尺度特征信息进行上采样处理,再将1×1卷积处理的结果与上采样处理的结果相加后的底层尺度特征信息进行3×3卷积处理和全局池化处理后得到底层尺度特征向量,送入注意力模块。所述的权重分配模块包括依次进行的:对最底层尺度特征进行1×1卷积处理、3×3卷积处理、全局池化处理和全连接层处理,得到三个用于对不同尺度分配注意力的权重系数,并送入注意力模块。所述的注意力模块包括将特征处理模块输出的上层尺度特征向量、中层尺度特征向量和底层尺度特征向量利用权重分配模块输出的三个权重系数进行加权平均后,再依次进行全连接层处理和分类处理得到最终的场景类别。步骤3)所述的预处理是对输入的信号进行截断处理,截成固定时长10s的信号片段。步骤4)包括:(1)对输入的音频信号片段进行分帧加窗;(2)将得到的音频帧通过梅尔滤波器组,计算音频帧中的每个时间步范围内通过各梅尔滤波器的能量,将每个时间步范围内得到的所有通过梅尔滤波器的能量组成能量向量,将所有时间步范围内的能量向量合并,得到对应音频帧的二维梅尔图;(3)对所述的二维梅尔图进行对数处理,得到对数梅尔图。本专利技术的一种基于注意力机制的多尺度音频场景识别方法,与传统的单一尺度卷积神经网络方法相比,对频带范围和持续时间不同的多尺度声音场景都有很好的识别准确率。在模型复杂度相当的情况下,本专利技术的方法具有更高的总体准确率。由于本专利技术的方法模型复杂度较低,在实际应用中内存消耗较小,且具有更好的实时性,因此可以应用到嵌入式等移动设备中。另外,由于使用大量张量计算,本专利技术的方法可应用GPU/TPU等大幅度提升处理速度。附图说明图1是本专利技术一种基于注意力机制的多尺度音频场景识别方法的流程图;图2是本专利技术中基于注意力机制的多尺度音频场景识别卷积神经网络模型示意图;图3是基于注意力机制的多尺度音频场景识别卷积神经网络模型中特征处理模块的第一横向连接结构的示意图;图4是基于注意力机制的多尺度音频场景识别卷积神经网络模型中特征处理模块的第二横向连接结构的示意图;图5是基于注意力机制的多尺度音频场景识别卷积神经网络模型中特征处理模块的第三横向连接结构的示意图;图6是基于注意力机制的多尺度音频场景识别卷积神经网络模型中权重分配模块的示意图;图7是基于注意力机制的多尺度音频场景识别卷积神经网络模型中注意力模块的示意图。具体实施方式下面结合实施例和附图对本专利技术的一种基于注意力机制的多尺度音频本文档来自技高网
...

【技术保护点】
1.一种基于注意力机制的多尺度音频场景识别方法,其特征在于,包括如下步骤:/n1)建立基于注意力机制的多尺度音频场景识别卷积神经网络模型,用于准确识别不同频带大小和不同持续时间的音频场景;/n2)将包含有不同场景类别的音频文件和对应的场景类别的训练集输入基于注意力机制的多尺度音频场景识别卷积神经网络模型,对基于注意力机制的多尺度音频场景识别卷积神经网络模型进行训练;/n3)读取音频文件并进行预处理,得到音频信号片段;/n4)从所述的音频信号片段中提取对数梅尔图;/n5)将所述的对数梅尔图输入到训练后的基于注意力机制的多尺度音频场景识别卷积神经网络模型中,得到最终的场景类别。/n

【技术特征摘要】
1.一种基于注意力机制的多尺度音频场景识别方法,其特征在于,包括如下步骤:
1)建立基于注意力机制的多尺度音频场景识别卷积神经网络模型,用于准确识别不同频带大小和不同持续时间的音频场景;
2)将包含有不同场景类别的音频文件和对应的场景类别的训练集输入基于注意力机制的多尺度音频场景识别卷积神经网络模型,对基于注意力机制的多尺度音频场景识别卷积神经网络模型进行训练;
3)读取音频文件并进行预处理,得到音频信号片段;
4)从所述的音频信号片段中提取对数梅尔图;
5)将所述的对数梅尔图输入到训练后的基于注意力机制的多尺度音频场景识别卷积神经网络模型中,得到最终的场景类别。


2.根据权利要求1所述的一种基于注意力机制的多尺度音频场景识别方法,其特征在于,步骤1)所述的基于注意力机制的多尺度音频场景识别卷积神经网络模型,包括有依次串联的:用于提取所接收的对数梅尔图的不同尺度的特征的由Xception模型构成特征提取模块(1),用于对特征提取模块(1)所提取的不同尺度特征进行处理,得到表示不同尺度的特征向量的特征处理模块(2),用于将表示不同尺度特征向量进行融合及场景分类的注意力模块(4),以及对特征提取模块(1)输出的最底层尺度特征进行处理后输出给注意力模块(4)的权重分配模块(3)。


3.根据权利要求2所述的一种基于注意力机制的多尺度音频场景识别方法,其特征在于,所述的特征提取模块(1)的第二、第三和第四池化层输出的不同尺度特征分别送入特征处理模块(2),所述的特征提取模块(1)的第一池化层输出的最底层尺度特征送入权重分配模块(4)。


4.根据权利要求2所述的一种基于注意力机制的多尺度音频场景识别方法,其特征在于,所述的特征处理模块(2),包括有:
第一横向连接结构(2.1),对所接收的上层尺度特征依次进行1×1卷积处理、3×3卷积处理和全局池化处理后得到上层尺度特征向量,送入注意力模块(4),并将1×1卷积处理的上层尺度特征信息送入第二横向连接结构(2.2);
第二横向连接结构(2....

【专利技术属性】
技术研发人员:张涛梁晋华
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1