一种声学场景与声音事件联合任务分析方法技术

技术编号：41157538 阅读：6 留言：0更新日期：2024-04-30 18:21

本发明专利技术公开了一种基于多任务学习的声学场景与声音事件联合分析方法，目标是通过加入额外的声音事件信息，重点提升声学场景感知的性能，包括：将Multi‑gate Mixture‑of‑Experts模型引入声学领域，替代传统多任务学习模型，弱化任务间差异带来的固有冲突。在Multi‑gate Mixture‑of‑Experts模型基础上增加两条信息交互分支，提出一种新的模型—Cross_MMoE。将Class‑Balanced Loss代替传统的多任务加权损失，在传统多任务模型、MMoE模型、Cross_MMoE模型进行评估，得到评估结果。本发明专利技术的优点是：利用多任务学习策略对声学领域相关联的两个任务进行联合分析，降低了计算和存储成本，大大增加了推理速度，并且提高了声学场景分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及声学场景分类和声音事件检测，特别涉及一种基于cross_mmoe模型和class-balanced loss的多任务学习的声学场景与声音事件联合分析方法。

技术介绍

1、多任务学习(multitask learning，mtl)是通过同时学习多个相关联的任务，利用不同任务间丰富的关联信息，达到相互提升任务性能的目标。多任务学习应用范围广泛，从计算机视觉到自然语言处理领域，甚至推荐领域也可以通过采用多任务学习方式进行目标的优化，例如，电商场景的优化目标需要考虑收藏量、加购物车数量、购买量等指标，这些任务之间是有关联的。若采用一个模型来进行多任务学习，不仅节省数据处理、训练、部署的成本，还能提升学习效率和预测准确性。

2、随着现代智能设备的飞速发展，环境声音的自动分析有了更广泛的应用，例如智能驾驶、异常声音检测系统、听力障碍支持系统等。大多数研究分别针对声学场景分类(asc)和声音事件检测(sed)进行分析，但这二者之间有着密切的关系，声音事件信息可以辅助进行声音场景分类，例如，将声音事件信息作为先验信息，可以缩小可能的场景类型的范围。通过结合声音事件信息，可以提升声学场景分类的性能。与标准的单任务学习相比，多任务学习的方法可以从网络结构与损失函数两个角度出发设计，以提升任务性能。模型网络结构的不断创新，解决的是多个任务之间如何最高效的实现参数的共享与分离，让模型既能融合不同任务之间的共性，又能给每个任务提供独立的空间防止干扰。另一个角度是如何优化多任务学习的训练过程，如损失函数的优化。

3、模

4、损失函数方面，多任务学习训练过程中，损失函数的设计也是影响模型表达能力的重要因素。一般来说，损失函数是由不同任务损失加权得到的，损失函数的权重在训练过程中是恒定的或需要手动调整，而模型性能高度依赖于损失函数权重的选择，但搜索最优权重的成本高得令人望而却步，而且很难通过手动调整来解决。尽管采用动态权重自适应方法可以一定程度上改进上述问题，但在模型和数据集通用性方面存在一定的局限性。

5、参考文献

6、[1]y.zhang,and q.yang,“a survey on multi-task learning,”ieeetransactions on knowledge and data engineering,vol.34,no.12,pp.5586-5609,2021；

7、[2]y.hou,b.kang,w.van hauwermeiren et al.,"relation-guided acousticscene classification aided with event embeddings."pp.1-8,2022。

技术实现思路

1、本专利技术针对现有技术的缺陷，提供了一种声学场景与声音事件联合任务分析方法，通过结合声音事件信息，重点提升声学场景分类的性能。

2、为了实现以上专利技术目的，本专利技术采取的技术方案如下：

3、一种声学场景与声音事件联合任务分析方法，其特征在于，包括以下步骤：

4、1)音频特征提取：收集原始音频数据，采用梅尔频谱倒谱系数将原始音频数据转换为音频特征；

5、2)基线模型构建：构建共享底层网络，包括三组3×3卷积和2×2最大池化层，基线模型中使用crnn模型用于声音事件分类任务分支，基线模型中使用cnn用于声学场景分类任务分支；

6、3)基线模型训练：使用基线模型的结构和参数进行训练；通过输入音频特征，训练模型并进行场景和事件感知能力学习；

7、4)mmoe模型构建：在共享底层网络上使用多个专家网络和门控单元构建mmoe模型的初始版本；mmoe模型中使用crnn模型用于声音事件分类任务分支，mmoe模型中使用cnn用于声学场景分类任务分支；通过实验调整，找到最佳的专家网络数量；

8、5)mmoe模型训练：输入音频特征并对mmoe模型进行训练和优化，进行场景和事件感知能力学习；

9、6)cross_mmoe模型构建和训练：在mmoe模型基础上，增加两条信息交互分支，得到cross_mmoe模型；输入音频特征并对cross_mmoe模型进行训练和优化，进行场景和事件感知能力学习；

10、7)class-balanced loss使用：替换基线模型、mmoe模型和cross_mmoe模型中的交叉熵损失函数为class-balanced loss，进行声学场景分类任务评估；

11、8)评估模型：对基线模型、mmoe模型和cross_mmoe模型进行评估，检查其在声学场景感知任务上的f1值，得到评估结果。

12、进一步地，步骤4)中mmoe模型的底层模型结构包含三个专家网络，每个专家网络是一个前馈网络，为每个任务引入一个门控单元，门控单元通过softmax函数输出不同的权重，将权重与每个专家网络的输出结果进行加权求和，作为声学场景与声音事件两条任务分支的输入；

13、mmoe模型能够明确地对任务关系进行建模，并学习特定于任务的功能以利用共享表示法，允许自动分配参数以捕获共享任务信息或特定于任务的信息。

14、进一步地，步骤6)中将声音事件分类任务分支的输出与共享底层网络的输出相加后作为声音场景分类任务分支的输入，采用同样的方式丰富声音事件分类任务分支的输入信息，增加两个任务间的交互信息。

15、进一步地，步骤7)中使用class-balanced loss替代传统的交叉熵损失函数，引入与有效样本数量成反比的加权因子。

16、进一步地，所述class-balanced loss用以下公式表示：

17、

18、式中，p表示：模型估计的类别概率向量，表示样本属于各个类别的概率。向量长度为c，c是类别总数。

19、y表示：样本的真实标签，属于类别{1,2,…,c}中的一个。

20、表示：第y类数据的有效样本数，表示目标类别的有效样本数量。通过加权因子来计算，加权因子由参数β决定。

21、l(p,y)表示：损失函数。

22、与现有技术相比，本专利技术的优点在于：

23、1.突破传统多任务学习模型的局限性：首次将mmoe模型引入声学场景和事件感知领域，替代传统的多任务学习模型，增强了处理不同任务的性能，可以提高模型的性能和准确率。mmoe通过引入多个专家网络和门控机制，可以实现自动调整建模共享信息和建模任务特定信息之间的参数化程度，提高模型的表达能力，在一定程度上解决了传统多任务学习模型由于任务差异引起的性能冲突现象。在数据集类本文档来自技高网...

【技术保护点】

1.一种声学场景与声音事件联合任务分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种声学场景与声音事件联合任务分析方法，其特征在于：步骤4)中MMoE模型的底层模型结构包含三个专家网络，每个专家网络是一个前馈网络，然后为每个任务引入一个门控单元，门控单元通过softmax函数输出不同的权重，然后将权重与每个专家网络的输出结果进行加权求和，作为声学场景与声音事件两条任务分支的输入；

3.根据权利要求1所述的一种声学场景与声音事件联合任务分析方法，其特征在于：步骤6)中将声音事件分类任务分支的输出与共享底层网络的输出相加后作为声音场景分类任务分支的输入，采用同样的方式丰富声音事件分类任务分支的输入信息，增加两个任务间的交互信息。

4.根据权利要求1所述的一种声学场景与声音事件联合任务分析方法，其特征在于：步骤7)中使用Class-Balanced Loss替代传统的交叉熵损失函数，引入与有效样本数量成反比的加权因子。

5.根据权利要求1所述的一种声学场景与声音事件联合任务分析方法，其特征在于：所述Class-Balanced Loss用以下公式表示：

...

【技术特征摘要】

1.一种声学场景与声音事件联合任务分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种声学场景与声音事件联合任务分析方法，其特征在于：步骤4)中mmoe模型的底层模型结构包含三个专家网络，每个专家网络是一个前馈网络，然后为每个任务引入一个门控单元，门控单元通过softmax函数输出不同的权重，然后将权重与每个专家网络的输出结果进行加权求和，作为声学场景与声音事件两条任务分支的输入；

3.根据权利要求1所述的一种声学场景与声音事件联合任务分析方法，其特征在于：步骤6)中将...

【专利技术属性】
技术研发人员：武梦龙，张琳，张海月，蔡希昌，黄明，邢喆，
申请(专利权)人：北方工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人