一种基于多任务学习的音频事件检测方法及系统技术方案

技术编号:31826871 阅读:18 留言:0更新日期:2022-01-12 12:55
本发明专利技术提供了一种基于多任务学习的音频事件检测方法及系统,该方法包括基于待检测音频片段的特征矩阵,采用训练好的音频事件检测模型,得到待检测音频片段中的音频事件;所述音频事件检测模型训练的过程包括:根据音频片段中的每个音频帧,得到音频片段中所有帧在音频事件检测输出层的输出值与在音频事件类型个数分类输出层的输出值,基于在音频事件检测输出层的输出值求得交叉熵和,基于在音频事件类型个数分类输出层的输出值求得差值平方和;采用交叉熵和与差值平方和构造损失函数,训练音频事件检测模型,得到训练好的音频事件检测模型。本发明专利技术可以显著提高音频事件检测准确率;在同等检测性能下,大幅度减少模型参数的数量,提高运算效率。提高运算效率。提高运算效率。

【技术实现步骤摘要】
一种基于多任务学习的音频事件检测方法及系统


[0001]本专利技术属于音频事件检测相关
,尤其涉及一种基于多任务学习的音频事件检测方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]音频事件检测是指检测音频流中存在的音频事件的类型和起止时间。音频事件检测具有广阔的应用前景,可以用于音频安全监控、生物声学研究、城市声音分析等,因此,音频事件检测的研究得到学术界广泛重视。音频流中不同类型的音频事件往往在时间上互相交叠,且音频流中经常掺杂有各种噪声,这为音频事件的准确检测带来极大的困难和挑战。
[0004]近年来,有研究提出采用多任务学习的方式提高音频事件检测的准确率,即,为音频事件检测任务添加一个辅助任务,通过搭建模型同时完成两个任务,通过辅助任务来辅助提高音频事件检测准确率。有的研究为音频事件检测任务添加了音频场景识别这一辅助任务,但是音频场景识别辅助任务需要额外标注音频文档的场景标签,增加了人工标注工作量。

技术实现思路

[0005]本专利技术为了解决上述辅助任务需要额外标注,增加了人工标注工作量的问题,提供了一种基于多任务学习的音频事件检测方法及系统,该方法通过为音频事件检测任务添加音频事件类型个数分类辅助任务,在一个模型中同时实现音频事件检测和音频事件类型个数分类,以提高音频事件检测准确率,同时,在提高准确率的基础上不额外增加人工标注工作量。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]本专利技术的第一个方面提供一种基于多任务学习的音频事件检测方法。
[0008]一种基于多任务学习的音频事件检测方法,包括:
[0009]基于待检测音频片段的特征矩阵,采用训练好的音频事件检测模型,得到待检测音频片段中的音频事件;
[0010]所述音频事件检测模型训练的过程包括:
[0011]根据音频片段中的每个音频帧,得到音频片段中所有帧在音频事件检测输出层的输出值与在音频事件类型个数分类输出层的输出值,基于在音频事件检测输出层的输出值求得交叉熵和,基于在音频事件类型个数分类输出层的输出值求得差值平方和;
[0012]采用交叉熵和与差值平方和构造损失函数,训练音频事件检测模型,得到训练好的音频事件检测模型。
[0013]进一步的,在所述求得交叉熵和与差值平方和之前包括:获取音频片段,提取每个音频片段的特征矩阵,为音频片段内每个音频帧添加音频事件标签和音频事件类型个数标
签,构建音频特征训练集。
[0014]进一步的,提取每个音频片段的特征矩阵的过程包括:对音频片段进行分帧处理,提取每帧的音频特征,每个音频片段内所有帧的音频特征构成该音频片段的特征矩阵。
[0015]进一步的,所述为音频片段内每个音频帧添加音频事件标签和音频事件类型个数标签的过程包括:假设训练集中共有m个不同类型的音频事件,则音频事件标签为m维向量,向量中的元素取值为0或1,如果音频帧中包含了某个类型的音频事件,则该类型音频事件所对应的标签向量位置处的元素值为1,否则为0;为音频片段内每个音频帧添加音频事件类型个数标签,音频事件类型个数通过统计音频事件标签中元素1的个数得到。
[0016]进一步的,所述得到音频片段中所有帧在音频事件检测输出层的输出值,基于该输出值求得交叉熵和的过程包括:根据音频片段中的每个音频帧,计算每个音频帧在音频事件检测输出层的输出值,用该输出值和音频帧的音频事件标签求取交叉熵,将音频片段内所有帧的交叉熵求和得到交叉熵和。
[0017]进一步的,所述得到音频片段中所有帧在音频事件类型个数分类输出层的输出值,基于该输出值求得差值平方和的过程包括:根据音频片段中的每个音频帧,计算每个音频帧在音频事件类型个数分类输出层的输出值,用该输出值和音频帧的音频事件类型个数标签求取差值平方值,将音频片段内所有帧的差值平方值求和得到差值平方和。
[0018]进一步的,所述得到待检测音频片段中的音频事件的过程包括:用和训练阶段相同的方法对待检测音频片段进行分帧处理,提取每帧的音频特征,音频片段内所有帧的音频特征构成待识别音频片段的特征矩阵。以待识别音频片段的特征矩阵作为训练好的音频事件检测模型的输入,在训练好的音频事件检测模型的音频事件检测输出层得到待检测音频片段中的各个音频帧包含各个音频事件的概率值,设定阈值,概率值大于设定阈值的音频事件是音频帧中所包含的音频事件。
[0019]本专利技术的第二个方面提供一种基于多任务学习的音频事件检测系统。
[0020]一种基于多任务学习的音频事件检测系统,包括:
[0021]检测模块,其被配置为:基于待检测音频片段的特征矩阵,采用训练好的音频事件检测模型,得到待检测音频片段中的音频事件;
[0022]模型训练模块,其被配置为:所述音频事件检测模型训练的过程包括:根据音频片段中的每个音频帧,得到音频片段中所有帧在音频事件检测输出层的输出值与在音频事件类型个数分类输出层的输出值,基于在音频事件检测输出层的输出值求得交叉熵和,基于在音频事件类型个数分类输出层的输出值求得差值平方和;采用交叉熵和与差值平方和构造损失函数,训练音频事件检测模型,得到训练好的音频事件检测模型。
[0023]本专利技术的第三个方面提供一种计算机可读存储介质。
[0024]一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的基于多任务学习的音频事件检测方法中的步骤。
[0025]本专利技术的第四个方面提供一种计算机设备。
[0026]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述的基于多任务学习的音频事件检测方法中的步骤。
[0027]与现有技术相比,本专利技术的有益效果是:
[0028](1)本专利技术通过多任务学习将音频事件检测和音频事件类型个数分类相结合,通过一个模型同时实现音频事件检测和音频事件类型个数分类。与不采用多任务学习,单独进行音频事件检测的方法相比,本专利技术可以显著提高音频事件检测的准确率。
[0029](2)本专利技术设计的音频事件类型个数分类辅助任务不需要额外的标注信息,不会增加人工标注的工作量,使得本专利技术提出的多任务学习方法在现有数据库的基础上即能进行。
[0030](3)与单独为音频事件检测建模相比,在同等检测性能下,本专利技术设计的多任务学习模型可以大幅度减少模型参数的数量,提高运算效率。
[0031]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0032]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0033]图1是本专利技术基于多任务学习的音频事件检测模型的示意图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多任务学习的音频事件检测方法,其特征在于,包括:基于待检测音频片段的特征矩阵,采用训练好的音频事件检测模型,得到待检测音频片段中的音频事件;所述音频事件检测模型训练的过程包括:根据音频片段中的每个音频帧,得到音频片段中所有帧在音频事件检测输出层的输出值与在音频事件类型个数分类输出层的输出值,基于在音频事件检测输出层的输出值求得交叉熵和,基于在音频事件类型个数分类输出层的输出值求得差值平方和;采用交叉熵和与差值平方和构造损失函数,训练音频事件检测模型,得到训练好的音频事件检测模型。2.根据权利要求1所述的基于多任务学习的音频事件检测方法,其特征在于,在所述求得交叉熵和与差值平方和之前包括:获取音频片段,提取每个音频片段的特征矩阵,为音频片段内每个音频帧添加音频事件标签和音频事件类型个数标签,构建音频特征训练集。3.根据权利要求2所述的基于多任务学习的音频事件检测方法,其特征在于,所述提取每个音频片段的特征矩阵的过程包括:对音频片段进行分帧处理,提取每帧的音频特征,每个音频片段内所有帧的音频特征构成该音频片段的特征矩阵。4.根据权利要求2所述的基于多任务学习的音频事件检测方法,其特征在于,所述为音频片段内每个音频帧添加音频事件标签和音频事件类型个数标签的过程包括:假设训练集中共有m个不同类型的音频事件,则音频事件标签为m维向量,向量中的元素取值为0或1,如果音频帧中包含了某个类型的音频事件,则该类型音频事件所对应的标签向量位置处的元素值为1,否则为0;为音频片段内每个音频帧添加音频事件类型个数标签,音频事件类型个数通过统计音频事件标签中元素1的个数得到。5.根据权利要求1所述的基于多任务学习的音频事件检测方法,其特征在于,所述得到音频片段中所有帧在音频事件检测输出层的输出值,基于该输出值求得交叉熵和的过程包括:根据音频片段中的每个音频帧,计算每个音频帧在音频事件检测输出层的输出值,用该输出值和音频帧的音频事件标签求取交叉熵,将音频片段内所有帧的交叉熵求和得到交叉熵和。6.根据权利要求1所述的基于多任务学习的音频事件检测方法...

【专利技术属性】
技术研发人员:冷严刘祯路安芹李登旺孙建德王荣燕
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1