当前位置: 首页 > 专利查询>索尼公司专利>正文

音频事件检测方法和装置制造方法及图纸

技术编号:7424019 阅读:364 留言:0更新日期:2012-06-09 17:46
基于长时特性的音频事件检测装置和方法。所述方法包括如下步骤:将输入音频流分成一系列的小段;对每个段提取短时和长时特征;并且根据所提取的短时和长时特征,得到关于音频流的分类结果。

【技术实现步骤摘要】

本专利技术涉及音频事件检测方法和装置,特别涉及基于长时特征的音频事件检测方法和装置。
技术介绍
当今世界正处在信息爆炸的时代,信息正在以指数级的速度增长。多媒体技术和互联网技术的不断发展,使得对海量多媒体数据进行自动分析处理的必要性大大提高。然而,视频分析运算量大,消耗资源较多,因此多媒体数据的音频分析有着更大的优势。一般来说,诸如体育比赛之类的视频时间比较长,而往往广大体育爱好者真正关心的内容通常只占居整个内容的很小一部分。如果需要从中找到自己关注的内容,往往需要用户从头至尾遍历一遍之后才能找到所需内容,这样既费时又费力。另一方面,越来越多的体育视频,使得人们对体育视频的有效检索和管理的要求也越来越迫切。因此,如果能够有这样一个体育内容检索系统,可以帮助用户检索一些真正关心的内容,就可以大大节约时间。特别地,对体育节目的自动音频分析,近年来受到越来越多研究者的青睐。针对体育比赛来说,通过对喝彩声、鼓掌声、欢呼声、笑声之类的音频事件的提取,来在体育比赛视频中提取精彩场景,使得用户能够更便捷的找到自己感兴趣的片段。对音频事件的提取有以下几个难点首先,在体育比赛中,音频事件往往不是孤立出现,而是同时伴随着主持人的讲话声以及其他声音,这就使得对音频事件的建模产生一定困难;其次,在体育比赛中,音频事件的频谱特点往往和环境噪声非常相似,导致在检索过程中产生较多的虚警,从而精度偏低。Hermansky, H.在文 章Perceptual linear predictive (PLP) analysis of speech,,(Journal of the Acoustical Society of America,87 :1738,1990)中,通过两个阶段进行处理。在第一阶段,对有人工标注的多媒体数据利用语义标签进行相关音频寻找,而在第二阶段,基于语义标签的音频查询结果在线训练该类音乐特征,并利用于音频内容的查询。从以上文献可以看出,现有技术仅对某一两种体育比赛内容的特定内容进行分析和检测,这些技术针对性强,不能很好的扩展到其他类别的提取比赛的内容检测中去。而随着体育比赛种类的日益增加,消费者越来越不可能有足够的时间将整场比赛从头至尾的观看一边了,因此,如何能够提供一套自动的体育比赛的内容检测系统,从而帮助用户快速方便的检测出自己关注的内容是目前广大体育爱好者们迫切关注的问题。由于目前图像分析技术对于仅止于场景分析,对于图像内容的理解没有很好的研究,因此,本专利技术侧重于采用语音信号处理技术,对体育比赛内容进行理解和分析,帮助体育爱好者们提取一些感兴趣的事件和信息,比如类别进行检测比赛,检测精彩事件,检测关键人名和队名等,检测比赛不同场次的开始和结束时间点等等。
技术实现思路
有鉴于此,专利技术公开了一种鲁棒的高性能的音频事件检测方法和装置,其中的音频事件包括鼓掌声、欢呼声、笑声。该方法考虑到了时域上特征的连续性,结合了基于段的长时特征进行检测,使得检测的性能得到大幅度的提升。根据本专利技术的一方面,本专利技术提供基于长时特性的音频事件检测方法,所述方法包括如下步骤将输入音频流分成一系列的小段;对每个段提取短时和长时特征;并且根据所提取的短时和长时特征,得到关于音频流的分类结果。根据本专利技术的该方面,所述音频事件检测方法还包括步骤经过平滑处理得到事件检测结果。 根据本专利技术的该方面,在所述音频事件检测方法中,在提取短时和长时特征之后, 采用降维算法对MSV (Mean Super Vector)特征矢量进行降维,以去除特征的冗余信息。根据本专利技术的该方面,在所述音频事件检测方法中,所述短时和长时特征是基于段和基于帧之一的。根据本专利技术的该方面,在所述音频事件检测方法中,所述分类结果通过支持向量机分类器来进行。根据本专利技术的该方面,在所述音频事件检测方法中,基于帧的短时特征至少包括以下特征之一 PLP、LPCC, LFCC, Pitch、短时能量、子带能量分布、亮度和带宽。根据本专利技术的该方面,在所述音频事件检测方法中,基于段的长时特征至少包括以下特征之一谱通量、长时平均谱和LPC熵。根据本专利技术的该方面,在所述音频事件检测方法中,在平滑处理中所使用的平滑规则如下(l)if{s(n) == 1 and s(n+l) ! = 1 and s (n+2) == ljthens (n+1) = 1(2)if {s(n) == 1 and s(n_l) ! = 1 and s(n+l) ! = ljthens (η) = s(n-l)根据本专利技术的另一方面,本专利技术提供基于长时特性的音频事件检测装置,所述装置包括音频流分段部分,用于将输入音频流分成一系列的小段;特征提取部分,用于对每个段提取短时和长时特征;并且分类部分,用于根据所提取的短时和长时特征,得到关于音频流的分类结果。根据本专利技术的再一方面,本专利技术提供用于在计算机上实现基于长时特性的音频事件检测方法的计算机产品,所述方法包括如下步骤将输入音频流分成一系列的小段;对每个段提取短时和长时特征;并且根据所提取的短时和长时特征,得到关于音频流的分类结果。总之,本专利技术通过将音频流分成一系列的小段,采用对该段特征矢量求均值(得到MSV,Mean Super Vector)并进行降维的方法对每个段提取短时和长时特征,利用 SVM(支持向量机分类器)得到最终的分类结果,并且经过平滑得到最终的事件检测结果。 实验结果显示,在一般电视节目中,事件检测的结果可以达到86 %的F值。附图说明本专利技术的上述目的、有益技术效果等可以通过结合以下附图的描述变得更清楚, 在这些附图中,图1示出了根据本专利技术的实施例的、基于长时特征的音频事件检测方法的一个实例的流程图;图2是示出LFCC和LFCC中使用滤波器组的实例的曲线图,其中图2A是图示用于 LFCC的多尺度滤波器组的一个实例的曲线图,而图2B是图示用于LFCC的线性滤波器组的一个实例的曲线图;图3示出了根据本专利技术的实施例的、基于长时特征的音频事件检测方法的另一个实例的流程图;图4示出了根据本专利技术的实施例的、基于长时特征的音频事件检测装置的一个实例的方块图;图5是示出根据本专利技术的特征提取部分的详细结构的方块图;图6示出了基于长时特征的音频事件检测装置的另一个实例的流程图;图7是示出了采用LDA,PCA, ICA三种不同降维算法的降维结果的图表;以及图8是示出了用LDA将PLP、LPCC、LFCC以及它们各自的一阶、二阶差分进行降维后的特征检测性能以及降维后的特征+其他段特征的检测性能的图表。具体实施例方式下面参考附图详细描述本专利技术的、基于长时特征的音频事件检测方法和装置。图1示出了根据本专利技术的实施例的、基于长时特征的音频事件检测方法的一个实例的流程图。参考图1,基于长时特征的音频事件检测方法包括音频流分段步骤S110,在该步骤SllO中,将要处理的音频流分成一系列的小段,以便于提取每个段的短时和长时特征。这里,为了对输入语音信号进行分段,可以采用滑动窗将语音信号分成一系列的语音窗,每个语音窗对应于一个小段。从而达到分段的目的。基于长时特征的音频事件检测方法还包括音频流长时特征提取步骤S120,在步骤 S120中,对每个段提取短时和长时特征。根据本专利技术的一个实施例,对于每个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于长时特性的音频事件检测方法,所述方法包括如下步骤将输入音频流分成一系列的小段;对每个段提取短时和长时特征;并且根据所提取的短时和长时特征,得到关于音频流的分类结果。2.如权利要求1所述的音频事件检测方法,还包括步骤经过平滑处理得到事件检测结果。3.如权利要求1所述的音频事件检测方法,其中,在提取短时和长时特征之后,采用降维算法对MSV(Mean Super Vector)特征矢量进行降维,以去除特征的冗余信息。4.如权利要求1所述的音频事件检测方法,其中,所述短时和长时特征是基于段和基于帧之一的。5.如权利要求1所述的音频事件检测方法,其中,所述分类结果通过支持向量机分类器来进行。6.如权利要求4所述的音频事件检测方法,其中,基于帧的短时特征至少包括以下特征之一 PLP、LPCC、LFCC、Pitch、短时能量、子带能量分布、亮度和带宽。7.如权利要求4所述的音频事件检测方法,其中,基于段的长时特征至少包括以下特征之一谱通量、长时平均谱和LPC熵。8.如权利要求2所述的音频事件检测方法,其中,在平滑处理中所使用的平滑规则如下(1)if{s(n)== 1 and s(n+l) ! = 1 and s (n+2) == ljthens (n+1) = 1(2)if{s(n) == 1 and s(n-l) ! = 1 and s(n+l) ! = ljthens (η) = s(n-l)9.一种基于长时特性的音频事件检测装置,所述装置包括音频流分段部分,用于将输入音频流分成一系列的小段;特征提取部分,用于对每个段...

【专利技术属性】
技术研发人员:刘昆吴伟国卢鲤赵庆卫
申请(专利权)人:索尼公司中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术