音频事件检测方法和装置制造方法及图纸

技术编号：7424019 阅读：380 留言：0更新日期：2012-06-09 17:46

基于长时特性的音频事件检测装置和方法。所述方法包括如下步骤：将输入音频流分成一系列的小段；对每个段提取短时和长时特征；并且根据所提取的短时和长时特征，得到关于音频流的分类结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音频事件检测方法和装置，特别涉及基于长时特征的音频事件检测方法和装置。
技术介绍
当今世界正处在信息爆炸的时代，信息正在以指数级的速度增长。多媒体技术和互联网技术的不断发展，使得对海量多媒体数据进行自动分析处理的必要性大大提高。然而，视频分析运算量大，消耗资源较多，因此多媒体数据的音频分析有着更大的优势。一般来说，诸如体育比赛之类的视频时间比较长，而往往广大体育爱好者真正关心的内容通常只占居整个内容的很小一部分。如果需要从中找到自己关注的内容，往往需要用户从头至尾遍历一遍之后才能找到所需内容，这样既费时又费力。另一方面，越来越多的体育视频，使得人们对体育视频的有效检索和管理的要求也越来越迫切。因此，如果能够有这样一个体育内容检索系统，可以帮助用户检索一些真正关心的内容，就可以大大节约时间。特别地，对体育节目的自动音频分析，近年来受到越来越多研究者的青睐。针对体育比赛来说，通过对喝彩声、鼓掌声、欢呼声、笑声之类的音频事件的提取，来在体育比赛视频中提取精彩场景，使得用户能够更便捷的找到自己感兴趣的片段。对音频事件的提取有以下几个难点首先，在体育比赛中，音频事件往往不是孤立出现，而是同时伴随着主持人的讲话声以及其他声音，这就使得对音频事件的建模产生一定困难；其次，在体育比赛中，音频事件的频谱特点往往和环境噪声非常相似，导致在检索过程中产生较多的虚警，从而精度偏低。Hermansky, H.在文章Perceptual linear predictive (PLP) analysis of speech，，(Journal of the Acous...

【技术保护点】

【技术特征摘要】
1.一种基于长时特性的音频事件检测方法，所述方法包括如下步骤将输入音频流分成一系列的小段；对每个段提取短时和长时特征；并且根据所提取的短时和长时特征，得到关于音频流的分类结果。2.如权利要求1所述的音频事件检测方法，还包括步骤经过平滑处理得到事件检测结果。3.如权利要求1所述的音频事件检测方法，其中，在提取短时和长时特征之后，采用降维算法对MSV(Mean Super Vector)特征矢量进行降维，以去除特征的冗余信息。4.如权利要求1所述的音频事件检测方法，其中，所述短时和长时特征是基于段和基于帧之一的。5.如权利要求1所述的音频事件检测方法，其中，所述分类结果通过支持向量机分类器来进行。6.如权利要求4所述的音频事件检测方法，其中，基于帧的短时特征至少包括以下特征之一 PLP、LPCC、LFCC、Pitch、短时能量、子带能量分布、亮度和带宽。7.如权利要求4所述的音频事件检测方法，其中，基于段的长时特征至少包括以下特征之一谱通量、长时平均谱和LPC熵。8.如权利要求2所述的音频事件检测方法，其中，在平滑处理中所使用的平滑规则如下(1)if{s(n)== 1 and s(n+l) ！ = 1 and s (n+2) == ljthens (n+1) = 1(2)if{s(n) == 1 and s(n-l) ! = 1 and s(n+l) ！ = ljthens (η) = s(n-l)9.一种基于长时特性的音频事件检测装置，所述装置包括音频流分段部分，用于将输入音频流分成一系列的小段；特征提取部分，用于对每个段...

【专利技术属性】
技术研发人员：刘昆，吴伟国，卢鲤，赵庆卫，
申请(专利权)人：索尼公司，中国科学院声学研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人