话音活动检测系统和方法技术方案

技术编号:5472464 阅读:257 留言:0更新日期:2012-04-11 18:40
通过以下方式来区分输入信号中的至少两类事件。接收一组包含输入信号的帧,并且针对所述帧中的每个帧确定至少两个不同的特征向量。使用针对所述至少两类事件训练的相应多组预分类器对所述至少两个不同的特征向量进行分类。对于所述帧中的每个帧,根据所述预分类器的输出确定至少一个加权因数的值。通过将所述至少一个加权因数应用于所述至少两个不同的特征向量来计算所述帧中的每个帧的组合特征向量。使用针对所述至少两类事件训练的一组分类器对所述组合特征向量进行分类。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般地涉及话音活动检测。具体地说,但不是独占地,本专利技术 涉及区分诸如语音和噪声之类的事件类型。
技术介绍
话音活动检测(VAD)是诸如语音编码、免提电话以及语音识别之类 的众多语音处理工作中的一个重要部分。例如,在移动通信中,当移动设 备检测到没有语音之时,通过无线接口的传输带宽会显著减少。另一实例 是自动语音识别系统(ASR)。由于有关记忆和准确性的限制,VAD在 ASR中非常重要。对语音边界的不准确检测会导致严重的问题,例如识别 性能降低和语音质量下降。VAD在语音识别中受到广泛关注。通常,使用两种主要的方法来设计 此类系统阈值比较技术和基于模型的技术。对于阈值比较方法,将从输 入信号提取诸如能量、过零、自相关系数之类的各种特征,然后将其与某 些阈值进行比较。以下出版物中提供了一些方法由LiQ.、 Zheng J、 Zhou Q.以及Lee C.画H所著的"A robust, real-time endpoint detector with energy normalization for ASR in adverse environments" , /Voc. /C4iS^J5, 233-236页,2001年;由L. R. Rabiner等人所著的"Application of an LPC Distance Measure to the Voiced-Unvoiced-SUence Detection Problem", 7>"ws. 6>w」5*5^, vol. ASSP國25、 no. 4, 338-343页,1977年8月。通常仅根据噪声估计阈值并动态地更新阈值。通过使用自适应阈值或 适当的过滤,可以提高其性能。例如,请参阅Martin A.、 CharletD.以及 Mauuary L.所著的 "Robust Speech/Nonspeech Detection Using LDAapplied to MFCC,,,/C4S"S尸,237-240页,2001年;Monkowski M. 的"爿Mto附"ric G"/" CV w^y / /n fl iS/7eecA i ecogm'ftVm , 美国专利US6314396;以及LieLu、 Hong画Jiang Zhang、 H. Jiang所著的"Content Analysis for Audio Classification and Segmentation" , 7> 肌S/wcA在y^力》iV( c^wVig, vol.10, No.7, 504-516页,2002年10月。备选地,广泛地引入基于模型的VAD以便可靠地将语音与其他复杂 的环境声音区别开。以下出版物中提供了一些方法由J. Ajmera、 I. McCowan所著的 "Speech/Music Discrimination Using Entropy and Dynamism Features in a HMM Classification Framework" , /D//lP-i / W-26, IDIAP,马蒂尼,瑞士, 2001年;以及由T. Hain、 S. Johnson、 A. Tuerk、 P. Woodland、 S. Young所著的 "Segment Generation and Clustering in the HTK Broadcast News Transcription System" , ZX4i iM J roflrfcflW iVews Jhmsm》&Vm厢rf f/"flfe/^"f //wg W9由A0/7, 133-137页, 1998年。通常在此类系统中采用诸如全带能量、子带能量、线性预测残余 能量之类的特征或诸如Mel频率倒谱系数(MFCC)的基于频率的特征。基于阈值自适应和能量特征的VAD技术无法处理在众多现实生活应 用中所遇到的复杂声学情况,在所述应用中,信号能量级别通常是高度动 态的并且经常伴有诸如音乐和非稳定噪声之类的背景声音。因此,噪声事 件经常被识别为单词而导致插入错误,同时受到邻近噪声事件影响的语音 事件将导致替代错误。基于模型的VAD技术在噪声环境下较有效,但是 它们对单一语言的依赖性(因为它们要编码音素层次信息)显著削弱了其 功能。环境类型对于VAD准确性起很重要的作用。例如,在经常出现高信 噪比(SNR)情况的汽车环境中,当汽车停止时,可以进行准确的检测。 当SNR非常低并且经常具有汽车引擎发出的高强度半稳定背景噪声以及 诸如路途颠簸、雨刷噪声以及关门之类的高瞬态噪声时,话音活动检测仍 是一个难题。同样,在其他情况下,当SNR非常低并且存在背景噪声和高 瞬态噪声时,话音活动检测也是一个难题。因此,非常需要开发一种可以在各种环境中很好地执行并且其中着重考虑鲁棒性和准确性的VAD方法/系统。
技术实现思路
本专利技术的实施例的目标是解决上述一个或多个问题。 根据本专利技术的第一方面,提供了 一种用于区分至少两类事件的计算机 化的方法,所述方法包括以下步骤 接收一组包含输入信号的帧,针对所述帧中的每个帧确定至少两个不同的特征向量, 使用针对所述至少两类事件训练的相应多组预分类器对所述至少两个不同的特征向量进行分类,对于所述帧中的每个帧,根据所述预分类器的输出确定至少一个加权因数的值,通过将所述至少一个加^L因数应用于所述至少两个不同的特征向量来 计算所述帧中的每个帧的组合特征向量,以及使用针对所述至少两类事件训练的 一组分类器对所述组合特征向量进 行分类。所述计算机化的方法可以包括确定所述多组预分类器中的每组预分类 器的输出之间的至少 一个距离,并且根据所述至少 一个距离确定所述至少 一个加权因数的值。所述方法还可以包括将所述至少一个距离与至少一个预定阈值相比 较,并使用与所述比较相关的公式计算所述至少一个加权因数的值。所述 公式可以使用所述至少一个阈值中的至少一个阈值作为输入。所述至少一个3巨离可以基于以下项中的至少一项Kullback-Leibler 距离、Mahalanobis距离以及Euclidian距离。可以确定所述帧中的每个帧的基于能量的特征向量。所述基于能量的 特征向量可以基于以下项中的至少一项不同频带中的能量、对数能量以 及语音能量轮廓。可以确定所述帧中的每个帧的基于模型的特征向量。所述基于模型的技术可以基于以下项中的至少一项声学模型、神经网络、混合神经网络 以及隐马尔可夫模型方案。在一个特定实施例中,对于所述帧中的每个帧,确定基于不同频带中 的能量的第 一特征向量以及基于声学模型的第二特征向量。此特定实施例 中的所述声学模型可以是以下项中的一项单语言声学模型和多语言声学模型。本专利技术的第二方面提供了 一种用于训练话音活动检测系统的计算机化 的方法,所述方法包括接收一组包含训练信号的帧,确定所述帧中的每个帧的品质因数,才艮据所述训练信号的内容将所述帧标记为至少两类事件,针对所述帧中的每个帧确定至少两个不同的特征向量,使用所述至少两类事件训练相应多组预分类器以对所述至少两个不同 的特征向量进行分类,对于所述帧中的每个帧,根据所述预分类器的输出确定至少本文档来自技高网
...

【技术保护点】
一种用于区分至少两类事件的计算机化的方法,所述方法包括以下步骤: 接收一组包含输入信号的帧, 针对所述帧中的每个帧确定至少两个不同的特征向量, 使用针对所述至少两类事件训练的相应多组预分类器对所述至少两个不同的特征向量进行 分类, 对于所述帧中的每个帧,根据所述预分类器的输出确定至少一个加权因数的值, 通过将所述至少一个加权因数应用于所述至少两个不同的特征向量来计算所述帧中的每个帧的组合特征向量,以及 使用针对所述至少两类事件训练的一组分类器 对所述组合特征向量进行分类。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:Z瓦尔桑
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1