提供了一种双麦克风语音活动检测器系统。语音活动检测器系统估计每个麦克风处的信号水平和噪声水平。诸如信号的附近声音在两个麦克风之间的水平差大于诸如噪声的更远距离声音的水平差。因此,语音活动检测器检测附近声音的存在。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音活动检测器。更具体地,本专利技术的实施例涉及利用两个或多个麦 克风的语音活动检测器。
技术介绍
除非在此指出,否则本部分所描述的方案不是本申请中权利要求的现有技术,并 且不会因为包含在本部分而被承认是现有技术。语音活动检测器(VAD)的一个功能在于检测麦克风所记录的音频信号区域中存 在或者不存在人的语音。在关于由VAD模块所决定的语音是否存在于其中的输入信号上使 用的不同处理机制的上下文中,VAD在许多语音处理系统中起作用。在这些应用中,精确且 鲁棒的VAD性能可影响整体性能。例如,在语音通信系统中,DTX(不连续传输)通常被用来 改善带宽使用效率。在这种系统中,利用VAD确定输入信号中是否存在语音,并且如果不存 在语音,则停止语音信号的实际传输。这里,将语音错分类为干扰会导致传输信号中的语音 减弱,并影响其可理解性(intelligibility)。作为示例,在语音增强系统中,通常需要估计 所记录的信号中的干扰信号的水平(level)。这通常是在VAD的帮助下进行的,其中从仅包 含干扰信号的部分估计干扰水平。例如,参见A.M. Kondoz的Digital Speech Coding for Low Bit Rate Communication Systems 的第 11 章(John Wiley&Sons,2004)。在这个例子 中,不准确的VAD会导致干扰水平的过估计(over-estimate)或低估计(under-estimate), 这最终会导致非最理想的(suboptimal)语音增强质量。之前已经提出了多种VAD系统。例如,参见A.M. Kondoz撰写的Digital Speech Coding for Low Bit Rate Communication Systems 的第 10 章(John Wiley&Sons, 2004)。 这些系统中的一些利用目标语音和干扰之间的差异的统计方面,并依赖阈值比较方法从干 扰信号中区分出目标语音。原先用于这些系统中的统计测量包括能量水平、计时、音调、零 相交率、周期测量等。多于一种统计测量的组合被用于更多的复杂系统,以进一步改善检测 结果的精度。通常,当目标语音和干扰具有非常明显的统计特征时,例如当干扰具有稳定的 并低于目标语音水平的水平时,统计方法取得好的性能。然而,在更不利的环境中,尤其在 目标信号水平与干扰水平的比值低时或者干扰信号具有类似语音的特征时,保持好的性能 变成非常具有挑战性的任务。在一些鲁棒的自适应射束形成(adaptive beamforming)系统设计中也可以发现 与麦克风阵列组合的VAD。例如,参见0. Hoshuyama, B. Begasse, A. Sugiyama及A. Hirano的6"A real time robust adaptive microphone array controlled by an SNR estimate,,, Procedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing,1998。那些VAD基于麦克风射束形成系统的不同输出水平的差异,其 中目标信号仅存在于一个输出中并因为其他输出而被阻塞。因此,这种VAD设计的有效性 可以与射束形成系统在因为那些输出而阻塞目标信号时的能力有关,在实时系统中获取这 种能力会是昂贵的。与该背景有关的、但是不被认为是下文部分中将描述的示例性专利技术实施例的现有 技术的其他参考包括参考 1 :A. Μ. KondozZiDigital Speech Coding for Low Bit Rate Communication Systems”,第 10 章(John Wiley&Sons,2004);参考 2 :Α· Μ· Kondoz,“Digital Speech Coding for Low Bit Rate Communication Systems”,第 11 章(John Wiley&Sons,2004);参 考 3 J. G. Ryan 禾口 R. A. Goubran,“Optimal nearf ield responses for Microphone Array”,见 IEEE Workshop Applicat. Signal Processing to Audio Acoust, New PaltziNY, USA, 1997 ;参考 4 :0· Hoshuyama,B. Begasse,A. Sugiyama 及 A. Hirano,“A real time robust adaptive microphone array controlled by an SNR estimate”, Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing 1998 ;参考5 :US20030228023A1/W003083828A1/CA2479758AA,不利环境中多信道语音 检测(Multichannel voice detection in adverse environments);以及参考6 :US7174022的用于射束形成和噪声抑制的小阵列麦克风(Small array microphone for beam-forming and noise suppression)0附图说明图1是说明根据本专利技术实施例的一般麦克风构造的图;图2是说明根据本专利技术实施例的包括示例性双麦克风语音活动检测器的装置的 图;图3是说明根据本专利技术实施例的示例性语音活动检测器系统的框图;图4是根据本专利技术实施例的语音活动检测的示例性方法的流程图。具体实施例方式在此所述的是用于语音活动检测的技术。在下文的描述中,为了解释的目的提出 了许多示例以及具体的细节,以提供对本专利技术的透彻理解。然而,对于本领域技术人员显而 易见的是,由权利要求限定的本专利技术可以仅包括这些示例中的一些或所有特征、或者与下 文所述的其他特征相结合,还可以进一步包括在此所述特征和概念的修改以及等价物。下面将描述各种方法和过程。以一定顺序描述它们主要是为了便于呈现。需要明 白的是,可以根据不同的实施方式按期望以其他顺序来执行具体的步骤或者并行执行具体 的步骤。当特定步骤必须在另一步骤之前或者之后时,当根据上下文不明显时,会具体指出7这种情况。概要本专利技术的实施例改进了 VAD系统。根据一实施例,披露了基于双麦克风阵列的VAD 系统。在这样的实施例中,建立了麦克风阵列以使得一个麦克风比另一麦克风更靠近目标 声音源。通过比较麦克风阵列输出的信号水平做出VAD决定。根据一实施例,可以以相似 的方式使用多于两个麦克风。进一步根据一实施例,本专利技术包括语音活动检测的方法。该方法包括在第一麦克 风处接收第一信号并在第二麦克风处接收第二信号。第二麦克风离开第一麦克风放置。第 一信号包括第一目标分本文档来自技高网...
【技术保护点】
一种执行语音活动检测的方法,包括: 从第一麦克风接收第一信号,所述第一信号包括第一目标分量和第一干扰分量; 从第二麦克风接收第二信号,所述第二麦克风离开第一麦克风一距离,所述第二信号包括第二目标分量和第二干扰分量,其中根据所述距离区分所述第一目标分量和所述第二目标分量,且其中根据所述距离区分所述第一干扰分量和所述第二干扰分量; 基于所述第一信号估计第一信号水平; 基于所述第二信号估计第二信号水平; 基于所述第一信号估计第一噪声水平; 基于所述第二信号估计第二噪声水平; 基于所述第一信号水平和所述第一噪声水平计算第一比值; 基于所述第二信号水平和所述第二噪声水平计算第二比值;以及 基于所述第一比值和所述第二比值之间的差计算当前语音活动决策。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:俞容山,
申请(专利权)人:杜比实验室特许公司,
类型:发明
国别省市:US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。