本发明专利技术涉及一种语音活动检测器,该语音活动检测器使用幅度峰值和谷底的周期来识别实质上固定的功率或具有周期的信号。
【技术实现步骤摘要】
本专利技术大体涉及信号处理,尤其涉及区别话音信号和非话音信号。
技术介绍
通过将模拟信号转换成数字信号,语音被承载在数字电话网络上,无论是电路交换还是分组交换的数字电话网络。在分组交换的网络的情形下,代表数字信号的音频采样被组包,并且组包的采样通过网络被电子发送。组包的采样在目的地节点被接收,该采样被拆包,模拟信号被重建并提供给另一方。在与其他方通话时,存在双方都不说话的时间段。在这种时间段中,背景噪声(可包括背景语音)可由该电话的传声器(microphone)接收到。当呼叫的任何一方都不在讲话和没有可听见的呼叫信令传送(signaling)时所接收到的比如背景噪声的音频信息,比如音(tone),在此被称作“静音(silence)”。静音抑制是在参与电话呼叫的一方没有讲话时在网络上不传输音频信息,以此显著减少带宽使用率并协助对抖动缓冲器调整点的识别的过程。在因特网上语音协议(“VoIP”)系统中,语音活动检测(“VAD”)或话音活动检测(“SAD”)被用来动态监视背景噪声、设定合适的话音检测阈值以及识别抖动缓冲器调整点。VAD检测音频信号或其采样中人的话音的存在与否,并使用该信息识别静音期。当静音抑制生效时,在这种静音期接收到的音频信息不在网络上传输给其它(目的地)端点。在给定了在任何一个时间通常是通话中的一方在讲话的条件下,静音抑制可以在典型电话呼叫的持续过程中实现整体带宽50%的节省。-->在语声的话音和背景噪声之间进行区别是困难的。而且,VAD或SAD必须很快进行以避免削波(clip)。为了解决这些问题,已经使用了一些区别复杂度的算法。例子包括基于能量阈值(例如,使用信噪比或SNR)、音调检测、频谱(spectrum)或光谱(spectral)形状分析、零交叉速率(例如,确定信号幅度从正改变到负有多频繁)、周期测量、线性预测码或LPC剩余(residual)域中的高阶统计(例如,当背景和输入信号的形状之间失配时,预测编码错误或剩余的能量增加)、以及它们的组合的算法。在一个公共静音抑制方案中,信号的功率被用作一致的判断以将信号分类到语音和静音段。假设在出现话音时总信号的功率足够大于背景噪声的功率。阈值用来标注用于将被分类为语音活动(voice-active)的段的最小SNR。该阈值被熟知为噪声底限(floor)并被使用信号功率动态地重新计算。如果该信号的SNR落在该阈值中,那么其被认为是语音活动的。否则,其被认为是背景噪声。这种行为可以从图2中看出,图2中描述了接收的音频信号的幅度波形200、接收的音频信号的功率波形204和噪声底限功率波形208。噪声底限的数值为信号波形200的平滑表示。该图进一步分别显示了检测到的语音活动以及静音段212和216。从图2中可以看出,当该信号包括话音段220和224时,由于信号功率的较大增长,噪声底限波形208趋于向上,并由于信号功率的较大下降而在所述段之后立即向下。在这个算法的核心是其通过其时变噪声底限的实施适用于改变背景噪声的能力。上面的VAD方案在检测比如进程音(例如,拦截(intercept)音、回铃音、忙音、拨号音、重新排序(re order)音等)的具有实质上恒定的功率的信号时存在困难。这些方案经常将这些音识别为背景噪声,所述背景噪声并不被传输到另一端点。检测进程音的问题被图3A和3B所显示。图3A将该进程音显示为正弦波形300。图3B显示的音被表示为具有实质上恒定的功率级别的波形304。因为噪声底限基于该信号的功率,所以当该信号具有实质上恒定的功率时,该-->噪声底限波形308将接近波形304。使用上述的VAD方案,间隔312将被正确地诊断为是语音活动的并因此被传输到另一端点,而间隔316将被误诊为静音并因此不被传输到另一端点。最好也只不过是另一方只会听到一部分音,这将使他或她认为是电话出现了故障。这种误诊还会进一步引起抖动缓冲器的误调整(这将使另一个人听到咔哒声或砰砰声)。固定功率信号可以被更精细的方法可靠地检测到,比如通过使用像快速傅立叶变换(FFT)和倒谱(Cepstral)分析这样的复杂技术分析所述信号的频谱。然而,将信号转换到频域所需的处理和存储成本太高并且用于这些算法的处理时间太长以至于在实时应用中是不实际的。一些技术,比如FFT,引入了延迟,这是因为需要构建输入采样的缓冲器(组块(blocking))和/或使用大量随机存储器(RAM)用于存储。一种切实可行的解决方案一定是要基于时间的。阈值VAD是最普遍使用的解决方案。在能量阈值方法下,出现话音(包括进程音)时的总信号的能量被认为大于预设阈值。幅度大于该阈值的信号被认为是语音活动的而不管VAD的结论。虽然保留了很多进程音信息,但这种方法做出的假设在一些应用中是不能成立(hold)的,结果导致准确率很低。信号的统计分析也已经被使用,其例如使用幅度概率分布作为确定噪声级别的手段。但是,这些方法还是在计算上昂贵的并且不适于VoIP网关设定。已经部分成功的一种算法已经被使用在Acaya Inc.的CrossfireTM网关中。该网关使用零交叉速率方法并利用固定功率信号的基于时间的周期。噪声信号被认为是在本性上随机的。用于每一帧的零交叉速率被监测。常量零交叉速率意味着周期以及从而意味着语音活动段。换句话说,各种零交叉点的周期被确定并且样式匹配技术被用来识别固定功率信号的零交叉行为特性。类似的零交叉算法被使用在用于ITU-T标准化的G.729话音编码器的G.729B扩展中。在该扩展下,每10毫秒对包括80个音频采样的语音帧做出选择。从这些话音帧中提取出来的参数包括全带能-->量、低带能量、线光谱频率(“LSF”)系数和零交叉速率。从当前帧提取出来的这四个系数之间的差值和噪声游动平均数被为每一帧计算。这些差值代表噪声特性。大的差值意味着当前帧是语音,而相反则意味着不存在语音。VAD做出的决定是基于复杂的多边算法的。关于这些方法的问题是恒定零交叉速率不总是对应于周期信号。噪声信号可能偶尔越过恒定速率的固定线。因为每段仅包括80个音频采样,所以该方法的准确率受较小的采样空间限制。识别零交叉点时的错误可能使得恒定功率信号被误诊为背景噪声。为了解决该问题,这些方案可通过使用额外的固定阈值被增强以确保高幅度信号总是被确定为活动信号。然而,对这种阈值的使用会引起低幅度、固定功率的信号现在错误地被检测为静音。还有一种VAD方案由Tucker R.在1992年8月公开的他的论文“Voice Activity Detection Using a Periodicity Measure”中提出。他描述了一种VAD,其能够以低到0db的SNR可靠地操作并能够以-5db检测到大部分语音。当找到非常大量的周期时,该检测器对输入信号和触发器应用最小平方周期估计器。然而,其目的不是找出准确的讲话爆发(talkspurt)边界,因此,其最适于话音登记应用,在那里很容易包括较小的容限以允许任何错过的话音。就像所理解的那样,“讲话爆发”边缘指话音和非话音音频信息之间的边界(例如,“静音”期和语声话音期之间的边界)。该解决方案适用于VoIP系统,其中对准确讲话爆发边界的检测是关键的。
技术实现思路
这些和其他需求由本专利技术的各个实本文档来自技高网...
【技术保护点】
一种方法,包括: (a)接收多个音频采样,这些音频采样定义了采样的信号段; (b)在由这些音频采样定义的信号幅度波形中识别转向点; (c)确定所识别出的转向点是否代表实质上固定的功率级别的信号;以及 (d)当所识别出的转向点代表实质上固定的功率级别的信号时,认为所采样的信号段包括活动信号。
【技术特征摘要】
US 2006-9-19 11/523,9331.一种方法,包括:(a)接收多个音频采样,这些音频采样定义了采样的信号段;(b)在由这些音频采样定义的信号幅度波形中识别转向点;(c)确定所识别出的转向点是否代表实质上固定的功率级别的信号;以及(d)当所识别出的转向点代表实质上固定的功率级别的信号时,认为所采样的信号段包括活动信号。2.如权利要求1所述的方法,其中所采样的信号段被作为第一和第二方之间实况语音呼叫的一部分而接收,其中所述转向点对应于信号幅度波形中的峰值和谷底,其中,当所识别出的转向点代表实质上固定的功率级别的信号时,所采样的信号段被认为包括周期性的样式,其中静音抑制生效,其中,当所采样的信号段包括活动信号时,传输所述多个音频采样到目的地节点,并且其中当所采样的信号段不包括活动信号和当该段不包括第一和/或第二方的语音能量时,不将所述多个音频采样传输到目的地节点。3.如权利要求1所述的方法,其中该方法被用于确定抖动缓冲器调整点,并进一步包括:(e)识别在信号幅度波形中相邻的、所识别出的转向点之间的时间距离;(f)确定所述相邻的、所识别出的转向点之间的时间距离是否代表实质上固定的功率级别的信号;以及(g)当所述时间距离代表实质上固定的功率级别的信号和当所识别出的转向点代表实质上固定的功率级别的信号时,认为所采样的信号段包括活动信号,其中,在确定所采样的信号段是否包括活动信号时,步骤(c)的结果比步骤(f)的结果更重地被加权。4.如权利要求1所述的方法,其中转向点不是零交叉,并且...
【专利技术属性】
技术研发人员:王明盛,卢克A塔克,
申请(专利权)人:阿瓦雅技术有限公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。