用于远场语音识别的预处理方法和装置制造方法及图纸

技术编号:12912220 阅读:170 留言:0更新日期:2016-02-24 17:15
本发明专利技术提出一种用于远场语音识别的预处理方法和装置,该用于远场语音识别的预处理方法包括:获取由麦克风阵列采集的多路语音信号;根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。该方法能够提高远场语音识别的性能。

【技术实现步骤摘要】

本专利技术涉及语音识别
,尤其涉及一种用于远场语音识别的预处理方法和 装置。
技术介绍
为了提高语音识别的准确度,在语音识别之前通常会进行预处理。在远场语音识 别场景下,目前采用比较多的一种预处理方案是回声消除(Acoustic echo cancellation, AEC) +声源定位+自适应波束形成技术。大致的思想是:先对每个麦克风采集的语音信号 进行回声消除、再基于声源定位技术找到目标说话人的空间方位,进而通过自适应波束形 成(Adaptive Beamforming,ABF)技术将主波束指向说话人,实现声音增强的效果。 但是,上述处理方案在运算量、准确度、收敛速度和残差等方面都存在一定的问 题,进而影响最终的远场语音识别性能。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。 为此,本专利技术的一个目的在于提出一种用于远场语音识别的预处理方法,该方法 可以实现了信号的声源定位和语音增强功能,并且新的波束形成方法还保证了阵列的空间 响应与频率无关,从而降低信号的频谱失真程度,保证了后续音频通讯,尤其是语音识别系 统的性能。 本专利技术的另一个目的在于提出一种用于远场语音识别的预处理装置。 为达到上述目的,本专利技术第一方面实施例提出的用于远场语音识别的预处理方 法,包括:获取由麦克风阵列采集的多路语音信号;根据预设的频率点阈值,将所述多路语 音信号分为低频分量和中高频分量;对低频分量进行延迟求和波束形成,以及,对中高频分 量进行基于滤波器的波束形成。 本专利技术第一方面实施例提出的用于远场语音识别的预处理方法,通过上述是波束 形成方法,同时实现了信号的声源定位和语音增强功能,并且上述的波束形成方法还保证 了阵列的空间响应与频率无关,从而降低信号的频谱失真程度,保证了后续音频通讯,尤其 是语音识别系统的性能。 为达到上述目的,本专利技术第二方面实施例提出的用于远场语音识别的预处理装 置,包括:获取模块,用于获取由麦克风阵列采集的多路语音信号;划分模块,用于根据预 设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;波束形成模块,用于对 低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。 本专利技术第二方面实施例提出的用于远场语音识别的预处理装置,通过上述是波束 形成方法,同时实现了信号的声源定位和语音增强功能,并且上述的波束形成方法还保证 了阵列的空间响应与频率无关,从而降低信号的频谱失真程度,保证了后续音频通讯,尤其 是语音识别系统的性能。 本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本专利技术的实践了解到。【附图说明】 本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解,其中: 图1是本专利技术一实施例提出的用于远场语音识别的预处理方法的流程示意图; 图2是本专利技术另一实施例提出的用于远场语音识别的预处理方法的流程示意图; 图3是本专利技术另一实施例提出的用于远场语音识别的预处理装置的结构示意图; 图4是本专利技术另一实施例提出的用于远场语音识别的预处理装置的结构示意图。【具体实施方式】 下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考 附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反, 本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同 物。 图1是本专利技术一实施例提出的用于远场语音识别的预处理方法的流程示意图,该 方法包括: S11 :获取由麦克风阵列采集的多路语音信号。 其中,麦克风阵列可以具体是均勾环形麦克风阵列(Uniform Circular Array, UCA),UCA是指将多个麦克风均匀设置在环形平面上。 通过每个麦克风采集一路语音信号,从而可以获取到多路语音信号。 麦克风的个数以及环形半径可以设置,例如,N = 16, R = 0. 08m。 S12:根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量。 频率点阈值例如是f0 = 1 kHz。 低频分量是指频率小于fO的部分,中高频分量是指频率大于fO的部分。 每一路语音信号的频谱范围通常是在0-8kHz,通过与频率点阈值比较,可以将采 集的多路语音信号分为低频分量和中高频分量。 S13 :对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的 波束形成。 对均匀环形麦克风阵列采集的语音信号进行延时求和波束形成可以称为DS-UCA, 对均匀环形麦克风阵列采集的语音信号进行基于滤波器的波束形成可以称为FIB-UCA。 一些实施例中,参见图2,对低频分量的处理流程可以包括: S201 :对低频分量根据空间响应的公式,进行DS-UCA的波束成形。 其中,DS-UCA的波束成形时采用的空间响应的公式是: 其中,N是均匀环形麦克风阵列中麦克风的个数,R是环形半径,B表示波束形成器 的空间响应,ω是语音信号的角频率,θ,φ分别是语音信号的仰角和方向角,在远场识别 场景下,Θ = 9。= Ji/2,k是波数,k= c〇/c,c是光速,Θ。,φ。分别是主波束的仰角和方 向角,γη是第η个麦克风的方向角,γ n= 2 π (n-l)/N。主波束的仰角和方向角可以设置。 S202 :对低频分量中的高频分量进行预加重处理。 通过公式(1)可以看出,当语音信号的频率越大,频谱失真越严重,为此,在对低 频分量(Ο-lkHz)计算空间响应后,可以对低频分量中的高频分量(偏向1kHz的部分)进 行预加重处理。预加重处理时例如在上述的空间响应B的基础上乘以一个增益因子,该增 益因子与频率成正比。具体的低频分量中高频分量的选择以及增益因子的设置可以根据经 验值确定。 一些实施例中,参见图2,对中高频分量的处理流程可以包括: S203 :确定补偿滤波器。 补偿滤波器Η" (ω)的公式是: 其中,〇^分别表示ω的最低和最高值,Κ是麦克风的个数,m是相位模式 (phase-mode)的索弓丨,其中,麦克风采集的语音信号经过离散傅里叶逆变换(Inverse Discrete Fourier Transform,IDFT)变换可以转换为相位模式,Jn ( α )为第一类 Bessel 函数,r是麦克风阵列的半径,c是光速,f是语音信 号的频率,是最高频率。 S204:确定加权因子。 加权因子{gm}是一个Μ阶有限长单位冲激响应(Finite Impulse Response,FIR) 滤波器系数,M是m的最大当前第1页1 2 3 本文档来自技高网...

【技术保护点】
一种用于远场语音识别的预处理方法,其特征在于,包括:获取由麦克风阵列采集的多路语音信号;根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。

【技术特征摘要】

【专利技术属性】
技术研发人员:宋辉魏建强
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1