基于十字形声阵列宽带波束形成的声识别方法技术

技术编号:13831902 阅读:92 留言:0更新日期:2016-10-14 10:55
本发明专利技术公开了一种基于十字形声阵列宽带波束形成的声识别方法。本发明专利技术包括如下步骤:1、将十字形声阵列对准所需方向采集声音信号;2、对采集到声音信号进行预处理;3、对预处理后的每一帧数据进行离散傅里叶变换,然后根据需要的频带进行频带提取;4、提取的各频带分别在所需方向上进行LSMI‑MVDR波束形成。5、将波束形成后的频域信号进行逆离散傅里叶变换;6、对应分帧时的原则进行帧重叠合成,输出信号;7、对输出信号进行特征提取和分类学习、识别。本发明专利技术能够提高期望方向接收信号的信噪比并且抑制其他方向的干扰信号,将其用于声音识别系统的信号处理阶段,能够有效的提高识别系统对识别对象的识别率和可靠性。

【技术实现步骤摘要】

本专利技术属于信号处理
,尤其涉及一种基于十字形声阵列宽带波束形成的声识别方法
技术介绍
传统的单传声器声识别系统中,存在以下几个问题:1.声识别系统只需要对某一个方向的信号进行识别,然而由于单个传声器的全向性,当识别对象并不在该方向附近时,识别系统依然会被触发,从而造成了误警。2.在真实的复杂环境中,识别对象附近存在多种干扰声源以及严重的背景噪声,这就会造成系统的整体识别率急剧下降,误警率、漏警率会急剧上升。3.在实际应用中,为了提高识别系统的作用区域的极限距离,就会使用高灵敏度的传声器,然而高灵敏的传声器势必会导致背景噪声的增强,从而造成对远距离的识别率并不会有着明显的增高,反而会下降。
技术实现思路
针对以上问题,本专利技术提供了一种基于十字形声阵列宽带波束形成的声识别方法。为了实现上述目的,本专利技术采用的技术方案包括如下步骤:步骤1、将十字形声阵列对准所需方向采集4通道声音信号;步骤2、对采集到的4通道声音信号进行预处理,包括分帧、加窗;步骤3、对预处理后的每一帧数据进行离散傅里叶变换,离散傅里叶变换后的4通道声音信号根据需要的频带进行频带提取;步骤4、提取的各频带分别在所需方向上进行LSMI-MVDR波束形成;步骤5、将波束形成后的频域信号进行逆离散傅里叶变换;步骤6、对应分帧时的原则进行帧重叠合成,输出信号;步骤7、对输出信号进行特征提取和分类学习、识别。所述的步骤1:将十字形声阵列的其中一个通道对准声源方向,作为LSMI-MVDR宽带波束形成的方向,采集4通道声音信号,采样频率记为fs。所述的步骤2:预处理包括数据的分帧、加窗,对声音信号进行分帧,声音信号每帧选取1024个采样点,帧移为512个采样点;然后采用汉明窗对声音信号进行加窗;所述的步骤3:通过FFT来实现信号的离散傅里叶变换,其中,每一帧信号经过FFT后频率分辨率为第p个通道的第m帧信号经过FFT后的结果为:其中,L=1024为每一帧的长度,为第p个通道第m帧的信号,k为是各个频带的编号,其对应的中心频率为:然后,根据声音信号的频率特性,选取相应的频率带,比如信号所在的频率带为[f1,f2],则我们提取FFT后的k所在的区间为所述的步骤4:设第k个频带的中心频率为fk,则对于十字形阵列,首先将十字形阵列建立在直角坐标系下,则十字形阵列接收到的第m帧信号在时域内表示为:其中,S(t)为声源信号,它的方位角为θ;为方向矢量; 是噪声向量;ω为S(t)的中心角频率,τp(θ)(p=1,2,3,4)是第p个阵元相对于参考点即坐标原点的延时,对于十字形声阵列,其值为:c是声音在空气中的传播速度,r是十字形声阵列的半径。将(1)式进行离散傅里叶变换得到在频域下表示方式为其中,k=0,1,...,L-1;a(θ,fk)是中心频率为fk的第k个频带所对应的方向矢量,即对于MVDR波束形成原理,表述为在保证期望方向θde的信号功率不变的情况下,使得阵列输出的功率最小,即其中,R=E[X(k)XH(k)]是接收信号在频域下的自相关矩阵。在实际应用中,用估计值来替代R,估计值的计算如下:其中NF表示声音信号的帧数。因此,MVDR波束形成的最佳权矢量wopt为:是一个比例系数。为了提高MVDR波束形成的稳健性,我们使用基于对角加载的改进MVDR波束形成算法,其原理是在自相关矩阵的对角线上增加一个加载量,即 R ^ L S M I = R ^ + λ I ]]>从而,改进的最佳权矢量wLSMI变为波束形成后的第m帧频域信号Y(m)(k)为: Y ( m ) ( k ) = W L S M I H X ( m ) ( k ) ]]>所述的步骤5:将第m帧频域信号Y(m)(k)通过逆离散傅里叶变换转换到时域,其中逆离散傅里叶变换通过IFFT来实现,其中第m帧时域信号y(m)(i)为:所述的步骤6:将经过逆离散傅里叶变换的各帧声音信号按照分帧时的原则进行重叠,然后再输出信号;其中:第一帧信号不变,后面每一帧信号去掉前面的512个点,只保留后512点,然后再添加到前一帧信 号后面。所述的步骤7:将输出信号作为原始信号,进行特征提取和分类学习、识别。其中,声音的特征提取算法主要有线性预测倒谱系数(Linear Prediction Cepstral Coefficients,LPCC)或者梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)等,而分类学习识别算法主要有支持向量机(Support Vector Machine,SVM)或者极限学习机(Extreme Learning Machine,ELM)等。本专利技术有益效果如下:本专利技术使用4通道十字形声阵列采集声音信号数据进行LSMI-MVDR宽带波束形成,能够提高期望方向接收信号的信噪比并且抑制其他方向的干扰信号,达到空间滤波和噪声抑制的效果,提高的接收信号的信干噪比,非常有效的解决了上述的提到的缺陷,将其用于声音识别系统的信号处理阶段,可以有效的提高识别系统对识别对象的识别率和可靠性。附图说明图1是本专利技术提出的基于4通道十字形声阵列LSMI-MVDR宽带波束形成的声识别方法的流程图图2是基于LSMI-MVDR算法的宽带波束形成的流程图图3是识别系统的特征提取、模型库建立和识别部分的流程示意图图4为4通道十字形声阵列建立在直角坐标系下的结构图具体实施方式下面结合附图和具体实施方式对本专利技术作详细说明,以下描述仅作为示范和解释,并不对本专利技术作任何形式上的限制。如图4所示为4通道十字形声阵列建立在直角坐标系下的结构图,其中d为两个相邻传声器的间距;r为十字形阵列的半径;S(t)为声源,它的方向为θ;图中的A、B、C、D分别对应于通道1、通道2、通道3、 通道4。假设只需要识别0度方向的信号,则将十字形声阵列的通道1对准0度方向,即在图4中,使得声源位于x轴正半轴上,然后采集信号,总共会采集到4个通道的信号,分别记为x1(t),x2(t),x3(t),x4(t)。图2展示了基于LSMI-MVDR算法的宽带波束形成的实现流程图,按照图2中的步骤,我们首先将4通道信号分别进行分帧加窗,其中帧长为1024,帧移为512,加汉明窗。将4通道的每一帧后的数据通过FFT算法进行离散傅里叶变换。第p个通道的第m帧信号FFT后的结果为,第k个频带对应的中心频率为假设,我们需要进行波束形成的信号频带的区间为[f1,f2],则对应的频带编号k的区间为其中floor为向下取本文档来自技高网...

【技术保护点】
基于十字形声阵列宽带波束形成的声识别方法,其特征在于包括如下步骤:步骤1、将十字形声阵列对准所需方向采集4通道声音信号;步骤2、对采集到的4通道声音信号进行预处理,包括分帧、加窗;步骤3、对预处理后的每一帧数据进行离散傅里叶变换,离散傅里叶变换后的4通道声音信号根据需要的频带进行频带提取;步骤4、提取的各频带分别在所需方向上进行LSMI‑MVDR波束形成;步骤5、将波束形成后的频域信号进行逆离散傅里叶变换;步骤6、对应分帧时的原则进行帧重叠合成,输出信号;步骤7、对输出信号进行特征提取和分类学习、识别;所述的步骤1:将十字形声阵列的其中一个通道对准声源方向,作为LSMI‑MVDR宽带波束形成的方向,采集4通道声音信号,采样频率记为fs;所述的步骤2:预处理包括数据的分帧、加窗,对声音信号进行分帧,声音信号每帧选取1024个采样点,帧移为512个采样点;然后采用汉明窗对声音信号进行加窗;所述的步骤3:通过FFT来实现信号的离散傅里叶变换,其中,每一帧信号经过FFT后频率分辨率为第p个通道的第m帧信号经过FFT后的结果为:Xp(m)(k)=Σi=0L-1xp(m)(i)exp(-j2πikL),k=0,1,...,L-1]]>其中,L=1024为每一帧的长度,为第p个通道第m帧的信号,k为是各个频带的编号,其对应的中心频率为:fk=fsL×k]]>然后,根据声音信号的频率特性,选取相应的频率带,比如信号所在的频率带为[f1,f2],则我们提取FFT后的k所在的区间为...

【技术特征摘要】
1.基于十字形声阵列宽带波束形成的声识别方法,其特征在于包括如下步骤:步骤1、将十字形声阵列对准所需方向采集4通道声音信号;步骤2、对采集到的4通道声音信号进行预处理,包括分帧、加窗;步骤3、对预处理后的每一帧数据进行离散傅里叶变换,离散傅里叶变换后的4通道声音信号根据需要的频带进行频带提取;步骤4、提取的各频带分别在所需方向上进行LSMI-MVDR波束形成;步骤5、将波束形成后的频域信号进行逆离散傅里叶变换;步骤6、对应分帧时的原则进行帧重叠合成,输出信号;步骤7、对输出信号进行特征提取和分类学习、识别;所述的步骤1:将十字形声阵列的其中一个通道对准声源方向,作为LSMI-MVDR宽带波束形成的方向,采集4通道声音信号,采样频率记为fs;所述的步骤2:预处理包括数据的分帧、加窗,对声音信号进行分帧,声音信号每帧选取1024个采样点,帧移为512个采样点;然后采用汉明窗对声音信号进行加窗;所述的步骤3:通过FFT来实现信号的离散傅里叶变换,其中,每一帧信号经过FFT后频率分辨率为第p个通道的第m帧信号经过FFT后的结果为: X p ( m ) ( k ) = Σ i = 0 L - 1 x p ( m ) ( i ) exp ( - j 2 π i k L ) , k = 0 , 1 , ... , L - 1 ]]>其中,L=1024为每一帧的长度,为第p个通道第m帧的信号,k为是各个频带的编号,其对应的中心频率为: f k = f s L × k ]]>然后,根据声音信号的频率特性,选取相应的频率带,比如信号所在的频率带为[f1,f2],则我们提取FFT后的k所在的区间为2.根据权利要求1所述的基于十字形声阵列宽带波束形成的声识别方法,其特征在于所述的步骤4:设第k个频带的中心频率为fk,则对于十字形阵列,首先将十字形阵列建立在直角坐标系下,则十字形阵列接收到的第m帧信号在时域内表示为: x ( m ) ( t ) = x 1 ( m ) ( t ) x 2 ( m ) ( t ) x 3 ( m ) ( t ) x 4 ( m ) ( t ) = a ( θ ) S ( t ) + n ( t ) = e - jωτ 1 ( θ ) e - jωτ 2 ( θ ) e - jωτ 3 ( θ ) e - jωτ 4 ( θ ) S ( t ) + n 1 ( t ) n 2 ( t ) n 3 ( t ) n 4 ( t ) - - - ( 1 ) ]]>其中,S(t)为声源信号,它的方位角为θ;为方向矢量;是噪声向量;ω为S(t)的中心角频率,τp(θ)(p=1,2,3,4)是第p个阵元相对于参考点即坐标原点的延时,对于十字形声阵列,其值为: τ ( θ ) = τ 1 ( θ ) τ 2 ( θ ) τ 3 ( θ ) τ 4 ( θ ) = - r cos θ c - r sin θ c r cos θ c r sin θ c ]]>c是声音在空气中的传播速度,r是十字形声阵列的半径;将(1)式进行离散傅里叶变换得到在频域下表示方式为 X ( m ) ( k ) = X 1 ( m ) ( k ) X 2 ( m ) ( k ) X 3 ( m ) ( k ) X 4 ( m ) ( k ) = a ( θ , f k ) S ( k ) + n ( k ) ...

【专利技术属性】
技术研发人员:王天磊王建中曹九稳赖晓平
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1