本发明专利技术涉及一种增强声环境中目标语音信号拾取的信号处理方法。(1)通过实验获取ESN网络的参数,建立相应的音源模型;(2)将模型用于两种场合:当模型的输出为期望的某目标语音信号,输入为该目标语音源的声环境反射声信号和目标语音信号的混合时,模型可用于现场扩声的回声消除;当模型的输出为期望的某目标语音信号,输入为其它特定语音源的声环境反射声信号和目标语音信号的混合时,模型可用于两个特定人间语音通信的回声消除;(3)模型在实际声环境中给目标语音人使用时,拾音的位置发生变化,也能抑制训练所指的音源信号的反射信号,而输出相应增强的目标语音信号。本发明专利技术克服因拾音位置移动,而造成语音信号质量受到的影响。
【技术实现步骤摘要】
一种增强声环境中目标语音信号拾取的信号处理方法
本专利技术属于室内语音信号拾取的处理技术,涉及通过实验对回声状态神经网络的参数选择和训练建模的数字信号处理方法,特别是一种增强声环境中目标语音信号拾取的信号处理方法。
技术介绍
在现场扩声中,消除回声影响的涉及对象是:特定目标语音和该特定目标语音的环境反射声,主要用于提高声增益。主要的相关技术有:(1)传统技术如窄带均衡是滤除峰值的处理,消除反馈自振;移频法是采用对信号进行频谱移动再扩声,用以破坏反馈自振条件等,它们存在的一个共同问题都是处理技术复杂,并且不利于语音信号的保真;(2)基于现代的数字信号处理的方法则采用自适应滤波处理的回声抵消技术。在语音通信中,消除回声影响的涉及对象是:特定目标语音和另一个特定语音的环境反射声,主要达到语音增强的目的。回声消除的相关产品主要在两个方面:基于DSP平台的回声消除器和基于Windows平台的语音通信的回声消除算法软件。它们均是基于自适应回声抵消技术的产品,回声抵消必须精确地模拟回声路径,并且迅速地适应它的变化。这包括自适应滤波器的结构和自适应算法的选择,以及减少噪声对算法收敛速度的影响等。自适应回声抵消处理主要有以下两方面问题:首先,设计主要针对以下的使用问题:(1)处理同时通话。只有远端信号没有近端信号时,获得对回声模拟的滤波器系数,当加入近端信号时等于引进另外大的随机分量到自适应过程,滤波器系数会围绕这个中值的变化而显著增大,导致性能下降。对此必须检测近端信号存在的关键元件,在同时讲话时使自适应功能停止,保持前面的滤波器系数不变。(2)基于自适应滤波的算法常用的LMS算法存储量小、实现及检测比较容易,但收敛性差;而收敛性好的RLS算法计算量大,因此出现了许多它们的改进算法,以及应用于解决实际回声问题的自适应滤波抵消算法处理。(3)当回声消除算法应用到Windows平台,必须解决采集和播放音频流的同步问题。相对于传统的DSP平台,现在的PC机,拥有丰富的CPU资源和海量的内存资源,再复杂的回声消除算法都可以运行自如。但是,应用程序很难在底层直接控制声卡的采集播放,获得的是非实时的音频流,从而带来了采集和播放音频流的同步问题。本地接收到远端的语音后,要把这些语音数据传给回声消除算法做参考,这是算法需要的一个输入信号;然后再传给声卡,声卡放出来后经过回音路径,本地再采集后传给回声消除算法,是算法需要的另一个输入信号。如果传给回声消除算法的两个信号同步得不好,即两个信号发生帧错位,就很难进行消除了。其次,扬声器与麦克风之间声耦合形成的声回波自适应滤波消除技术存在以下的技术问题:(1)由于延迟时间较长(达到1s),需要几千个系数的高阶滤波器来拟合,需要更多的计算资源。(2)如此长的高阶滤波器的稳定性及提高其自适应速度都是比较困难的事情。首先,声回波路径由于声学特性的变化表现得不平稳;其次,声回波是通过多经传播来的;再次,房间声空间的传播散射特性是非线性,用一般的(或)线性滤波器不能较好地对其建模。(3)对于立体声系统的声回波抵消问题,目前仍然是一个重要的、富有挑战性的研究课题,随着消回声消除技术的发展,当前回声消除研究的重点,已由电路回声的消除,转向了声学回声的消除。作为语音信号的产生可以采用或模型描述,室内扬声器到麦克风的声信道(反射声信号的产生)也可以用或模型近似描述,模型具有以较少极点较准确模拟声信道的功能。对于室内声信道相当于大量驻波叠加的结果,有较多峰值,需要较多极点数的模型模拟出来,而对于人声系统发出的语音信号则通常只要很少极点数的模型就可以模拟出来。因此,如果能建立一个模型,其输出为目标语音,而输入为目标语音和环境反射声信号的,则抑制的是反射声信号,而相应强化的是目标语音信号。动态神经网络,又称递归神经网络,由动态神经元组成,是针对动态系统辨识研究中发展出来的一种神经网络。动态神经网络的训练过程是不断调整网络参数(如权值等)使网络输出逼近理想输出的过程,是建立模型的有力工具。作为一种新型递归神经网络,回声状态神经网络(网络)在非线性系统辨识方面较传统的递归神经网络有较大改进。首先,在稳定性方面,可以通过预先设定储备池权值矩阵的谱半径来保证递归网络的稳定性;其次,在网络训练方面,输出权值的确定是唯一而且是全局最优的,因此没有传统神经网络普遍存在的局部最小问题,并且不存在传统动态神经网络靠误差调整而收敛速度慢的问题;除此之外,网络避免了传统递归神经网络求取时序偏微分的过程,因此网络的训练过程变得特别简单。正因为网络在非线性系统辨识方面显示出的良好性能,因此,本专利技术针对上述需求,也利用网络建立一种抑制室内声环境反射声信号而增强输出目标语音信号的模型。借此,在回声消除处理中,上述自适应滤波器所遇到的问题将得到解决。
技术实现思路
本专利技术的目的在于提供一种解决上述自适应滤波器抵消声环境反射信号的方法所存在的不足的增强声环境中目标语音信号拾取的信号处理方法。为实现上述目的,本专利技术的技术方案是:一种增强声环境中目标语音信号拾取的信号处理方法,包括以下步骤:步骤1:确定建立的模型类型:包括第一音源模型和第二音源模型,所述第一音源模型为抑制目标语音本身在声环境中产生的的反射声信号而相应增强目标语音信号;所述第二音源模型为抑制另一特定人语音在声环境中产生的反射声信号而相应增强目标语音信号;步骤2:模型的训练数据源分为两种获取准备:当准备建立第一音源模型时,需获取目标语音信号的数据采样点;当准备建立第二音源模型时,需获取特定人语音信号和目标语音信号的数据采样点;步骤3:获取训练模型用的环境反射声信号:首先,从电声系统对室内声环境输入激励信号,获取室内声环境的脉冲响应信号,并转换成数字信号;其次,设定阶数,利用基于自相关的线性预测算法获取全极点滤波器系数,该全极点滤波器用于模拟声环境中的声信道传输特性;再而,以准备抑制的反射声所对应的音源信号或经过全极点滤波器获得相应的环境反射声信号;步骤4:ESN网络参数的确定:ESN网络的方程为:其中,表示内部神经元激活函数,通常取双曲正切函数,表示输出函数,典型情况下取恒等函数,为时刻储备池的状态变量,为时刻系统输入向量,是网络时刻的输出;为随机产生并且稀疏连接的高维方阵,储备池一经产生,其连接权值保持不变;和分别为网络的输入权值矩阵和输出权值向量;为输出对状态变量连接权值向量;表示输出的偏置项或代表噪声;和随机产生而且保持不变,唯一需要调整的是输出权值;为使麦克风取一定长度的信号帧输入模型后,能够处理输出相应长度的目标语音帧,上述三个随机连接权值向量的取值如下:,即,取值在(,)之间;,即,取值在(0,)之间;,即,取值(0,)之间;其中,值越小,建立状态的时间相对越短,提高模型运算的实时性,而值越大模型精确性越高,但可能使泛化能力下降;取值为:①决定输入储备池的尺度,;②;③;步骤5:以作为网络输入,作为目标期望,对网络进行训练,得到抑制特定音源反射声而相应增强目标语音信号的模型;时刻,储备池的状态变量的状态方程:;对于给定非线性系统输入输出对(,;),利用网络辨识该系统的过程为:首先,初始化储备池中的权值和;其次,输入激励系统,求得网络的各个时刻状态响应;储备池中的状态变量与本文档来自技高网...

【技术保护点】
一种增强声环境中目标语音信号拾取的信号处理方法,其特征在于:包括以下步骤:步骤1:确定建立的模型类型:包括第一音源模型和第二音源模型,所述第一音源模型为抑制目标语音本身在声环境中产生的的反射声信号而相应增强目标语音信号;所述第二音源模型为抑制另一特定人语音在声环境中产生的反射声信号而相应增强目标语音信号;步骤2:模型的训练数据源分为两种获取准备:当准备建立第一音源模型时,需获取目标语音信号的数据采样点;当准备建立第二音源模型时,需获取特定人语音信号和目标语音信号的数据采样点;步骤3:获取训练模型用的环境反射声信号:首先,从电声系统对室内声环境输入激励信号,获取室内声环境的脉冲响应信号,并转换成数字信号;其次,设定阶数,利用基于自相关的线性预测算法获取全极点滤波器系数,该全极点滤波器用于模拟声环境中的声信道传输特性;再而,以准备抑制的反射声所对应的音源信号或经过全极点滤波器获得相应的环境反射声信号;步骤4:ESN网络参数的确定:ESN网络的方程为:其中,表示内部神经元激活函数,通常取双曲正切函数,表示输出函数,典型情况下取恒等函数,为时刻储备池的状态变量,为时刻系统输入向量,是网络时刻的输出;为随机产生并且稀疏连接的高维方阵,储备池一经产生,其连接权值保持不变;和分别为网络的输入权值矩阵和输出权值向量;为输出对状态变量连接权值向量;表示输出的偏置项或代表噪声;和随机产生而且保持不变,唯一需要调整的是输出权值;为使麦克风取一定长度的信号帧输入模型后,能够处理输出相应长度的目标语音帧,上述三个随机连接权值向量的取值如下:,即,取值在(,)之间;,即,取值在(0,)之间;, 即,取值(0,)之间;其中,值越小,建立状态的时间相对越短,提高模型运算的实时性,而值越大模型精确性越高,但可能使泛化能力下降;取值为:①决定输入储备池的尺度,;②;③;步骤5:以作为网络输入,作为目标期望,对网络进行训练,得到抑制特定音源反射声而相应增强目标语音信号的模型;时刻,储备池的状态变量的状态方程:;对于给定非线性系统输入输出对(,;),利用网络辨识该系统的过程为:首先,初始化储备池中的权值和;其次,输入激励系统,求得网络的各个时刻状态响应;储备池中的状态变量与期望输出之间是线性关系,因此网络的训练过程比较简单,而且解的过程不会出现传统神经网络常有的多个局部最小、收敛速度慢的缺点;输出权值的确定采用基本的线性回归算法:。...
【技术特征摘要】
1.一种增强声环境中目标语音信号拾取的信号处理方法,其特征在于:包括以下步骤:步骤1:确定建立的模型类型:包括第一音源模型和第二音源模型,所述第一音源模型为抑制目标语音本身在声环境中产生的的反射声信号而相应增强目标语音信号;所述第二音源模型为抑制另一特定人语音在声环境中产生的反射声信号而相应增强目标语音信号;步骤2:模型的训练数据源分为两种获取准备:当准备建立第一音源模型时,需获取目标语音信号S1(n)的数据采样点;当准备建立第二音源模型时,需获取特定人语音信号m(n)和目标语音信号S1(n)的数据采样点;步骤3:获取训练模型用的环境反射声信号:首先,从电声系统对室内声环境输入激励信号,获取室内声环境的脉冲响应信号,并转换成数字信号y(n);其次,设定阶数p,利用基于自相关的线性预测算法获取全极点滤波器系数,该全极点滤波器用于模拟声环境中的声信道传输特性;再而,以准备抑制的反射声所对应的音源信号m(n)或S1(n)经过全极点滤波器获得相应的环境反射声信号S2(n);步骤4:ESN网络参数的确定:ESN网络的方程为:X(i+1)=f(WX(i)+WinU(i)+WbackY(i))其中,f表示内部神经元激活函数,通常取双曲正切函数,fout表示输出函数,典型情况下取恒等函数,X(i)为i时刻储备池的状态变量,U(i)为i时刻系统输入向量,Y(i)是ESN网络i时刻的输出;W为随机产生并且稀疏连接的高维方阵,储备池一经产生,其连接权值保持不变;Win和W分别为ESN网络的输入权值矩阵和输出权值向量;Wback为输出对状态变量连接权值向量;表示输出的偏置项或代表噪声;Win和Wback随机产生而且保持不变,唯一需要调整的是输出权值Wout;为使麦克风取一定长度的信号帧输入模型后,能够处理输出相应长度的目标语音帧,上述三个随机连接权值向量的取值如下:Win=a×(2×rand(N,1)-1),即N×1随机矩阵,取值在(-a,a)之间;Wback=b×rand(N,1),即N×1随机矩阵,取值在(0,b)之间;W=c×sprand(N,N,p),即N×N,稀疏连接p的正态分布随机矩阵,取值(0,c)之间;其中,N值越小,建立状态的时间相对越短,提高模型运算的实时性,而N值越大模型精确性越高,但可能使泛化能力下降;a、b、c取值为:①a决定输入储备池的尺度,a≥1;②0<b<1;③0<c<1;N≥300,p=0.01-0.05;步骤5:以U(n)=S1(n)+S2(n)作为ESN网络输入,D=S1(n)作为目标期望,对ESN网络进行训练,得到抑制特定音源反射声而相应增强目标语音信号的模型;i时刻,储备池的状态变量X的状态方程:X(i)=tanh(WinU(i)+WX(i-1)+WbackD(i-1));对于给定非线性系统输入输出对(U(n),D(n);n=1,2,3,...),利用ESN网络辨识该系统的过程为:首先,初始化储备池中的权值W和Win;其次,输入U(n)激励系统,求得ESN网络的各个时刻状态响应;储备池中的状态变量与期望输出...
【专利技术属性】
技术研发人员:陈国钦,
申请(专利权)人:福建师范大学福清分校,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。