本发明专利技术涉及一种噪声功率谱估计与语音活动性检测方法,该方法基于一阶回归的序贯隐马尔可夫模型SHMM描述语音在每一频率分量上的时序相关性,最终推演出语音的在这个频率子带上的出现概率和噪声的功率谱信息,1)对于语音信号在每一个频率分量上提取对数幅度谱包络,并建立一个对应的二元隐马尔可夫模型,每一个状态均由高斯分布表示;2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,采用极大似然估计算法建立一个初始化的模型;3)在得到初始化的模型λM之后,从第M+1帧开始,采用增量学习的方法,逐帧更新每一频带的HMM模型,依次递推得到噪声值和语音信号的出现概率。
【技术实现步骤摘要】
本专利技术涉及语音信号处理的
,具体的说,本专利技术涉及一种基于序贯隐马尔可夫模型的噪声谱估计与语音活动性检测方法。其中,语音活动性检测是在时间维度上判断语音出现与否的算法,它既能以“是”或“否”的形式回答存在性,也可以用语音出现概率来描述语音的存在性。
技术介绍
语音活动性检测和噪声功率谱估计是降噪算法必不可少的组成部分,它们的性能直接影响降噪算法的性能,特别是在恶劣的噪声环境下,它们间接影响了语音处理系统(如语音识别、话者识别以及语言识别器)的性能。大多数的语音应用系统不得不面对环境噪声干扰。前人提出了很多方法去除噪声对语音系统的干扰,几乎所有的方法都依赖于语音活动性检测和噪声功率谱估计。这两个 模块存在着紧密的联系,它们的准确性直接影响系统的整体抗噪性能。传统的估计方法尽管性能良好,但仍然有两个地方值得提高I、充分利用连续语音/非语音信号在某一频率分量上的时序相关性,现有的算法对于时间相关性的利用不够充分,它们往往采用比较简单的一阶回归平滑器对幅度谱包络进行平滑,而且平滑器的平滑因子是固定的。而语音信号本身就是一个分段平稳的信号,它的统计特征包括时序相关性,都是随着时间在不断变化的,一个固定的模型无法反映这种时变特性。如果我们能够采用自适应的模型对时序相关性进行建模,那么算法的性能无疑将会得到提升。这一方法在以往的文献资料中没有提及。2、传统的序贯HMM的参数自适应采用高阶的回归平均方式,当前的HMM参数集依赖于上一时刻的模型、当前的观察值以及过去多个时刻的观察值,这种参数回归的方式计算量巨大。如果能够在精度损失不大的情况下把这种高阶回归简化为一阶回归,那么,算法的计算效率将大为提高。基于一阶回归的序贯HMM算法,在以往的文献资料中也没有提及。另外,传统的解决方案是基于半监督学习的方式。在起始阶段,一股的系统需要做出“噪声起始”的假设,即假设句子的开头总是存在一段非语音信号。这段非语音信号可以理解为人工标注的背景噪声样本,从这些标注样本中建立噪声的初始化模型,这是一种监督学习方法。其缺陷是在一些应用中这个假设难以得到满足,比如当句子以语音信号开头,那么将导致噪声模型的初始化失败,继而使得语音检测和噪声功率谱估计都不准确。这种初始化的方法在中国申请号201010178166. 4的专利中已经公开。
技术实现思路
本专利技术目的的目的在于,为提供一种基于序贯隐马尔可夫模型的噪声谱估计与语音活动性检测方法,该方法利用隐马尔可夫模型对语音信号在某频率分量上存在的时序相关性进行建模,在某个频率分量上的对数功率谱包络可以看作一个马尔可夫链,这个链条在语音“出现”和“不出现”两种状态间跳转,对于每个状态,采用一个高斯分布描述其功率谱的分布,再根据HMM的前向因子,可以导出语音在某个时频点的出现概率。为实现上述专利技术目的,本专利技术提供了,该方法基于一阶回归的序贯隐马尔可夫模型SHMM描述语音在每一频率分量上的时序相关性,并采用增量学习的方式来逐步更新SHMM,最终,推演出语音的在这个频率子带上的出现概率和噪声的功率谱信息,以准确反映语音的时序统计特征,该方法包括下列步骤I)对于语音信号在每一个频率分量上提取对数幅度谱包络,并建立一个对应的二元隐马尔可夫模型,其中,一个分量表示语音能量的分布,另一个分量是噪声能量的分布,每一个状态均由高斯分布表示;2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中 M帧的对数幅度谱,采用极大似然估计算法建立一个初始化的模型;3)在得到初始化的模型Am之后,从第M+1帧开始,采用增量学习的方法,逐帧更新每一频带的HMM模型,依次递推得到噪声值和语音信号的出现概率。该方法的具体步骤包括I)对于语音信号在每一个频率分量上提取对数幅度谱包络,对于一个频率分量上的对数幅度谱时间序列X1 = (X1, X2, , X1I ,建立一个隐马尔可夫模型S1 = (S1, S2,,S1I, st G {0,1}是其对应的状态序列,I表示语音出现状态,0表示噪声出现状态,X1表示从序列X1中获取的模型参数估值,那么,对于给定一个参数集X1,对应的观察值序列X1的概率密度函数可以表示为其中,p(Sl| A1)表示状态序列S1出现的先验概率,高斯分量表示为/p(sl\ll) = Y\aStiA ;/=1这里的戈^表示状态转移概率八= '表示初始状态概率,P (X11 A17S1)表示给定状态S1和参数集\ I的情况下观察值序列X1的似然度P (A I 木) = 11^ (x> 丨 s>,次)t=\ .其中,Hxt I ,木)=^j2Ls eXp{-扣- J }这里& ( 表不状态\对应的高斯分布方差,表不相应的均值,._/ tJISt-'变 ^ko^ 00^ 参数集中的初始概率巧不随着时间化;这个模型中的y 0,1就是我们想要估计的噪声,同时,我们可以推导出语音信号在第I帧的某个频点上出现的概率为~, (i) = P(st=i\xt^f).92)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,代入步骤I)的HMM模型对每一个频点上初始化一个隐马尔可夫模型入M,下标M表示初始化的时间窗口长度,I彡M;3)在得到初始化的模型\ M之后,从第M+1帧开始,HMM模型采用增量学习的方法,逐帧更新SHMM模型,依次递推得到\ I ;并得出噪声值U o, I和语音信号在第I帧的某个频点上的出现概率。作为上述技术方案的一种改进,所述的步骤I)中提取一帧幅度谱的步骤包括首先,对这一帧的数字化声音信号做预处理,设每帧长度为F点,先补零到N点,N彡F,N = 2J, j为整数,且j彡8,进行N点离散傅里叶变换,得到离散谱Y,,k =W M,其中,yi, n表示缓存中第I帧的第n个采样点,Y1, k表示缓存中M=O 第i帧的第k个傅里叶变换值(k = 0,l,... , N-1);那么,它的幅度值可以计算为A=10*log1Q,式中,b(r)为加窗函数。所述的预处理包括加窗、或/和预加重;所述的加窗函数采用汉宁窗或哈宁窗。作为上述技术方案的一种改进,所述的步骤2)中HMM的初始化,在某个频点上具体初始化的步骤包括步骤201):通过聚类的方法将M个样本分成两类M^lj= 1,.-M和{<)|7+ = 1,...,1/。},其中,MfM1 =M,均值较大的一类用上标(I)表示,另一类用上标(0)表示;所述的步骤201)中的聚类的方法采用LBG非监督聚类或者模糊聚类方法;两类的均值为Am 二忐刀二亍,能量较小的一类的均值为Am 二xP,其中,Mw < M,m .两类的方差分别为Atw,kim = S ;=1 (xo _ TKm );两类的初始化权重系数为:Km = uOlM = uHM = uWM = O.5 ;计算新模型的似然度,Z =IogfiKA I ,并开始迭代运算;在以下的迭代过程中,老的模型参数集合表示为入'M,新的模型参数为X;开始迭代以前,4=4,L'设置为一个很大的负数,初始化前向因子,忍=初始化后向因子,Sm(Z) = I;步骤202):计算前向因子A(z) = Z6-i(z)U(x,丨兄4),。芦汛1};步骤本文档来自技高网...
【技术保护点】
一种噪声功率谱估计与语音活动性检测方法,该方法基于一阶回归的序贯隐马尔可夫模型SHMM描述语音在每一频率分量上的时序相关性,并采用增量学习的方式来逐步更新SHMM,最终,推演出语音的在这个频率子带上的出现概率和噪声的功率谱信息,以准确反映语音的时序统计特征,该方法包括下列步骤:1)对于语音信号在每一个频率分量上提取对数幅度谱包络,并建立一个对应的二元隐马尔可夫模型,其中,一个分量表示语音能量的分布,另一个分量是噪声能量的分布,每一个状态均由高斯分布表示;2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,采用极大似然估计算法建立一个初始化的模型;3)在得到初始化的模型λM之后,从第M+1帧开始,采用增量学习的方法,逐帧更新每一频带的HMM模型,依次递推得到噪声值和语音信号的出现概率。
【技术特征摘要】
【专利技术属性】
技术研发人员:应冬文,颜永红,付强,潘接林,李军锋,
申请(专利权)人:中国科学院声学研究所,北京中科信利技术有限公司,
类型:发明
国别省市: