基于人工智能的语音活动性检测方法和装置制造方法及图纸

技术编号:14484566 阅读:236 留言:0更新日期:2017-01-26 16:35
本发明专利技术公开了基于人工智能的语音活动性检测方法和装置,所述方法包括:获取待处理的当前帧信号;分别确定出该信号的信号能量估计值以及基频和谐波能量之和估计值;根据信号能量估计值以及基频和谐波能量之和估计值确定出该信号的语音活动性判断参数;根据语音活动性判断参数确定出该信号是否为语音信号。应用本发明专利技术所述方案,能够提高检测结果的准确性等。

【技术实现步骤摘要】

本专利技术涉及计算机应用技术,特别涉及基于人工智能的语音活动性检测方法和装置
技术介绍
目前,人工智能技术已经得到了广泛应用,人工智能(ArtificialIntelligence),英文缩写为AI,它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。如语音活动性检测(VAD,VoiceActivityDetection)是机器人语音交互过程中的一项重要技术。机器人需要对获取到的当前帧信号进行识别,以确定其中是否存在语音信息,即确定该信号是否为语音信号,如果为语音信号,后续可相应地响应用户的需求等。对获取到的各帧信号进行识别,以确定各帧信号是否为语音信号的操作即可称为语音活动性检测。现有技术中,主要基于语音信号的一些规则特征来进行语音活动性检测,比如,利用语音信号与噪声信号之间的某些特征的差异进行区分,包括信号能量、过零率、倒谱、长时谱等,通过阈值比较和逻辑运算,确定是否为语音信号。其中比较典型的方法包括双门限检测法和基于自相关极大值的语音活动性检测方法等。但上述方法受环境噪声的影响很大,因此检测结果的准确性较低。
技术实现思路
本专利技术提供了基于人工智能的语音活动性检测方法和装置,能够提高检测结果的准确性。具体技术方案如下:一种基于人工智能的语音活动性检测方法,包括:获取待处理的当前帧信号;分别确定出所述信号的信号能量估计值以及基频和谐波能量之和估计值;根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数;根据所述语音活动性判断参数确定出所述信号是否为语音信号。一种基于人工智能的语音活动性检测装置,包括:获取单元、第一能量估计单元、第二能量估计单元和语音活动性判断单元;所述获取单元,用于获取待处理的当前帧信号,并将所述信号分别发送给所述第一能量估计单元和所述第二能量估计单元;所述第一能量估计单元,用于确定出所述信号的信号能量估计值,将所述信号能量估计值发送给所述语音活动性判断单元;所述第二能量估计单元,用于确定出所述信号的基频和谐波能量之和估计值,将所述基频和谐波能量之和估计值发送给所述语音活动性判断单元;所述语音活动性判断单元,用于根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数,根据所述语音活动性判断参数确定出所述信号是否为语音信号。基于上述介绍可以看出,采用本专利技术所述方案,根据语音的浊音中独有的基频和谐波特征,并结合信号能量,来实现语音活动性检测,从而克服了现有技术中的问题,进而提高了语音活动性检测结果的准确性。【附图说明】图1为本专利技术所述基于人工智能的语音活动性检测方法实施例的流程图。图2为本专利技术所述基于人工智能的语音活动性检测装置实施例的组成结构示意图。图3为现有一段语音信号的波形与频谱图。图4为采用本专利技术所述方案对图3所示语音信号进行语音活动性检测的检测结果示意图。【具体实施方式】语音由清音和浊音结合而成,语音学中,将发音时声带振动的音称为浊音,将发音时声带不振动的音称为清音。对于语音来说,浊音的能量和持续时间均远大于清音,因此,任何有意义的语音片段中必然会包含一定长度的浊音。浊音又主要包括基频和谐波两部分,对浊音进行分析可知,其能量主要集中在基频和谐波中。各种环境噪声均不具备浊音的这种特征,因此,只要能够在信号中检测到浊音的谐波特征等,再结合语音能量一般高于噪声能量的特点,即可比较准确地确定出信号是否为语音信号。为了使本专利技术的技术方案更加清楚、明白,以下参照附图并举实施例,对本专利技术所述方案作进一步地详细说明。实施例一图1为本专利技术所述基于人工智能的语音活动性检测方法实施例的流程图,如图1所示,包括以下具体实现方式。在11中,获取待处理的当前帧信号;在获取到待处理的当前帧信号之后,还可对该信号进行预处理;在12中,分别确定出该信号的信号能量估计值以及基频和谐波能量之和估计值;在13中,根据信号能量估计值以及基频和谐波能量之和估计值确定出该信号的语音活动性判断参数;在14中,根据语音活动性判断参数确定出该信号是否为语音信号。以下分别对上述各部分的具体实现进行详细说明。1)预处理在获取到待处理的当前帧信号之后,分别确定出该信号的信号能量估计值以及基频和谐波能量之和估计值之前,可先对该信号进行预处理。预处理主要包括:依次对该信号进行加窗处理、快速傅里叶变换(FFT,FastFourierTransformation)以及求取频谱能量。可选择汉明窗来对该信号进行加窗处理,汉明窗表示如下:hamm(n)=0.54-0.46·cos(2π·n-1L-1),n=1,...,L;---(1)]]>相应地,加窗处理后的信号可表示为:swin(n)=hamm(n)·s(n),n=1,…,L;(2)s(n)表示加窗处理之前的信号,L表示该信号(数字信号)的帧长,L一般为2的正整数次方,如256,以便于进行快速傅里叶变换。之后,可对该信号的加窗处理结果swin(n)进行快速傅里叶变换,得到频域信号如下:sfft(k)=FFT[swin(n)],k=1,…,L;(3)进一步地,可在式(3)的基础上求取出该信号的频谱能量:sspectrum(k)=abs[sfft(k)],k=1,…,L;(4)abs表示取模运算。2)信号能量估计值首先,可根据该信号的帧长L和采样率fs,确定出离散频点binfmax,binfmax小于L;之后,可根据k的取值从1~binfmax时分别对应的sspectrum(k),确定出该信号的信号能量估计值Elg。binfmax=floor(A/fs·L);(5)floor表示向下取整,A表示预先设定的频率值,A大于3400Hz,由于语音信号的频率范围为20~3400Hz,因此A的取值需要大于3400Hz,具体取值可根据实际需要而定,比如可为4000Hz,信号的采样率fs可为16KHz等。在得到binfmax之后,可计算出该信号的能量值如下:E=1binfmaxΣk=1binfmaxsspectrum(k)2;---(6)]]>即将式(4)中k的取值从1~binfmax时分别对应的sspectrum(k)的平方求和之后再求平均。语音信号的能量通常用分贝进行表示,这跟人耳的听觉效应有关,采用分贝表示声音的大小更符合人耳对声音大小变化分辨的听觉习惯,因此,可对式(6)中得到的E取log10,从而得到信号能量估计值Elg如下:Elg=lg(1+E)。(7)3)基频和谐波能量之和估计值语音信号的基频的频率范围一般为60~400Hz,谐波频率是基频频率的整数倍,因此浊音在频率上存在均匀分布的能量极值,其间隔等于基频,浊音即使受到各种环境噪声的影响,一般也至少能够保持3~5个能量比较明显的谐波成分,因此,可搜寻距离基频最近的N条谐波,以所有可能的基频与对应的N条谐波能量之和为比较标准,取能量最大的频点作为基频位置,从而最终确定出信号的基频和本文档来自技高网...
基于人工智能的语音活动性检测方法和装置

【技术保护点】
一种基于人工智能的语音活动性检测方法,其特征在于,包括:获取待处理的当前帧信号;分别确定出所述信号的信号能量估计值以及基频和谐波能量之和估计值;根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数;根据所述语音活动性判断参数确定出所述信号是否为语音信号。

【技术特征摘要】
1.一种基于人工智能的语音活动性检测方法,其特征在于,包括:获取待处理的当前帧信号;分别确定出所述信号的信号能量估计值以及基频和谐波能量之和估计值;根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数;根据所述语音活动性判断参数确定出所述信号是否为语音信号。2.根据权利要求1所述的方法,其特征在于,所述分别确定出所述信号的信号能量估计值以及基频和谐波能量之和估计值之前,进一步包括:对所述信号进行预处理。3.根据权利要求2所述的方法,其特征在于,所述对所述信号进行预处理包括:依次对所述信号进行加窗处理、快速傅里叶变换以及求取频谱能量;其中,对所述信号的快速傅里叶变换结果sfft(k)进行取模运算,得到所述信号的频谱能量sspectrum(k),k=1,...,L,所述L表示所述信号的帧长。4.根据权利要求3所述的方法,其特征在于,所述确定出所述信号的信号能量估计值包括:根据所述信号的帧长L和采样率fs,确定出离散频点binfmax,binfmax小于L;根据k的取值从1~binfmax时分别对应的sspectrum(k),确定出所述信号的信号能量估计值Elg。5.根据权利要求4所述的方法,其特征在于,所述确定出离散频点binfmax包括:计算预先设定的频率值A与所述fs之商,将所述商与所述L的乘积向下取整,得到所述binfmax,所述A大于3400Hz;所述确定出所述信号的信号能量估计值Elg包括:分别计算k的取值从1~binfmax时对应的sspectrum(k)的平方值;计算各平方值的均值;对所述均值与1的相加之和取log10,得到所述Elg。6.根据权利要求3所述的方法,其特征在于,所述确定出所述信号的基频和谐波能量之和估计值包括:确定出基频对应的离散频点fw的取值范围[flower,fupper];针对位于所述取值范围内的每个fw的取值,分别确定出该取值下的基频与距离基频最近的N条谐波的能量之和N为大于1的正整数;将取值最大的作为所述基频和谐波能量之和估计值Eval。7.根据权利要求6所述的方法,其特征在于,确定出所述flower包括:计算基频频率的最小取值B1与采样率fs之商,将所述商与所述L的乘积向下取整,得到所述flower;确定出所述fupper包括:计算基频频率的最大取值B2与所述fs之商,将所述商与所述L的乘积向下取整,得到所述fupper;所述针对位于所述取值范围内的每个fw的取值,分别确定出该取值下的基频与距离基频最近的N条谐波的能量之和包括:计算n的取值从1到(1+N)时分别对应的sspectrum(n·fw)的相加之和,将计算结果作为所述所述sspectrum(n·fw)表示当k的取值为n·fw时对应的sspectrum(k),n·fw小于L。8.根据权利要求1所述的方法,其特征在于,所述根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数包括:计算所述信号的信号能量估计值Elg与预先确定的噪声条件下的信号能量阈值Elg,noise之差,得到第一差值;计算所述信号的基频和谐波能量之和估计值Eval与预先确定的噪声条件下的基频和谐波能量阈值Eval,noise之差,得到第二差值;计算所述第一差值和0之间的较大者与所述第二差值和0之间的较大者的乘积,得到所述信号的语音活动性判断参数Ecomb。9.根据权利要求8所述的方法,其特征在于,所述根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数之前,进一步包括:确定所述信号的帧号是否小于或等于M,M为大于1的正整数,所述信号的帧号为正整数;若是,且所述信号的帧号p=1,则将所述信号的Elg作为所述Elg,noise,将所述信号的Eval作为所述Eval,noise;若是,且所述信号的帧号p满足1<p<=M,则根据所述信号的Elg对所述Elg,noise进行更新,更新后的Elg,noise等于0.9与Elg,noise的乘积以及0.1与Elg的乘积之和,并根据所述信号的Eval对所述Eval,noise进行更新,更新后的Eval,noise等于0.9与Eval,noise的乘积以及0.1与Eval的乘积之和;若否,则根据所述信号的Elg和Eval以及最新得到的Elg,noise和Eval,noise,确定出所述信号的Ecomb。10.根据权利要求1~9中任一项所述的方法,其特征在于,所述根据所述语音活动性判断参数确定出所述信号是否为语音信号包括:将所述语音活动性判断参数与预先设定的判决门限进行比较;若所述语音活动性判断参数小于所述判决门限,则确定所述信号为非语音信号,否则,确定所述信...

【专利技术属性】
技术研发人员:李峥
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1