本发明专利技术公开了一种基于时域和频域的语音活性检测方法和设备。该方法包括:估计语音信号的噪声能量;向输入的语音信号中加入白噪声;对加入白噪声后的语音信号进行分帧处理;确定每帧的短时能量值;确定每帧的谐波乘积谱值;以及针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段。本发明专利技术提供的语音活性检测方法和设备,结合了时域分析与频域分析方法,针对实际情况具有更好的适应性,在背景噪声为人声以及信噪比较低等情况下也有很好的表现,并且该方法实现简单、精巧,很容易嵌入各类语音系统中。
【技术实现步骤摘要】
基于时域和频域的语音活性检测方法和设备
本专利技术涉及语音活性检测领域,具体地,涉及一种基于时域和频域的语音活性检测方法和设备。
技术介绍
语音活性检测(Voice Activity Detect1n,VAD)是一种用于检测语音信号是否存在的语音处理技术。语音活性检测技术主要用于语音识别、语音编码等,其能够区别出静音、语音片段,为后续针对语音信号的进一步处理作铺垫。语音活性检测模块也是很多语音通信系统中不可或缺的部分,如音频会议、语音识别、回声消除、IP电话等。针对语音识别系统来说,语音活性检测模块的准确度会极大影响到后续的特征提取、模型建立及判决等工作,因此,提供高效、鲁棒性高的语音活性检测显得尤为重要。 现有的语音活性检测技术有很多种,如基于短时能量、短时过零率的时域分析方法,也有基于倒谱频率、线性预测编码(LPC)系数等的频域分析方法。这些方法各有优势,各自利用不同的特性来区分语音与噪声。然而,在实际使用中,经常出现较低信噪比、背景噪声也为人声等等情况,此时使用传统的方法难以得到足够准确的结果。
技术实现思路
本专利技术的目的是提供一种能够提高语音活性检测结果的准确度(特别是在信噪比较低、或者背景噪声为人声的情况下)的基于时域和频域的语音活性检测方法和设备。 为了实现上述目的,本专利技术提供一种基于时域和频域的语音活性检测方法。该方法包括:向输入的语音信号中加入白噪声;对加入白噪声后的语音信号进行分帧处理;确定每帧的短时能量值;确定每帧的谐波乘积谱值;以及针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段。 优选地,该方法还包括:在向所述输入的语音信号中加入所述白噪声之前,估计所述语音信号的噪声能量;以及根据所估计的噪声能量来确定要加入的白躁声的比例;以及向所述输入的语音信号中加入所述白噪声是按照所确定的比例进行的。 优选地,对所述语音信号的噪声能量的所述估计是动态进行的。 优选地,所述白噪声为高斯白噪声。 优选地,确定所述每帧的谐波乘积谱值的步骤包括:对所述加入白噪声后的语音信号进行规范化;获取每帧的频域信息;以及根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值。 优选地,通过以下方式来确定所述帧是否为语音帧:在所述帧的短时能量值大于或等于第一阈值、并且所述帧的谐波乘积谱值大于或等于第二阈值的情况下,确定所述帧为所述语音帧。 优选地,通过以下方式来确定所述帧是否为语音帧:利用预先建立的分类模型、根据所述帧的短时能量值和所述帧的谐波乘积谱值来对所述帧进行分类,以确定所述帧是否为所述语音帧。 本专利技术还提供一种基于时域和频域的语音活性检测设备。该设备包括:用于向输入的语音信号中加入白噪声的装置;用于对加入白噪声后的语音信号进行分帧处理的装置;用于确定每帧的短时能量值的装置;用于确定每帧的谐波乘积谱值的装置;以及用于针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段的装置。 优选地,该设备还包括:用于在向所述输入的语音信号中加入所述白噪声之前,估计所述语音信号的噪声能量的装置;以及用于根据所估计的噪声能量来确定要加入的白躁声的比例的装置;以及向所述输入的语音信号中加入所述白噪声是按照所确定的比例进行的。 优选地,对所述语音信号的噪声能量的所述估计是动态进行的。 优选地,所述白噪声为高斯白噪声。 优选地,用于确定所述每帧的谐波乘积谱值的装置包括:用于对所述加入白噪声后的语音信号进行规范化的装置;用于获取每帧的频域信息的装置;以及用于根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值的装置。 优选地,通过以下方式来确定所述帧是否为语音帧:在所述帧的短时能量值大于或等于第一阈值、并且所述帧的谐波乘积谱值大于或等于第二阈值的情况下,确定所述帧为所述语音帧。 优选地,通过以下方式来确定所述帧是否为语音帧:利用预先建立的分类模型、根据所述帧的短时能量值和所述帧的谐波乘积谱值来对所述帧进行分类,以确定所述帧是否为所述语音帧。 在上述技术方案中,通过在原有的语音信号中混入一定比例的白噪声,可以有效减小原有的语音信号中包含的噪声片段对语音活性检测的影响。并且,在背景噪声为人声的情况下,通过混入白噪声,可以在一定程度上抹平这些为人声的背景噪声的谐波结构,从而避免这些背景噪声对语音活性检测结果的影响。通过短时能量值与谐波乘积谱值这两项参数来共同确定语音信号中包含的语音片段,相比于仅依靠单一参数来进行判决,可以提高准确性。特别是在背景噪声为人声的情况下,虽然这些噪声可能具有谐波结构,但它们的短时能量值较低,因此,通过本专利技术提供的语音活性检测方法可以有效地区分出这些为人声的背景噪声和真实的语音片段。本专利技术提供的语音活性检测方法和设备,结合了时域分析与频域分析方法,针对实际情况具有更好的适应性,在背景噪声为人声以及信噪比较低等情况下也有很好的表现,并且该方法实现简单、精巧,很容易嵌入各类语音系统中。 本专利技术的其他特征和优点将在随后的【具体实施方式】部分予以详细说明。 【附图说明】 附图是用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与下面的【具体实施方式】一起用于解释本专利技术,但并不构成对本专利技术的限制。在附图中: 图1示出了根据本专利技术的实施方式的基于时域和频域的语音活性检测方法的流程图; 图2示出了根据本专利技术的另一实施方式的基于时域和频域的语音活性检测方法的流程图;以及 图3是根据本专利技术的实施方式的确定谐波乘积谱值的方法的流程图。 【具体实施方式】 以下结合附图对本专利技术的【具体实施方式】进行详细说明。应当理解的是,此处所描述的【具体实施方式】仅用于说明和解释本专利技术,并不用于限制本专利技术。 图1示出了根据本专利技术的实施方式的基于时域和频域的语音活性检测方法的流程图。如图1所示,该方法可以包括:步骤S101,向输入的语音信号中加入白噪声;步骤S102,对加入白噪声后的语音信号进行分帧处理;步骤S103,确定每帧的短时能量值;步骤S104,确定每帧的谐波乘积谱值;以及步骤S105,针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段。在本专利技术的一个示例实施方式中,所述白噪声可以例如为高斯白噪声。但是应当理解的是,其他类型的白噪声也适用于本专利技术。 具体地,在步骤S101,主动向输入的语音信号中加入白噪声。所加入的白噪声的比例可以根据经验来设定。可替换地,在本专利技术提供的一个优选实施方式中,该比例可以根据输入的语音信号的噪声能量来设定。 在根据输入的语音信号的噪声能量来确定加入的白噪声的比例的情况下,如图2所示,本专利技术提供的语音活性检测方法还可以包括:步骤S106,在向所述输入的语音信号中加入所述白噪声(即,步骤S101)之前,估计所述语音信号的噪声能量;之后,步骤S107,根据所估计的噪声能量来确定要加入的白躁声的比例。在这种情况下,在步骤S101中,向所述输入的语音信号中加入所述白噪声是按照所确定的比例进行的。 对噪声能量进行估计,可以预判出该语音信号中包含的噪声本文档来自技高网...
【技术保护点】
一种基于时域和频域的语音活性检测方法,其特征在于,该方法包括:向输入的语音信号中加入白噪声;对加入白噪声后的语音信号进行分帧处理;确定每帧的短时能量值;确定每帧的谐波乘积谱值;以及针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段。
【技术特征摘要】
1.一种基于时域和频域的语音活性检测方法,其特征在于,该方法包括: 向输入的语音信号中加入白噪声; 对加入白噪声后的语音信号进行分帧处理; 确定每帧的短时能量值; 确定每帧的谐波乘积谱值;以及 针对每一帧,根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧,并得出所述语音信号中所包含的语音片段。2.根据权利要求1所述的方法,其特征在于,该方法还包括:在向所述输入的语音信号中加入所述白噪声之前,估计所述语音信号的噪声能量;以及根据所估计的噪声能量来确定要加入的白躁声的比例;以及, 向所述输入的语音信号中加入所述白噪声是按照所确定的比例进行的。3.根据权利要求2所述的方法,其特征在于,对所述语音信号的噪声能量的所述估计是动态进行的。4.根据权利要求1所述的方法,其特征在于,所述白噪声为高斯白噪声。5.根据权利要求1所述的方法,其特征在于,确定所述每帧的谐波乘积谱值的步骤包括: 对所述加入白噪声后的语音信号进行规范化; 获取每帧的频域信息;以及 根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值。6.根据权利要求1-5中任一权利要求所述的方法,其特征在于,通过以下方式来确定所述帧是否为语音帧: 在所述帧的短时能量值大于或等于第一阈值、并且所述帧的谐波乘积谱值大于或等于第二阈值的情况下,确定所述帧为所述语音帧。7.根据权利要求1-5中任一权利要求所述的方法,其特征在于,通过以下方式来确定所述帧是否为语音帧: 利用预先建立的分类模型、根据所述帧的短时能量值和所述帧的谐波乘积谱值来对所述帧进行分类,以确定所述帧是否为所述语音帧。8.一种基于时域和频域的语音活性检测设备,其特征在于,该设...
【专利技术属性】
技术研发人员:关海欣,
申请(专利权)人:北京云知声信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。