基于时域和频域的语音活性检测方法和设备技术

技术编号：11214693 阅读：123 留言：0更新日期：2015-03-27 01:40

本发明专利技术公开了一种基于时域和频域的语音活性检测方法和设备。该方法包括：估计语音信号的噪声能量；向输入的语音信号中加入白噪声；对加入白噪声后的语音信号进行分帧处理；确定每帧的短时能量值；确定每帧的谐波乘积谱值；以及针对每一帧，根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧，并得出所述语音信号中所包含的语音片段。本发明专利技术提供的语音活性检测方法和设备，结合了时域分析与频域分析方法，针对实际情况具有更好的适应性，在背景噪声为人声以及信噪比较低等情况下也有很好的表现，并且该方法实现简单、精巧，很容易嵌入各类语音系统中。

全部详细技术资料下载

【技术实现步骤摘要】
基于时域和频域的语音活性检测方法和设备
本专利技术涉及语音活性检测领域，具体地，涉及一种基于时域和频域的语音活性检测方法和设备。
技术介绍
语音活性检测(Voice Activity Detect1n，VAD)是一种用于检测语音信号是否存在的语音处理技术。语音活性检测技术主要用于语音识别、语音编码等，其能够区别出静音、语音片段，为后续针对语音信号的进一步处理作铺垫。语音活性检测模块也是很多语音通信系统中不可或缺的部分，如音频会议、语音识别、回声消除、IP电话等。针对语音识别系统来说，语音活性检测模块的准确度会极大影响到后续的特征提取、模型建立及判决等工作，因此，提供高效、鲁棒性高的语音活性检测显得尤为重要。现有的语音活性检测技术有很多种，如基于短时能量、短时过零率的时域分析方法，也有基于倒谱频率、线性预测编码(LPC)系数等的频域分析方法。这些方法各有优势，各自利用不同的特性来区分语音与噪声。然而，在实际使用中，经常出现较低信噪比、背景噪声也为人声等等情况，此时使用传统的方法难以得到足够准确的结果。
技术实现思路
本专利技术的目的是提供一种能够提高语音活性检测结果的准确度(特别是在信噪比较低、或者背景噪声为人声的情况下)的基于时域和频域的语音活性检测方法和设备。为了实现上述目的，本专利技术提供一种基于时域和频域的语音活性检测方法。该方法包括:向输入的语音信号中加入白噪声；对加入白噪声后的语音信号进行分帧处理；确定每帧的短时能量值；确定每帧的谐波乘积谱值；以及针对每一帧，根据该帧的短时能量值和该帧的谐波乘积谱值来确定该...
基于时域和频域的语音活性检测方法和设备

【技术保护点】
一种基于时域和频域的语音活性检测方法，其特征在于，该方法包括：向输入的语音信号中加入白噪声；对加入白噪声后的语音信号进行分帧处理；确定每帧的短时能量值；确定每帧的谐波乘积谱值；以及针对每一帧，根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧，并得出所述语音信号中所包含的语音片段。

【技术特征摘要】
1.一种基于时域和频域的语音活性检测方法，其特征在于，该方法包括: 向输入的语音信号中加入白噪声；对加入白噪声后的语音信号进行分帧处理；确定每帧的短时能量值；确定每帧的谐波乘积谱值；以及针对每一帧，根据该帧的短时能量值和该帧的谐波乘积谱值来确定该帧是否为语音帧，并得出所述语音信号中所包含的语音片段。2.根据权利要求1所述的方法，其特征在于，该方法还包括:在向所述输入的语音信号中加入所述白噪声之前，估计所述语音信号的噪声能量；以及根据所估计的噪声能量来确定要加入的白躁声的比例；以及，向所述输入的语音信号中加入所述白噪声是按照所确定的比例进行的。3.根据权利要求2所述的方法，其特征在于，对所述语音信号的噪声能量的所述估计是动态进行的。4.根据权利要求1所述的方法，其特征在于，所述白噪声为高斯白噪声。5.根据权利要求1所述的方法，其特征在于，确定所述每帧的谐波乘积谱值的步骤包括: 对所述加入白噪声后的语音信号进行规范化；获取每帧的频域信息；以及根据所述每帧的频域信息来确定所述每帧的谐波乘积谱值。6.根据权利要求1-5中任一权利要求所述的方法，其特征在于，通过以下方式来确定所述帧是否为语音帧: 在所述帧的短时能量值大于或等于第一阈值、并且所述帧的谐波乘积谱值大于或等于第二阈值的情况下，确定所述帧为所述语音帧。7.根据权利要求1-5中任一权利要求所述的方法，其特征在于，通过以下方式来确定所述帧是否为语音帧: 利用预先建立的分类模型、根据所述帧的短时能量值和所述帧的谐波乘积谱值来对所述帧进行分类，以确定所述帧是否为所述语音帧。8.一种基于时域和频域的语音活性检测设备，其特征在于，该设...

【专利技术属性】
技术研发人员：关海欣，
申请(专利权)人：北京云知声信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人