基于人工智能的语音活动性检测方法和装置制造方法及图纸

技术编号：14484566 阅读：261 留言：0更新日期：2017-01-26 16:35

本发明专利技术公开了基于人工智能的语音活动性检测方法和装置，所述方法包括：获取待处理的当前帧信号；分别确定出该信号的信号能量估计值以及基频和谐波能量之和估计值；根据信号能量估计值以及基频和谐波能量之和估计值确定出该信号的语音活动性判断参数；根据语音活动性判断参数确定出该信号是否为语音信号。应用本发明专利技术所述方案，能够提高检测结果的准确性等。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机应用技术，特别涉及基于人工智能的语音活动性检测方法和装置。
技术介绍
目前，人工智能技术已经得到了广泛应用，人工智能(ArtificialIntelligence)，英文缩写为AI，它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。如语音活动性检测(VAD,VoiceActivityDetection)是机器人语音交互过程中的一项重要技术。机器人需要对获取到的当前帧信号进行识别，以确定其中是否存在语音信息，即确定该信号是否为语音信号，如果为语音信号，后续可相应地响应用户的需求等。对获取到的各帧信号进行识别，以确定各帧信号是否为语音信号的操作即可称为语音活动性检测。现有技术中，主要基于语音信号的一些规则特征来进行语音活动性检测，比如，利用语音信号与噪声信号之间的某些特征的差异进行区分，包括信号能量、过零率、倒谱、长时谱等，通过阈值比较和逻辑运算，确定是否为语音信号。其中比较典型的方法包括双门限检测法和基于自相关极大值的语音活动性检测方法等。但上述方法受环境噪声的影响很大，因此检测结果的准确性较低。
技术实现思路
本专利技术提供了基于人工智能的语音活动性检测方法和装置，能够提高检测结果的准确性。具体技术方案如下：一种基于人工智能的语音活动性检测方法，包括：获取待处理的当前帧信号；分别确定出所述信号的信号能量估计值...

【技术保护点】
一种基于人工智能的语音活动性检测方法，其特征在于，包括：获取待处理的当前帧信号；分别确定出所述信号的信号能量估计值以及基频和谐波能量之和估计值；根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数；根据所述语音活动性判断参数确定出所述信号是否为语音信号。

【技术特征摘要】
1.一种基于人工智能的语音活动性检测方法，其特征在于，包括：获取待处理的当前帧信号；分别确定出所述信号的信号能量估计值以及基频和谐波能量之和估计值；根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数；根据所述语音活动性判断参数确定出所述信号是否为语音信号。2.根据权利要求1所述的方法，其特征在于，所述分别确定出所述信号的信号能量估计值以及基频和谐波能量之和估计值之前，进一步包括：对所述信号进行预处理。3.根据权利要求2所述的方法，其特征在于，所述对所述信号进行预处理包括：依次对所述信号进行加窗处理、快速傅里叶变换以及求取频谱能量；其中，对所述信号的快速傅里叶变换结果sfft(k)进行取模运算，得到所述信号的频谱能量sspectrum(k)，k＝1,...,L，所述L表示所述信号的帧长。4.根据权利要求3所述的方法，其特征在于，所述确定出所述信号的信号能量估计值包括：根据所述信号的帧长L和采样率fs，确定出离散频点binfmax，binfmax小于L；根据k的取值从1～binfmax时分别对应的sspectrum(k)，确定出所述信号的信号能量估计值Elg。5.根据权利要求4所述的方法，其特征在于，所述确定出离散频点binfmax包括：计算预先设定的频率值A与所述fs之商，将所述商与所述L的乘积向下取整，得到所述binfmax，所述A大于3400Hz；所述确定出所述信号的信号能量估计值Elg包括：分别计算k的取值从1～binfmax时对应的sspectrum(k)的平方值；计算各平方值的均值；对所述均值与1的相加之和取log10，得到所述Elg。6.根据权利要求3所述的方法，其特征在于，所述确定出所述信号的基频和谐波能量之和估计值包括：确定出基频对应的离散频点fw的取值范围[flower,fupper]；针对位于所述取值范围内的每个fw的取值，分别确定出该取值下的基频与距离基频最近的N条谐波的能量之和N为大于1的正整数；将取值最大的作为所述基频和谐波能量之和估计值Eval。7.根据权利要求6所述的方法，其特征在于，确定出所述flower包括：计算基频频率的最小取值B1与采样率fs之商，将所述商与所述L的乘积向下取整，得到所述flower；确定出所述fupper包括：计算基频频率的最大取值B2与所述fs之商，将所述商与所述L的乘积向下取整，得到所述fupper；所述针对位于所述取值范围内的每个fw的取值，分别确定出该取值下的基频与距离基频最近的N条谐波的能量之和包括：计算n的取值从1到(1+N)时分别对应的sspectrum(n·fw)的相加之和，将计算结果作为所述所述sspectrum(n·fw)表示当k的取值为n·fw时对应的sspectrum(k)，n·fw小于L。8.根据权利要求1所述的方法，其特征在于，所述根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数包括：计算所述信号的信号能量估计值Elg与预先确定的噪声条件下的信号能量阈值Elg,noise之差，得到第一差值；计算所述信号的基频和谐波能量之和估计值Eval与预先确定的噪声条件下的基频和谐波能量阈值Eval,noise之差，得到第二差值；计算所述第一差值和0之间的较大者与所述第二差值和0之间的较大者的乘积，得到所述信号的语音活动性判断参数Ecomb。9.根据权利要求8所述的方法，其特征在于，所述根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数之前，进一步包括：确定所述信号的帧号是否小于或等于M，M为大于1的正整数，所述信号的帧号为正整数；若是，且所述信号的帧号p＝1，则将所述信号的Elg作为所述Elg,noise，将所述信号的Eval作为所述Eval,noise；若是，且所述信号的帧号p满足1<p<＝M，则根据所述信号的Elg对所述Elg,noise进行更新，更新后的Elg,noise等于0.9与Elg,noise的乘积以及0.1与Elg的乘积之和，并根据所述信号的Eval对所述Eval,noise进行更新，更新后的Eval,noise等于0.9与Eval,noise的乘积以及0.1与Eval的乘积之和；若否，则根据所述信号的Elg和Eval以及最新得到的Elg,noise和Eval,noise，确定出所述信号的Ecomb。10.根据权利要求1～9中任一项所述的方法，其特征在于，所述根据所述语音活动性判断参数确定出所述信号是否为语音信号包括：将所述语音活动性判断参数与预先设定的判决门限进行比较；若所述语音活动性判断参数小于所述判决门限，则确定所述信号为非语音信号，否则，确定所述信...

【专利技术属性】
技术研发人员：李峥，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人