语音识别方法、装置及终端制造方法及图纸

技术编号:14978630 阅读:77 留言:0更新日期:2017-04-03 11:09
本发明专利技术公开了一种语音识别方法、装置及终端,用以提高现有语音识别方式的抗噪性能。所述方法包括:获取一帧语音信号,从所述语音信号中提取d维MFCC参数;对d维所述MFCC参数进行倒谱计算,获得d维倒谱MFCC参数;根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理,获得d维迭代倒谱MFCC参数;基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别。

【技术实现步骤摘要】

本专利技术涉及电子领域,特别是涉及一种语音识别方法、装置及终端
技术介绍
语音特征提取在语音识别过程中是非常关键的步骤,目前语音识别算法主要是在信号空间对噪声信号进行预处理(比如滤波),以得到更为纯净的语音信号,但是语音识别在嘈杂环境下识别率仍不理想;因此如何能准确有效地提取出反映语音特征的特征参数是个重要的研究课题;特征参数的鲁棒性和精确性直接影响到语音识别的准确率;同时,特征提取对语音识别系统的实时性也有着很大的影响。目前,特征参数提取方法主要有基音、共振峰、线性预测编码(LinearPredictiveCoding,LPC)、线性预测倒谱系数(LPCC)和梅尔倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC)等。LPC和LPCC没有考虑到人耳的听觉特性,没有采用非线性的频率变换,不能精确地描述说话人的特征。MFCC参数模拟了人耳对语音不同频谱的感知能力,考虑了人耳的听觉特性,MFCC特征性能较好,计算复杂度低,具有良好的识别性能和鲁棒性;但传统的MFCC特征参数频谱能量泄露严重和描述语音信号的共振峰特性不够,因此传统的基于MFCC特征参数进行语音识别过程冗余性较高,导致低信噪比的语音识别系统鲁棒性较差和识别率下降明显。
技术实现思路
本专利技术的目的在于提供一种语音识别方法、装置及终端,用以提高现有语音识别方式的抗噪性能。根据本专利技术的一个方面,本专利技术提供一种语音识别方法,其特征在于,包括:获取一帧语音信号,从所述语音信号中提取d维MFCC参数;对d维所述MFCC参数进行倒谱计算,获得d维倒谱MFCC参数;根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理,获得d维迭代倒谱MFCC参数;基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别。进一步,基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别的步骤,具体包括:对d维所述迭代倒谱MFCC参数采用差分方式获得d个特征补偿值;根据d个所述特征补偿值,对d维所述迭代倒谱MFCC参数进行特征补偿;基于经过特征补偿的所述迭代倒谱MFCC参数,对所述语音信号进行识别。进一步,基于经过特征补偿的所述迭代倒谱MFCC参数,对所述语音信号进行识别的步骤,具体包括:对经过特征补偿的所述迭代倒谱MFCC参数,采用主成分分析方式进行降维处理;基于降维处理后的所述迭代倒谱MFCC参数,对所述语音信号进行识别。进一步,采用下述公式进行倒谱计算,获得d维所述倒谱MFCC参数:C′(n)=C(n)n=0C(n)+Σk=0n-1kC′(n)C(n)/n0<n≤dΣk=0n-1kC′(n)C(n)/nn>d;]]>其中,C(n)为第n维MFCC参数;C′(n)为第n维倒谱MFCC参数;d为一帧语音信号提取的MFCC参数的维数。进一步,采用下述公式进行迭代处理,获得d维所述迭代倒谱MFCC参数:Ci(n)=(1-α2)C0′(n+1)+αC1′(n+1)i=1Ci-1′(n+1)+α(Ci′(n+1)-Ci-1′(n))i>1;]]>其中,i为迭代次数,α为扭曲因子,C0′(n+1)为迭代初值。根据本专利技术的另一个方面,本专利技术提供一种语音识别装置,其特征在于,包括:参数提取模块,用于获取一帧语音信号,从所述语音信号中提取d维MFCC参数;倒谱模块,用于对d维所述MFCC参数进行倒谱计算,获得d维倒谱MFCC参数;迭代模块,用于根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理,获得d维迭代倒谱MFCC参数;识别模块,用于基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别。进一步,所述识别模块包括特征补偿单元和识别单元,所述特征补偿单元,用于对d维所述迭代倒谱MFCC参数采用差分方式获得d个特征补偿值;根据d个所述特征补偿值,对d维所述迭代倒谱MFCC参数进行特征补偿;所述识别单元,用于基于经过特征补偿的所述迭代倒谱MFCC参数,对所述语音信号进行识别。进一步,所述识别模块还包括降维单元,用于对经过特征补偿的所述迭代倒谱MFCC参数,采用主成分分析方式进行降维处理;所述识别单元,具体用于基于降维处理后的所述迭代倒谱MFCC参数,对所述语音信号进行识别。进一步,所述倒谱模块采用下述公式进行倒谱计算,获得d维所述倒谱MFCC参数:C′(n)=C(n)n=0C(n)+Σk=0n-1kC′(n)C(n)/n0<n≤dΣk=0n-1kC′(n)C(n)/nn>d;]]>其中,C(n)为第n维MFCC参数;C′(n)为第n维倒谱MFCC参数或者为特征补偿的第n维倒谱MFCC参数;d为一帧语音信号提取的MFCC参数的维数。进一步,所述迭代模块采用下述公式进行迭代处理,获得d维所述迭代倒谱MFCC参数:Ci(n)=(1-α2)C0′(n+1)+αC1′(n+1)i=1Ci-1′(n+1)+α(Ci′(n+1)-Ci-1′(n))i>1;]]>其中,i为迭代次数,α为扭曲因子,C0′(n+1)为迭代初值。根据本专利技术的再一个方面,本专利技术提供一种终端,所述终端包括本专利技术所述的语音识别装置。本专利技术有益效果如下:本专利技术提高在特征空间进行语音识别的抗噪性能,具体说,通过对传统的MFCC参数通过倒谱计算后进行迭代,获取MFCC参数特征的动态变化轨迹以提高抗噪性能,并在提高抗噪性能的同时也不影响语音识别的实时性能。附图说明图1是本专利技术实施例中一种语音识别方法的流程图;图2是本专利技术实施例中扭曲因子与识别率的关系示意图;图3是本专利技术实施例中一种语音识别装置的结构示意图。具体实施方式为了提高现有语音识别方式的抗噪性能,本专利技术提供了一种语音识别方法、装置及终端,以下结合附图以及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不限定本专利技术。实施例一本专利技术实施例提供一种语音识别方法,包括:S101,获取一帧语音信号,从所述语音信号中提取d维MFCC参数;d的取值范围为本文档来自技高网...

【技术保护点】
一种语音识别方法,其特征在于,包括:获取一帧语音信号,从所述语音信号中提取d维MFCC参数;对d维所述MFCC参数进行倒谱计算,获得d维倒谱MFCC参数;根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理,获得d维迭代倒谱MFCC参数;基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
获取一帧语音信号,从所述语音信号中提取d维MFCC参数;
对d维所述MFCC参数进行倒谱计算,获得d维倒谱MFCC参数;
根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理,获得d维
迭代倒谱MFCC参数;
基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别。
2.如权利要求1所述的方法,其特征在于,基于d维所述迭代倒谱MFCC
参数,对所述语音信号进行识别的步骤,具体包括:
对d维所述迭代倒谱MFCC参数采用差分方式获得d个特征补偿值;
根据d个所述特征补偿值,对d维所述迭代倒谱MFCC参数进行特征补偿;
基于经过特征补偿的所述迭代倒谱MFCC参数,对所述语音信号进行识别。
3.如权利要求2所述的方法,其特征在于,基于经过特征补偿的所述迭
代倒谱MFCC参数,对所述语音信号进行识别的步骤,具体包括:
对经过特征补偿的所述迭代倒谱MFCC参数,采用主成分分析方式进行降
维处理;
基于降维处理后的所述迭代倒谱MFCC参数,对所述语音信号进行识别。
4.如权利要求1-3任意一项所述的方法,其特征在于,采用下述公式进
行倒谱计算,获得d维所述倒谱MFCC参数:
C′(n)=C(n)n=0C(n)+Σk=1n-1kC′(n)C(n)/n0<n≤dΣk=1n-1kC′(n)C(n)/nn>d;]]>其中,C(n)为第n维MFCC参数;C′(n)为第n维倒谱MFCC参数;d为一帧
语音信号提取的MFCC参数的维数。
5.如权利要求1-3任意一项所述的方法,其特征在于,采用下述公式进

\t行迭代处理,获得d维所述迭代倒谱MFCC参数:
Ci(n)=(1-α2)C0′(n+1)+αC1′(n+1)i=1Ci-1′(n+1)+α(Ci′(n+1)-Ci-1′(n))i>1;]]>其中,i为迭代次数,α为扭曲因子,C0′(n+1)为迭代初值。
6.一种语音识别装置,其特征在于,包括:
参数提取模块,用于获取一帧语音信号,从所述语音信号中...

【专利技术属性】
技术研发人员:黎小松傅文治胡绩强汪平炜
申请(专利权)人:宇龙计算机通信科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1