一种面向特定人群的语音识别方法技术

技术编号:4053380 阅读:283 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种面向特定人群的语音识别方法,首先对语音信号采样,将其从模拟信号转换至数字信号,然后对数字语音信号进行预加重、加窗分帧和端点检测的前端处理,接着采用离散小波变换对语音信号做特征提取,最后采用经样本训练后的离散隐马尔可夫模型对特征提取后的语音信号做语音识别。在对语音信号的前端处理和特征提取过程中充分考虑不同目标人群的频谱特征和发音特点对语音信息提取的过程进行优化,可简化处理过程和信息提取过程,从而在保证识别精度的同时,大大降低了识别过程中的计算量和信息存储量,实现了在嵌入式平台上的语音识别。

【技术实现步骤摘要】

本专利技术涉及语音信号处理与识别
,尤其涉及一种面向特定目标人群的语 音识别方法。
技术介绍
语音识别,是机器通过识别和理解过程把人类的语音信号转变为相应的文本或命 令的技术,即将语音信号逐字逐句的翻译为相应的书面语言,或对语音所包含的要求和命 令做出正确的响应。随着科学的发展和计算机的普及,人们对与计算机的交流方式提出了 更高的要求。这促进了语音识别技术的发展,并使之成为语音处理领域中的一个重要研究 方向。语音识别具有广阔的应用前景,其发展、成熟和实用化将推动许多产业的迅速发展, 包括计算机、办公室自动化、通信、国防、机器人等等。目前,在实验室环境下,语音识别系统 的识别率已经达到了很高的水平。但是由于受现实环境噪声的影响,语音识别系统的识别 率较实验室环境大幅度下降,语言识别系统的实用性受到了很大的影响。语音识别中最重要的技术基本集中在语音特征提取和模式匹配两个环节。在汉语 语音识别系统中,主要采用以下三种特征提取方法基于LPC的倒谱参数(LPCC)分析法该方法的典型代表是基于Durbin或 Levinson迭代算法求解“维纳-霍夫方程”获得LPC预测系数为基础,进而得到的LPC的倒 谱参数(LPCC)。基于Mel系数的Mel频标倒谱系数(MPCC)分析法该方法基于FFT频谱余弦变换 为基础,根据Mel曲线将语音信号频谱分为若干个频带,每个频带的能量经FFT变换对应一 组MFCC参数。基于现代处理技术的小波变换系数分析法该方法将语音信号与一个在时域和频 域均具有良好局部化性质的小波函数族进行积分(小波变换),从而把信号分解成一组位 于不同频率和时段内的分量,即选择小波函数为某类平滑函数的一阶导数,从而获得语音 特征参数。小波变换法则是一种新兴的理论工具,与经典的LPCC和MPCC方法相比,小波变 换法有着计算量小、复杂程度低、识别效果好等许多优点,是未来语音识别技术发展的一个 方向。为解决语音识别的另一个技术难题-模式匹配,Rabiner等人在20世纪80年代 将隐马尔可夫(HMM)模型引入语音识别领域。该算法以HMM模型为基本建模模型,运用统 计学习理论对发音的基本音素建立对应的声学模型,统计学习各个音素之间的概率转移关 系,再结合语义分析进行内容识别。通过大量的语音库,就能够获得一个稳健的统计模型, 能够适应实际语音中的各种突发情况。目前绝大多数基于PC的系统都采用此方法。伴随着科技进步和全球信息交流的日益扩大,嵌入式设备产品的市场规模得到了 迅猛的发展。3G手机、GPS导航设备等移动通信终端和MP3、电子词典等便携式消费电子产 品的日益普及,使语音合成、语音识别、手写输入技术在嵌入式中的应用成了最具吸引力的 功能,具有语音识别功能的嵌入式系统有助于提高人机交互的效率,增强人对智能化设备的控制,具有广阔的市场应用前景,可广泛应用于语音导航、语音拨号、智能家电和玩具的 语音控制等领域。目前主流的语音识别技术是基于统计模式识别的理论,由于算法复杂,运算量大, 一般由PC机来完成,这无疑限制了它在便携嵌入式设备中的运用。嵌入式语音识别技术并 不能简单地将PC机通用的语音识别技术应用到嵌入式系统,它受到嵌入式处理器的处理 能力、存储资源、应用环境及成本等方面的严格限制和制约,迫切需要在噪声处理、语音特 征提取算法以及语音识别算法等方面做出改进,提出适用于嵌入式平台的语音识别方法。
技术实现思路
本专利技术的目的在于提供一种基于嵌入式系统平台的、面向特定人群的语音识别方 法,该方法根据目标人群发音的统计特点对前端处理以及离散小波变换环节的参数进行选 择,采用离散小波变换提取频谱特征,并采用离散马尔可夫模型对语音信号进行识别,从而 大大降低了运算量和待处理的信息量,进而在嵌入式平台上实现了采用隐马尔可夫模型的 语音识别技术。由于人的年龄不同,声带长度、体积、肌张力及神经传导速度都有一定的差异。研 究表明,年龄会对嗓音造成显著性影响,儿童、成人与老人的嗓音具有明显的差别。针对发 音者的年龄划分目标人群,不同目标人群的声学参数,如基调频率、频率微扰、振幅微扰及 声门噪声等均不同,其发音的不同语音元素(如元音、清音、浊辅音等)的频率分布范围也 存在差异,这就为本专利技术中根据不同目标群体的音频特点采用不同的前端处理中加窗分帧 参数和不同的离散小波变换频段进行语音信号的特征提取提供了理论依据。一种面向特定目标人群的语音识别方法,包括(1)对语音信号采样,将语音信号由模拟信号转换至数字信号;由于语音信号的能量绝大部分集中在4kHz以下的频段内,本专利技术采用8kHz的采 样信号对语音信号进行采样并量化,将其换至数字信号。(2)对数字语音信号进行前端处理;所述的前端处理包括预加重、加窗分帧和端点检测。所述的预加重是对语音信号作+6dB/倍频程的高频提升,提升语音信号的高频部 分,使信号的频谱变得宽坦,以减少低频干扰分量的影响,便于进行频谱分析或声道分析。所述的加窗分帧采用窗函数平滑地在语音信号上滑动,将语音信号划分为若干语 音帧帧。为了使划分出的语音帧更能反映出发音者的语音特征,对语音信号进行加窗分帧 处理时考虑目标人群语音信号的基调周期。例如,小孩的基调频率在300 400Hz,而成年 女人的基调频率在150 250Hz,成年男人的基调频率在100 150Hz等。基调周期与基调 频率成倒数关系,不同目标人群的基调周期也必然不同。本专利技术中每个语音帧的帧长大于目标人群语音信号的基调周期的两倍,帧移为帧 长的一半,帧速根据帧长的数值来确定,它们两者互为倒数。所述的端点检测是在噪声环境下将语音信息和非语音信息区分开来,从而避免一 些误判,可以有效地提高识别率。以每一个语音帧的帧能量与帧过零率的乘积作为端点检 测的指标量。在语音开始后,一旦有某一个语音帧的帧能量与帧过零率乘积超过预设的阈 值,就认为有效语音开始。在有效语音开始后,当连续的几个语音帧的帧能量与帧过零率乘(3)根据目标人群的发音特点对经过前端处理后的语音信号进行特征提取;特征提取阶段是语音识别的重要阶段,特征提取的实质是对经过预处理的语音信 号经过某种变换,去掉冗余部分,把代表语音信号本质的特征参数抽取剥离出来,它是在语 音信号经过端点检测提取出有用的语音数据后再进行。正确合理地选择特征参数不仅对 语音识别系统的识别率至关重要,同时对系统的实时性能也有很大的影响。本专利技术利用离 散小波变换(DWT)特有的奇异特征提取和时变滤波功能,用小波变换代替傅里叶变换,把 小波变换引入梅尔频率倒谱参数(MFCC参数)的提取,使语音词汇的识别做到更准确、更快 速。对语音信号进行特征提取,得到特征参数的过程为1.将每个语音帧进行离散小波变换,将其划分为若干个频带,求出每个频带的小 波分解系数,小波变换的频带特征频率由目标人群语音频谱中语音元素的频率分布决定。 语音元素包括元音、清音、浊辅音等。一般清音的频率高于元音、浊辅音的频率。但是,不同 年龄目标人群的语音频谱中这些语音元素的频率分布是不同的。按照不同年龄目标人群的 语音频谱中语音元素的频率分布将语音信号划分为不同的频带,这样对语音信号进行灵活 性的频带划分处理,可提高语音识别的识别率;2.将上述若干个频带上分解出的小波系数本文档来自技高网
...

【技术保护点】
一种面向特定目标人群的语音识别方法,其特征在于,包括:(1)对语音信号进行采样,将语音信号由模拟信号转换至数字信号;(2)对语音信号进行前端处理;(3)提取语音信号的特征参数;(4)采用离散隐马尔可夫模型对语音信号进行识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:熊伟刘伟王飞浪谢伟良陈鑫娜陈鹏熊俱扬熊鑫
申请(专利权)人:杭州网豆数字技术有限公司
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利