语音识别系统技术方案

技术编号:3046448 阅读:236 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种语音识别系统,包括:模数变换单元,将输入语音的模拟信号变换为数字信号;特征提取单元,对该数字信号进行分帧处理,提取每一帧语音的特征参数,得到其特征矢量序列;特征码本,由一定数量的码字组成;量化编码单元,根据特征码本将输入语音的特征矢量序列转换为特征码字序列;概率表,存储了特征码本中每个码字对应高斯码本中每个码字的概率值;以及解码运算单元,对该特征码字序列进行解码运算得到识别结果,运算中对该特征码字序列中的各个码字,从概率表中直接查找与其具有最大匹配概率的高斯[0]码字。本发明专利技术的语音识别系统,可在保证语音系统识别性能的前提下,提高系统的识别速度。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种语音识别系统
技术介绍
当前的语音识别系统几乎都是采用基于统计模式识别的方法,在所有的语音识别系统中都需要将语音输入的时域声波转换成一种数字化的矢量特征来描述区分不同的发音,我们称之为语音特征,基于该特征对所有的发音建立一个声音模型,这在语音识别领域我们通常称之为声学模型。所有的语音识别系统都必须要有一个声学模型;同时,对于大词表连续语音识别系统来说,还需要一个语言模型。语音识别的目的就是给定一串声音特征序列为输入条件,利用声学模型和语言模型,采用搜索算法,输出识别结果,如字、词或句子,换言之,语音识别系统就是要在巨大的字、词或句子空间中,找出与给定输入特征序列相匹配具有最大概率的字、词或句子。而语音特征集则通过采集众多语音的特征参数集合而成,可用于对输入语音的矢量序列进行量化编码,将其转换为相应的特征码字序列。图1所示是一种已知语音识别系统的结构框图,模拟语音经过模数变换单元11后变换为计算机可处理的数字信号,然后利用特征提取单元12对该数字信号进行分帧处理,通常帧长为20ms,帧移为10ms,提取每一帧语音的MFCC参数,得到MFCC矢量序列,解码运算单元14根据输入语音的特征矢量序列、声学模型13及语言模型15,采用一定的搜索策略,如深度优先搜索(Viterbi算法)或广度优先搜索,得到识别的结果,其中语言模型在进行大词表连续语音识别时,用于将语言层的知识应用到语音识别系统中,提高系统的识别精度。随着微电子技术和通讯技术的高速发展,手机等嵌入式通讯装置几乎已成为人们工作生活必备的物品,而人们对其功能的要求也越来越高,这使得将语音技术应用于此类装置成为研究的热点,现有手机的语音功能需预先对特定人的语音建模,只能识别有限的语音指令,而不能真正实现大词表语音识别,例如汉语全音节的识别和录入。其原因主要在于此类装置的资源有限,不具有运行汉语非特定人单音节语音识别系统所需的存储空间和运算能力,因此如何在保证识别性能的同时,降低现有语音识别系统所需的存储空间,减少其所需的运算量,是急待解决的技术问题。通常在当今流行的语音识别系统中,声学模型都是用隐含马尔可夫模型(HMM)来描述,由于基于连续概率密度的隐含马尔可夫模型(CDHMM)与基于离散概率密度的HMM相比,更能精确地描述人的发音,因此大多数语音识别系统中声学模型都采用CDHMM。但CDHMM的声学模型需占用大量的存储空间,以现有的非特定人汉语单音节语音识别系统为例,其声学模型占据了4M字节的存贮空间,这在资源有限的嵌入式硬件平台(如手机、PDA等)上几乎不可实现。一种降低存储量的办法是减少CDHMM的状态数或每个状态的高斯分布个数,但这会大大降低系统的识别性能。另一种方法是对声学模型进行矢量量化以压缩数据生成码本,其最常用的算法是K-means聚类算法,先将该特征矢集划分为若干子空间,再对每个子空间的所有矢量进行聚类得到一码本,各子空间码本生成的步骤如图4所示令k=0,将子空间划分为一个子集合,计算该子集合的中心矢量,得到初始化码本,步骤200;如果k=K,那么就已经得到K-bits的码本,聚类结束,否则执行步骤220,步骤210;令k=k+1,将所有子集合一分为二,生成新的中心矢量,合成该子空间的新码本,步骤220;将该子空间各矢量分配到与其距离度量最小的中心矢量对应的子集合中,步骤230;计算该子空间所有矢量的总距离度量变化率,步骤240;将该变化率与一预设变化率的门限值比较,若该变化率小于或等于该门限值,回到步骤210;若该变化率大于该门限值,则执行步骤250;根据各子集合分配的所有矢量重新计算该子集合的中心矢量,形成新码本并回到步骤230,步骤260。在上述聚类的过程中,常常出现某些子集合所包含的矢量数很少,导致聚类后集合中矢量与其对应的码字的距离度量总和仍然偏大,这在给定码本大小的情况下会影响聚类的效果。而将用该方法压缩后的声学模型用于语音识别系统时,会降低语音识别的准确率。而将该算法应用于语音特征集的压缩,可得到的特征码本,如果某些码字包含的矢量太少,在给定码本大小的条件下,特征码本的精度会降低,在对输入的语音特征序列量化编码时会影响编码的精度,从而会导致语音识别系统的识别性能下降。此外,在CDHMM中,在某一状态下特征矢量的概率分布函数是用多个高斯分布函数的加权和来描述,这样能比较精确地描述特征矢量空间分布。然而在大词表语音识别系统中如果采用CDHMM,那么在解码运算单元进行解码时需要多次计算高斯概率,通常在解码过程中所需要的计算量都集中在高斯概率计算上,这需要大量的计算量。在手机等资源有限的嵌入式硬件平台上进行大词表语音识别时,会导致语音识别系统反应速度很慢,无法满足实际使用的需要。
技术实现思路
有鉴于此,本专利技术要解决的技术问题是提供一种用于语音识别系统的特征矢量集的压缩方法,它可在保证语音系统识别性能的前提下,降低系统的存储量。为了达到上述目的,本专利技术提供一种用于语音识别系统的特征矢量集的压缩方法,先将该特征矢量集划分为若干子空间,再对每个子空间的所有矢量进行聚类得到一码本,各子空间码本生成的步骤包括(a)将该子空间所有矢量划分到子集合中,计算该子集合的中心矢量,得到初始化码本;(b)将所有子集合一分为二,生成新的中心矢量以合成该子空间的新码本;(c)分别找到与该子空间各矢量距离度量最小的中心矢量,将各矢量分配到与其距离度量最小的该中心矢量对应的子集合中;(d)计算出该子空间所有矢量的总距离度量变化率;(e)将该变化率与一预设变化率的门限值比较;若该变化率小于或等于该门限值,再判断是否已获得预定比特数的码本,若是,则结束,若否,则执行步骤(b);若该变化率大于或等于该门限值,则执行步骤(f);(f)基于各子集合中的矢量个数和平均距离度量,对子集合进行合并和分裂;以及(g)将分裂得到的子集合的中心矢量作为代表该子集合的码字,得到该子空间的新码本,并回到步骤(c)。上述方案中,其特点是所述步骤(b)又可分为以下步骤计算出该子集合所有矢量相对于其中心矢量的平均方差值;将各该中心矢量加上其对应的平均方差值的一半,得到一个新的中心矢量,再将各该中心矢量减去其对应的平均方差值的一半,得到另一个新的中心矢量;以及将该子空间中心新生成的中心矢量合在一起生成新的码本。上述方案中,其特点是所述子空间所有矢量的总距离度量变化率按以下方法计算计算所述子空间各矢量与离其距离度量最小的中心矢量之间的距离的总和,得到亲折总距离度量;将原总距离度量减去新的总距离度量得到一差值;再将该差值的绝对值附以原总距离度量即得到该总距离度量变化率。上述方案中,其特点是所述步骤(e)中,在判断是否已获得预定比特数的码本前,还有一将新的总距离度量值赋与原有总距离度量值的步骤;且在所述步骤(g)中,在回到步骤(c)之前,还有一将新的总距离度量值赋与原总距离度量值的步骤。上述方案中,其特点是所述的合并是指将包含矢量个数小于某一预设值的各子集合的中心矢量从码本中删除。上述方案中,其特点是所述的分裂是指一个子集合被合并后,先计算各子集合中所有矢量与该子集合中心矢量的距离之和,再计算该和与该子集合的矢量个数的比值,将所得比值最大的子集合分为二个子集合,同时生成本文档来自技高网
...

【技术保护点】
一种语音识别系统,用于接收语音输入信号并得到相匹配的识别结果,至少包括:    模数变换单元,将输入语音的模拟信号变换为数字信号;    特征提取单元,对该数字信号进行分帧处理,提取每一帧语音的特征参数,得到其特征矢量序列;    特征码本,为该语音特征集压缩后得到的;    量化编码单元,根据该特征码本将输入语音的特征矢量序列转换为特征码字序列;    概率表,存储了该特征码本中每个码字对应的高斯码本中每个码字的概率值,该离斯码本为如权利要求8中所述的高斯码本;以及    解码运算单元,对该特征码字序列进行解码运算得到识别结果,运算中对该特征码字序列中的各个码字,从概率表中直接查找与其具有最大匹配概率的高斯码字。

【技术特征摘要】
1.一种语音识别系统,用于接收语音输入信号并得到相匹配的识别结果,至少包括模数变换单元,将输入语音的模拟信号变换为数字信号;特征提取单元,对该数字信号进行分帧处理,提取每一帧语音的特征参数,得到其特征矢量序列;特征码本,为该语音特征集压缩后得到的;量化编码单元,根据该特征码本将输入语音的特征矢量序列转换为特征码字序列;概率表,存储了该特征码本中每个码字对应的高斯码本中每个码字的概率值,该离斯码本为如权利要求8中所述的高斯码本;以及解码运算单元,对该特征码字序列进行解码运算得到识别结果,运算中对该特征码字序列中的各个码字,从概率表中直接查找与其具有最大匹配概率的高斯码字。2.如权利要求1所述的语音识别系统,其特征在于还包括一语言模型。3.如权利要求1所述的语音识别系统,其特征在...

【专利技术属性】
技术研发人员:潘接林韩疆刘建颜永红庹凌云张建平
申请(专利权)人:中国科学院声学研究所北京中科信利技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利