一种由电子设备执行的开放式语音识别的方法,该方法包含: 接收一个发音波形; 对该波形进行处理,以便提供表示该波形的特征向量; 将这些特征向量与链接单字声音模型列表中的多个链接单字声音模型相比较,选出适当的链接单字声音模型;以及 根据所述适当链接单字声音模型提供一个响应。(*该技术在2023年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及开放式词汇表语音识别。本专利技术特别适用于,但并不限于,由具有有限存储器和计算能力的便携式电子设备进行的开放式词汇表语音识别。
技术介绍
大词汇表语音识别系统能识别出很多接收到的被说出的词。相反,有限的词汇表语音识别系统就被限制为只能识别相对少量的可以被说出和识别的词。有限词汇表语音识别系统的应用包含对少量命令和名字的识别。大词汇表语音识别系统正在被越来越多的采用并且被应用于很多不同的应用中。这种语音识别系统需要能够在提供适当的反应之前,无显著延时的识别出已接收到的被说出的词。大词汇表语音识别系统通常使用相关性技术来决定被说出的词(输入语音信号)和词在声音空间中的特征之间的似然值。这些特征可以由声音模型来产生,这些声音模型需要来自于一个或多个讲话人的训练数据,并且因而被称为大词汇表非特定人语音识别系统。大词汇表非特定人语音识别系统需要大量的语音模型,以便在声音空间中充分归纳出被说出的输入语音信号中不同的声音性质在声音空间中的特征。例如,尽管是由同一个讲话人说出,单音/a/在词“had”和“bad”中的声音性质就不同。于是,作为依赖于上下文的单音,需要单音单元模拟不同词中相同单音的不同发音。大词汇表非特定人语音识别系统通常花费大部分的不必要的时间在似然值技术中寻找一个在输入语音信号和该系统所用的每个声音模型之间的匹配值。每个声音模型通常都用一个多重高斯概率密度函数(PDF)来描述,这里每个高斯函数又是用均值向量和协方差矩阵来描述的。为了找到输入语音信号和给定模型之间的似然值,必须将输入语音信号和每个高斯函数进行匹配。然后得到模型中每个高斯函数成员的值的加权和的形式的最终似然值。每个模型中高斯函数的个数的通常在6至64之间。在封闭词汇表语音识别系统和方法中采用了预定义固定词汇表。在使用中,这种固定词汇表可以很大,但是并不详尽,因此,例如一个人的姓和地名就不能包括。相反,开放式词汇表语音识别系统和方法具有一个可变词汇表,可以由用户或者用其他方法在词汇表中增加新的词和短语。然而,目前的开放式词汇表语音识别系统和方法需要相对高的计算开销,而这并不是便携式电子设备如个人数字助理、膝上型电脑、无线电话和其他的便携式计算设备所能接受的。在本说明书,包括权利要求中,术语“包含”、“包括”或相近术语都是非排他性的包含,这样,一种方法或者包含一些元件的设备并不只包含那些已列出的元件,还可以包含其他没有列出的元件。
技术实现思路
根据本专利技术的一个方面,提供了一种由电子设备执行的开放式语音识别的方法,该方法包含接收到一个发音波形;对该波形进行处理,以便提供表示该波形的特征向量;将这些特征向量与链接的(concatenated)单字声音模型列表中的多个链接单字声音模型相比较,选出适当的链接单字声音模型;以及根据所述适当链接单字声音模型提供一个响应。链接单字声音模型列表可以用如下步骤来产生从词汇存储器中得到文本;将文本转换为多个音素;以及根据这些音素,将这些音素模型连接到链接单字模型中,形成链接单字声音模型列表。可以用在存储器中存储多个链接单字模型的方法来产生列表。或者通过将音素模型存储器中的已选模型编入索引中的方法来产生列表。声音模型列表最好是大小可变的。声音模型列表可以在接收步骤的执行之前生成。词汇表可以是一个开放式词汇表。该词汇表可以包含增加的文本输入。该文本可以是电子设备的使用者增加性的输入的。语音模型存储器可以包含隐藏马尔可夫模型。该响应最好包含用于激活该设备功能的控制信号。或者根据本专利技术的另一方面,提供了一种用于开放式词汇表语音识别的电子设备。该设备可以适当实现任意或者全部上述步骤。附图说明为了更好的理解本专利技术并且将本专利技术付诸实践,下面根据附图对优选实施例进行说明,其中图1是根据本专利技术的一个电子设备的示意框图;图2是根据本专利技术的链接单字声音模型列表的产生方法的流程图,所述列表是由图1设备使用的;图3是根据本专利技术的在图1设备中执行的开放式词汇表语音识别方法的流程图;图4是存储在图1设备的固定音素存储器中的一个音素声音模型的状态图;图5是链接单字声音模型的状态图。优选实施例的详细说明参见图1,图中所示是一个电子设备100,该设备包含一个通过总线103与用户接口104相连的设备处理器102,用户接口104通常是触摸屏或者显示屏和小键盘。用户接口104通过总线103与词隐藏马尔可夫模型合成器110中的开放式词汇存储器112相连。词隐藏马尔可夫模型合成器110还包含一个转换器114,转换器114的一个输入与开放式词汇存储器112的一个输出相连。转换器114的一个输出与链接处理器116的一个输入相连。链接处理器116与固定语音隐藏马尔可夫模型存储器118相连,并且链接处理器116的一个输出与一个声音模型列表存储器122相连,声音模型列表存储器122是单字识别器120的一个组成部分。单字识别器120还包含一个与前端信号处理器124相连的麦克风106,前端信号处理器124的一个输出与单字识别器126的一个输入相连。单字识别器126与声音模型列表存储器122相连,并且单字识别器126的一个输出还通过总线103与设备处理器102相连。总线103还将设备处理器与前端信号处理器124和转换器114相连。在本实施例中,存储器122最好也通过总线103与设备处理器102相连。参见图2,图中所示是用于产生设备100使用的链接单字声音模型列表的方法200的流程图。在开始步骤210,通过给设备100供电或者当用户通过用户接口104将一个新的词或者短语输入到开放式词汇表存储器112中时,调用该方法,于是产生链接单字声音模型列表。在开始步骤210之后,方法200执行步骤220,从开放式词汇存储器112中得到文本。然后由转换器114执行步骤230,将文本从字母转换为相应的多个音素。然后,链接处理器116执行步骤240,根据这些音素,将音素模型连接到单字声音模型中。例如,如果在开放式词汇存储器中的一个词是“but”,那么就在步骤230将该词转化为三个音素/b/、/ah/和/t/。参见图4,图中是隐藏马尔可夫模型(HMM)的状态图,图解了一个存储在固定音素存储器118中的音素模型(音素声音模型)。该状态图是用三个状态S1、S2、S3模拟的一个可能的音素/b/。与每个状态相关联的是转移概率,其中a11和a12是状态S1的转移概率,其中a21和a22是状态S2的转移概率,其中a31和a32是状态S3的转移概率。这样,对于本领域技术人员来说,显然状态图是依赖于上下文的三音,每个状态S1、S2、S3通常具有6至64个分量的高斯混和。同样,中间状态S2被看作是音素HMM的稳定状态,而其他两个状态是用来描述两个音素间互连的转换状态。再参见图2,用于链接的步骤240会得到图5中的音素/b/、/ah/和/t/的相链接的单字声音模型状态图。如图所示,每个状态图或者HMM用直接级连的方法连接起来。然后,方法200提供步骤250,产生一个包含多个链接单字声音模型的链接单字声音模型列表。该列表通常被存储在存储器中,这个存储器最好是声音模型列表存储器122。也可以用将固定音素隐藏马尔可夫模型存储器118中的已选模型编入索引中的方法来产生列表,这样就用存储器118内一个本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种由电子设备执行的开放式语音识别的方法,该方法包含接收一个发音波形;对该波形进行处理,以便提供表示该波形的特征向量;将这些特征向量与链接单字声音模型列表中的多个链接单字声音模型相比较,选出适当的链接单字声音模型;以及根据所述适当链接单字声音模型提供一个响应。2.如权利要求1所述的方法,其中链接单字声音模型列表用如下步骤来产生从词汇存储器中得到文本;将文本转换为多个音素;以及根据这些音素,将这些音素模型连接到链接单字模型中,形成链接单字声音模型列表。3.如权利要求2所述的方法,其中用在存储器中存储多个链接单字模型的方法来产生列表。4.如权利要求2所述的...
【专利技术属性】
技术研发人员:张亚昕,何昕,任晓林,孙放,
申请(专利权)人:摩托罗拉公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。