根据基音信息识别声调语言的方法与设备技术

技术编号:3047292 阅读:205 留言:0更新日期:2012-04-11 18:40
一种用于声调语言自动识别的方法和设备,采用下列步骤:将语句字词转换成一个电信号,从电信号生成谱特征,从电信号中提取出基音频率,将所述谱特征和基音频率结合成声学特征向量,将所述声学特征向量与一个包括带声调元音的原型在内的声学原型数据库中的音素原型相比较以产生标签,以及用包括音素词汇表和语言模型数据库的解码器将标签匹配到文本。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及语音识别,尤其涉及自动识别带有至少一个含有声调內容(tonal content)的音节的语句字词的方法和设备。相关技术描述语音识别是一种将声学语音信号(人声)转换为文本的技术。应用这项技术的设备,通常是一个安装了语音识别软件的计算机系统,被称为自动听写机。这项技术已经在像语音听写,声音激活信息系统以及语音命令与控制系统中发现了广阔的应用。语音识别技术的早期成功应用涉及英语、德语、西班牙语等欧洲语言。对于这些语言,基音轮廓(pitch contour)是非音素的,也就是说不同的基音轮廓不会导致不同的词意。另一类语言是声调语言,在这种语言中每一个音节有一个与之相联系的声调(基音轮廓)。从定义上说,声调是音节的一个属性。对于这样的语言,基音轮廓是音素的。这意味着有相同的辅音和元音序列但基音轮廓不同的音节代表着不同的词素并且有着完全不同的含意。声调语言的例子包括多种汉语(像普通话,广东话,台湾或者闽南语),东南亚语言(像泰国语,越南语),日语,瑞典语和挪威语。在所有语言中汉语有着最多的使用者,而其中普通话是主要的方言。第二大方言是广东话,在香港,广东省以及海外的中国人说它。因为有些声调语言有太多的字符,尤其是中文,使得用键盘往计算机中输入文本非常困难。因此声调语言的语音识别是一个尤其重要的替代手段,如果能实现合适的精确度,速度和价格,它将成为一个为那些说声调语言的人带来计算机使用革命的无价的工具。声调语言自动语音识别的传统方法通常包括两步。第一步,那些辅音和元音被识别出来并根据这些辅音和元音构造出音节;这样就识别出无声调的音节。第二步,检查每一个音节的基音轮廓以确认每一个音节的声调。然而,这种两步过程经常出错,另外它与欧洲语言的语音识别系统并不兼容;这样它的应用是有局限的。在美国专利5,751,905号,题名为“使用一个带声调的音素系统进行语音识别的统计声学处理方法和设备”的专利中介绍了一个识别声调语言尤其是普通话的方法。特别地,它揭示了一个方法,这种方法中一个音节被分成大致相等的两部分,或者说是半音节,第一个半音节的基音信息,包括初始的辅音和可能的一个滑音(半元音),被假定为可以任意使用的,第二个半音节中的基音信息,包括主元音和尾音,被假定为足以确定整个未分音节的声调。在标准普通话中,一共有20个不同的第二半音节和5个不同的声调高(阴平),升(阳平),低(上),降(去)和无声调即中性声调(轻声)。通过将这些声调分配给每个第二半音节,一共114种带声调的音素(调素)可以被定义下来。在训练过程中,每一种调素即不同声调的音素都被当做一个独立的音素来训练,并且在识别过程中,这些调素被识别成独立的音素。音节的声调被定义为第二个半音节的声调,即音节中调素的声调。这种方法导致产生了一个高精确度的普通话语音识别系统。使用美国专利5,751,905中的方法的设备,“ViaVoice中文版”是开发出的第一个连续普通话听写产品,自1997年面世以来一直是市场上最成功的普通话听写产品。美国专利5,751,905中的方法在广东话的自动识别上并不像它在普通话中表现的那么高效。广东话有远远超过普通话的第二半音节数目,并且有9个声调(而普通话是5个)。其他声调语言,像泰国语和越南语,也有着远远超过普通话的第二半音节数目。这样,用上述方法就必须定义一共大约300个音素。这么多的音素使得训练和识别都非常困难。另外,因为儿化音(一个音节的结尾被加了一个“r”)的缘故,北京话中带声调的第二半音节的数目也接近了300个。因此,非常需要用于识别声调语言尤其是有众多尾音和声调的语言的高效、精确的自动语音识别技术。专利技术概述本专利技术提供一种声调语言的高效自动识别的方法和设备。本专利技术先进之处是大大减少了必须定义的音素总数,由此简化训练过程并实现更快的解码,同时保持或者在特定情况下提高识别语音的精确度。依照本专利技术的一个方面,提供一种声调语言识别的设备,包括将带声调(toned)元音定义成不同音素的装置,该装置包括一个含有带声调元音的音素原型的数据库,一个用于生成包括基音频率(pitchvalue)的向量的信号处理单元;还包括通过将所述包含带声调元音的音素原型与所述向量相比较而识别带声调元音的装置。依照本专利技术的另一个方面,提供了一种定义语音词语中带声调元音的方法,包括的步骤是,根据所述语句字词生成一个训练文本,将所述的训练文本转换成包括带声调元音的音素序列,将所述的训练文本转换成电信号,从所述电信号中生成谱特征,从所述电信号中提取出基音频率,将所述谱特征和基音频率结合成声学特征向量,以及对所述声学特征向量和包括带声调元音的音素序列进行比较从而为每个音素产生声音原型。在本专利技术的另外一个方面中,提供一种识别语音词语中的带声调元音的方法,包括的步骤是,将语音词语转换成电信号,从所述电信号生成谱特征,从所述电信号中提出基音频率,将所述谱特征和基音频率结合成声学特征向量,将所述声学特征向量与包括带声调元音的原型的声学原型数据库中的音素原型相比较以生成标签,和用包括音素化词汇表和语言模型数据库的解码器将所述标签同文本匹配起来。本专利技术的这些和其他方面,特征和优势将在接下来的优选实施方案中被详细描述或者变得更明了,阅读它时应该联系附图。附图简述附图说明图1是按照本专利技术的实施方案为声调语言的语音识别(机器听写)设置的设备的示例图;图2是依照本专利技术实施方案的声调语言语音识别方法的一套图表;图3是普通话声调模式的示例图;图4描述了关于由有相同的辅音和元音序列但基音轮廓不同的一组字的一个例子;图5广东话声调模式的示例图;图6是一个依照本专利技术实施方案的训练过程的流程图;图7是依照本专利技术实施方案的一个基音提取过程的示例图。优选实施方案详述应该理解在这里描述的典型系统模型和方法步骤可以被实现成不同形式的硬件、软件、固件、专用处理器或者其中一些的综合。更可取的是,将本专利技术以软件的形式实现成应用程序,切实地实施在一个或多个程序存储设备上。这个应用程序可以在任一台包括合适架构的机器,设备或者平台上执行。应该更深入理解的是,因为一些附图中所描述的组成系统模型和方法步骤最好是以软件形式实现的,系统组件(或处理步骤)之间的实际联系可能会因本专利技术被编程的方式而有所不同。通过这里给出的教导,相关技术中的熟练人员将可以想出或实现本专利技术的这些或相近的实现和配置。在图1中描述了一个适合实践本专利技术的系统。这个系统包括一台计算机101,它通过将声音信号映射到文本来执行语音识别功能。这台计算机被连接到一台显示器102,一只鼠标103和一个键盘104。一只麦克风105也被连接到这台计算机,用来将声音转换为电信号,后者随即被提供给计算机中的声卡。图2描述了依照本专利技术一个实施方案的对声调语言进行语音识别的主要部件。这些组件可以被实现为一个存储在计算机101中的软件。通过图1中所示系统的操作,声音信号201通过麦克风202被转换为电信号。一个模/数转换器203将从麦克风传过来的模拟信号转换成数字信号。包括一个谱特征提取单元204和一个基音提取模块205的信号处理单元,为语音识别提取压缩信息。谱特征提取单元204产生谱特征向量,例如,唛耳频率导谱系数(MFCC mel frequency Ceps本文档来自技高网...

【技术保护点】
一种用于确定语句的字词中带声调元音的系统,包括: 定义带声调元音为不同音素的装置,包含: 数据库,它包含应一个包括带声调元音的原型在内的音素的原型; 用于生成向量的信号处理单元; 通过匹配所述向量与所述包括带声调元音的原型在内的原型以识别出带声调元音的装置。

【技术特征摘要】
US 2000-7-28 09/6275951.一种用于确定语句的字词中带声调元音的系统,包括定义带声调元音为不同音素的装置,包含数据库,它包含应一个包括带声调元音的原型在內的音素的原型;用于生成向量的信号处理单元;通过匹配所述向量与所述包括带声调元音的原型在內的原型以识别出带声调元音的装置。2.权利要求1的系统,其中所述向量包括一个12个导谱系数的集合和一个基音频率。3.一种用于定义语句字词中带声调元音的方法,包括从所述语句字词准备一个训练文本;将所述训练文本转换成包括带声调元音的音素的序列;将所述训练文本转换成电信号;从所述电信号中生成谱特征;从所述谱特征中提取基音频率;将所述谱特征和基音频率结合成声学特征向量;对比所述声学特征向量和所述包括带声调元音在內的音素的序列从而为每一个音素产生一个声学原型。4.权利要求3的方法,其中所述的声学原型存储到一个数据库中。5.一种用于识别语句字词中带声调元音的方法,包括将语句字词转换成电信号;从所述电信号中生成特征谱;从所述电信号中提出基音频率;将所述谱特征和基音频率结合成声学特征向量;将所述声学特征向量和所述包括带声调元音的原型的声音原型数据库中音素的原型进行对比以产生标签;和用一个包括一个音素词汇表和一个语言模型的数据库的解码器将所述标签匹配到文本。6.权利要求5的方法,其中所述的音素词汇表包括一个带声调信息的语句字词的数据库。7.权利要求5的方法,其中所述的语言模型数据库确定一个字词的概率。...

【专利技术属性】
技术研发人员:JC陈傅国康李海萍沈丽琴
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1