根据基音信息识别声调语言的方法与设备技术

技术编号：3047292 阅读：212 留言：0更新日期：2012-04-11 18:40

一种用于声调语言自动识别的方法和设备，采用下列步骤：将语句字词转换成一个电信号，从电信号生成谱特征，从电信号中提取出基音频率，将所述谱特征和基音频率结合成声学特征向量，将所述声学特征向量与一个包括带声调元音的原型在内的声学原型数据库中的音素原型相比较以产生标签，以及用包括音素词汇表和语言模型数据库的解码器将标签匹配到文本。（*该技术在2021年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别，尤其涉及自动识别带有至少一个含有声调內容(tonal content)的音节的语句字词的方法和设备。相关技术描述语音识别是一种将声学语音信号(人声)转换为文本的技术。应用这项技术的设备，通常是一个安装了语音识别软件的计算机系统，被称为自动听写机。这项技术已经在像语音听写，声音激活信息系统以及语音命令与控制系统中发现了广阔的应用。语音识别技术的早期成功应用涉及英语、德语、西班牙语等欧洲语言。对于这些语言，基音轮廓(pitch contour)是非音素的，也就是说不同的基音轮廓不会导致不同的词意。另一类语言是声调语言，在这种语言中每一个音节有一个与之相联系的声调(基音轮廓)。从定义上说，声调是音节的一个属性。对于这样的语言，基音轮廓是音素的。这意味着有相同的辅音和元音序列但基音轮廓不同的音节代表着不同的词素并且有着完全不同的含意。声调语言的例子包括多种汉语(像普通话，广东话，台湾或者闽南语)，东南亚语言(像泰国语，越南语)，日语，瑞典语和挪威语。在所有语言中汉语有着最多的使用者，而其中普通话是主要的方言。第二大方言是广东话，在香港，广东省以及海外的中国人说它。因为有些声调语言有太多的字符，尤其是中文，使得用键盘往计算机中输入文本非常困难。因此声调语言的语音识别是一个尤其重要的替代手段，如果能实现合适的精确度，速度和价格，它将成为一个为那些说声调语言的人带来计算机使用革命的无价的工具。声调语言自动语音识别的传统方法通常包括两步。第一步，那些辅音和元音被识别出来并根据这些辅音和元音构造出音节；这样就识别出无声调的音节。第二步，检查每一...

【技术保护点】
一种用于确定语句的字词中带声调元音的系统，包括：定义带声调元音为不同音素的装置，包含：数据库，它包含应一个包括带声调元音的原型在内的音素的原型；用于生成向量的信号处理单元；通过匹配所述向量与所述包括带声调元音的原型在内的原型以识别出带声调元音的装置。

【技术特征摘要】
US 2000-7-28 09/6275951.一种用于确定语句的字词中带声调元音的系统，包括定义带声调元音为不同音素的装置，包含数据库，它包含应一个包括带声调元音的原型在內的音素的原型；用于生成向量的信号处理单元；通过匹配所述向量与所述包括带声调元音的原型在內的原型以识别出带声调元音的装置。2.权利要求1的系统，其中所述向量包括一个12个导谱系数的集合和一个基音频率。3.一种用于定义语句字词中带声调元音的方法，包括从所述语句字词准备一个训练文本；将所述训练文本转换成包括带声调元音的音素的序列；将所述训练文本转换成电信号；从所述电信号中生成谱特征；从所述谱特征中提取基音频率；将所述谱特征和基音频率结合成声学特征向量；对比所述声学特征向量和所述包括带声调元音在內的音素的序列从而为每一个音素产生一个声学原型。4.权利要求3的方法，其中所述的声学原型存储到一个数据库中。5.一种用于识别语句字词中带声调元音的方法，包括将语句字词转换成电信号；从所述电信号中生成特征谱；从所述电信号中提出基音频率；将所述谱特征和基音频率结合成声学特征向量；将所述声学特征向量和所述包括带声调元音的原型的声音原型数据库中音素的原型进行对比以产生标签；和用一个包括一个音素词汇表和一个语言模型的数据库的解码器将所述标签匹配到文本。6.权利要求5的方法，其中所述的音素词汇表包括一个带声调信息的语句字词的数据库。7.权利要求5的方法，其中所述的语言模型数据库确定一个字词的概率。...

【专利技术属性】
技术研发人员：JC陈，傅国康，李海萍，沈丽琴，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人