普通话语音输入和训练方法及普通话听写机技术

技术编号：3047811 阅读：274 留言：0更新日期：2012-04-11 18:40

一种国语语音输入方法，用以将任意文句的国语语音直接转换成相对应的中文文字。该方法包括声音处理过程以及语言解码过程两大部分，声音处理过程中利用了“隐藏式马可夫模型”和“声调模型”；语言解码过程中以“中文语言模型”，找出所对应的中文字。一种国语听写机，用以根据上述方法而将输入的语音转换成文字显示出来，此国语听写机尚包含许多“智慧型学习技术”，使得这套听写机更具备不时“学习”的“智慧”。（*该技术在2015年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种智慧型国语语音输入方法及国语听写机。本专利技术为同一专利技术人的台湾专利申请案第82106686号的改良，利用经改良方法得使利用国语语音输入中文文字的方法更为方便好用且更为精确。目前中文电脑的输入方法百家争鸣，或用注音，或用字根，或用笔划，但没有一种是众所公认最好的，因为没有一种真正最方便。这是因为有的输入速度较慢，有的需要特别训练，有的方法特别要背口诀，久了不用会忘掉等，而从从都会、不需训练的注音符号法，则因其速度太慢，而无法通行。在众多中文输入法中，速度最快的是仓颉法、大易法或类似的方法，但此方法却只有专业人员在长期训练下才会用，一般人不常用就会忘掉。事实上，这是现阶段我国社会资讯化最大的障碍，因为“中文输入”变成一种专门职业，一般人自然不会常用它。这些方法不方便的基本原因，是尝试把中国字转成几个按键，由键盘输入；但事实上键盘是西方拼音文字下的产物，中国文字不是拼音文字，所以由键盘输入就自然不方便了。既然键盘输入不方便，还有什么其他方法可用呢？很多人很早就想到了可用声音输入。只是用声音输入的技术困难太多，几乎是不太可能的事，所以一直没有这方面的方便产品问世。技术上困难的原因有三(1)需要辨认的字汇太大了，中文常用字至少五千个，常用词至少十万个，这种数字已超出技术可行的范围；(2)中文字的同音字太多，即使知道是什么音，又如何能方便而快速无误的知道是什么字呢？(3)要能“即时”听写国语，就必须在极短时间内解决如此困难的问题，更是不容易。专利技术人专利技术的第82106686号专利申请案基本上已可以解决上述困难，是因为(1)选用国语单...

【技术保护点】
一种国语语音输入方法，用以将任意文句的国语语音直接转换成相对应的中文文字，该方法包括声音处理过程以及语言解码过程两大部分，其特征在于，该声音处理过程是利用针对国语音节特性所发展的以“次音节单位”为基础而产生的“隐藏式马可夫模型”加以组合的“基本单音节模型”以及针对声调特性的“声调模型”来对比输入国语语音的每一音节以及声调的机率，进而辨认之；该语言解码过程针对该声音处理过程送来的一连串音节，以“中文语言模型”，找出所对应的中文字。

【技术特征摘要】
1.一种国语语音输入方法，用以将任意文句的国语语音直接转换成相对应的中文文字，该方法包括声音处理过程以及语言解码过程两大部分，其特征在于，该声音处理过程是利用针对国语音节特性所发展的以“次音节单位”为基础而产生的“隐藏式马可夫模型”加以组合的“基本单音节模型”以及针对声调特性的“声调模型”来对比输入国语语音的每一音节以及声调的机率，进而辨认之；该语言解码过程针对该声音处理过程送来的一连串音节，以“中文语言模型”，找出所对应的中文字。2.一种国语语音输入方法，用以将任意文句的国语语音直接转换成相对应的中文文字，该方法包括声音处理过程以及语言解码过程两大部分，其特征在于，该声音处理过程是利用针对国语语音特性所发展的“次音节单位模型”及针对声调特性的“声调模型”直接与输入的语音对比，再由对比所得的“次音节单位模型串”及“声调串”中找出对应的音节，进而辨认之；该语言解码过程针对该声音处理过程送来一连串音节，以“中文语言模型”，找出所对应的中文字。3.根据权利要求1或2所述的方法，其中该“中文语言模型”是以“字”、“词”或“词群”为单位做统计分析或参酌词类、语法、语意分析获得的信息或规则等语言学知识，然后将结果适度组合。4.根据权利要求3所述的方法，其中该“词群”是将某些特性相类似的词组合而成，这些特性包含同一个字结尾，同一个字起头的特性、文法特性、语意特性以及统计特性。5.根据权利要求1或2所述的方法，其中该声音处理过程包含下列步骤(1)对输入的国语语音做端点检测，找出声音由那一点开始，那一点结束；(2)对输入语音做基本单音节及声调辨认，该基本单音节的辨认是以基本单音节模型或“次音节单位模型”与输入语音作对比找出对应的基本单音节，该声调辨认则自一声调模型中找出对应的声调，进而串接成词或句；和(3)以前述基本单音节及声调辨认所获得的可能基本单音节及声调中可能性及出现机率较高的基本音节串和声调串，作为候选基本音节串和候选声调串输出至语言解码器。6.根据权利要求1所述的方法，其中该“基本单音节模型”是以“次音节单位模型”为基础而建立，并进而串接成词或句。7.根据权利要求2或6所述的方法，其中是以“受后接韵母起始音素影响的声母”和“不受前后音影响的韵母”为该“次音节单位”。8.根据权利要求2或6所述的方法，其中该“次音节单位”为“受后接音素影响的音素”。9.根据权利要求1或2所述的方法，尚包含一声调辨认步骤，该声调辨认是采用适用于国语连续音中的声调变化而建立的“受前后音影响的声调模型”，此模型判断每一声调受前接声调及后接声调的影响改变特性的情形，并合并接近的状况，而使所有的175种声调模型数目大幅减少，即可完全辨识。10.根据权利要求5所述的方法，其中该“次音节单位模型”和“声调模型”都是以“内插训练法”训练而成的“隐藏式马可夫模型”，其中该“内插训练法”是指在训练的第二阶段的递回训练过程中，每一次递回训练得到的模型被与第一阶段的模型进行某种程度的“内插”，以充分利用第一阶段模型的精确度，加速第二阶段的训练，使得所需要的训练语料可以适度减少。11.根据权利要求6所述的方法，其中该“次音节单位模型”是以“内插训练法”训练而成的“隐藏式马可夫模型”，其中该“内插训练法”是指在训练的第二阶段的递回训练过程中，每一次递回训练得到的模型被与第一阶段的模型进行某种程度的“内插”，以充分利用第一阶段模型的精确度，加速第二阶段的训练，使得所需要的训练语料可以适度减少。12.根据权利要求5所述的方法，其中该“基本单音节辨认”及“声调辨认”包含“连续音节比对法”和“词汇音节比对法”。13.根据权利要求12所述的方法，其中该“连续音节比对法”包含下列步骤(1)利用输入语音音段的瞬间能量及音节长度上下限找出每一个可能的音节起始点及终点；(2)以“动态规划法”(Dynamic Programming)就每一个可能的音节起始点及终点利用“次音节单位模型”或“基本单音节模型”及“声调模型”，找出整个音段中最可能的“基本单音节串”及“声调串”的组合；(3)以步骤(2)的方法自整个音段的起始点开始逐步计算所有可能的单音节的起点、终点，并累积它们的分数；和(4)将分数较高的音节串输出。14.根据权利要求12所述的方法，其中该“词汇音节比对法”是将电脑内建的词典中所有的词根据其基本单音节(没有区别声调)或单音节(有区别声调)的顺序建立一个“树状词典结构”；视该树状结构中的每一节点都是一个基本单音节或单音节，沿该树状结构往下趟到底就可以得到一个词，而后“词汇音节比对法”是利用此一词典结构中，每一基本单音节或单音节在每一词中与前后基本单音节或单音节相连的情形，优先考虑最可能相连的基本单音节或单音节；因而大幅减少搜寻空间并提高正确率。15.根据权利要求14所述的方法，尚可依词出现的频率找词，即越常用到的词越优先考虑。16.根据权利要求1或2所述的方法，其中该语言解码过程包含下列步骤，(1)根据该声音处理过程送来的一系列候选基本单音节串及候选声调串，在一“字词串构成器”中与电脑内建立的词典对比，将可能的同音字或所对应的各个可能的同音词找出来，产生候选词组；和(2)以“中文语言模型”计算该候选词组中各个词连成句出现的统计机率并参酌语言学知识以最可能的句子作为输出答案。17.根据权利要求16所述的方法，其中该“中文语言模型”所计算的各个词连接成句的统计机率，是由单独一个“字”、“词”或“词群”出现的机率及两两相连或三个相连，或共同出现在同一句中的统计机率来计算。18.根据权利要求1、2、4或17所述的方法，其中该“词群”的分类方式包含下列步骤(1)以语言学分析的词类、语法、语音知识将所有的词分成词类一致，语法、语音一致的若干群；(2)把步骤(1)分好的词类，语法、语意一致的每一个词群中的词，根据大量文字资料库中的统计特性(亦即前接什么词，后接什么词，和什么词共同出现在句子中等)进一步分成统计特性一致的小词群；和(3)再利用统计特性，将步骤(1)，(2)中因词类、语法、语意不同而分开的小词群，但事实上统计特性很接近的，再把它们合并起来。19.根据权利要求15所述的方法，其中该“中文语言模型”中的语言学知识是以语言学对中文词类、语法、语意分析所获得的知识、规则或信息，并得与前述统计所获得的语言信...

【专利技术属性】
技术研发人员：李琳山，
申请(专利权)人：李琳山，
类型：发明
国别省市：71[中国|台湾]

全部详细技术资料下载我是这个专利的主人