当前位置: 首页 > 专利查询>李琳山专利>正文

普通话语音输入和训练方法及普通话听写机技术

技术编号:3047811 阅读:270 留言:0更新日期:2012-04-11 18:40
一种国语语音输入方法,用以将任意文句的国语语音直接转换成相对应的中文文字。该方法包括声音处理过程以及语言解码过程两大部分,声音处理过程中利用了“隐藏式马可夫模型”和“声调模型”;语言解码过程中以“中文语言模型”,找出所对应的中文字。一种国语听写机,用以根据上述方法而将输入的语音转换成文字显示出来,此国语听写机尚包含许多“智慧型学习技术”,使得这套听写机更具备不时“学习”的“智慧”。(*该技术在2015年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种智慧型国语语音输入方法及国语听写机。本专利技术为同一专利技术人的台湾专利申请案第82106686号的改良,利用经改良方法得使利用国语语音输入中文文字的方法更为方便好用且更为精确。目前中文电脑的输入方法百家争鸣,或用注音,或用字根,或用笔划,但没有一种是众所公认最好的,因为没有一种真正最方便。这是因为有的输入速度较慢,有的需要特别训练,有的方法特别要背口诀,久了不用会忘掉等,而从从都会、不需训练的注音符号法,则因其速度太慢,而无法通行。在众多中文输入法中,速度最快的是仓颉法、大易法或类似的方法,但此方法却只有专业人员在长期训练下才会用,一般人不常用就会忘掉。事实上,这是现阶段我国社会资讯化最大的障碍,因为“中文输入”变成一种专门职业,一般人自然不会常用它。这些方法不方便的基本原因,是尝试把中国字转成几个按键,由键盘输入;但事实上键盘是西方拼音文字下的产物,中国文字不是拼音文字,所以由键盘输入就自然不方便了。既然键盘输入不方便,还有什么其他方法可用呢?很多人很早就想到了可用声音输入。只是用声音输入的技术困难太多,几乎是不太可能的事,所以一直没有这方面的方便产品问世。技术上困难的原因有三(1)需要辨认的字汇太大了,中文常用字至少五千个,常用词至少十万个,这种数字已超出技术可行的范围;(2)中文字的同音字太多,即使知道是什么音,又如何能方便而快速无误的知道是什么字呢?(3)要能“即时”听写国语,就必须在极短时间内解决如此困难的问题,更是不容易。专利技术人专利技术的第82106686号专利申请案基本上已可以解决上述困难,是因为(1)选用国语单音节为电脑处理的基本单位中文字、词的数目虽大,不同的单音节却只有约1300个,是语音辨认技术上可以克服的范围;知道是什么单音节以后,可以再由其前后的单音节去判断可能构成什么词、什么句。(2)藉助“中文语言模型”,可以靠大量的训练文字资料,统计出每一个字或词的前后与其他不同的字或词衔接的机率,由这些机率可以算出当一个音节前后与其他音节衔接时,这些音节最可能是代表什么字,这种方法可以大部分解决同音字的问题,不能解决的再生荧光幕上予以更正。本专利技术中,就是在前项专利技术的架构下,再进一步发展出两项更完善的新技术(1)以“次音节单位”(次音节单位,sub-syllabicunits,指比音节更小的声音单位,声母、韵母、或“音素(phoneme,如子音、母音等”为基础,经特殊训练(如“内插训练法”)所产生的“隐藏式马可夫模型(Hidden Markov Models)”,以及考虑连续国语语音中声调特性变化的“声调模型”,并辅以“连续音节比对法”及“词汇音节比对法”,来进行更完善的国语单音节的辨认;如此单音节的辨认技术将不仅可以有效辨认“断开的单音节”,更可以相当精确的辨认“连续音中的单音节”,故使用者的输入语音将不再限制是一连串的“断开的单字(单音节)”,也可以是“断开的词(多字词时各字音间是连续不断开的)”、“断开的音韵段(音韵段,prosodic segment,为一个或若干个词构成的,是人在说话时一口气告一段落时自动断开的音段,音段内各字音是连续不断开的)”、甚或是“整句完全连续的”国语语音。(2)以大量中文文字资料中统计出字与字、词与词前后相连或同时出现的机率信息,辅以中文语言学对中文词类、语法分析所获得的知识或规则所建构成更完善的“中文语言模型”,加上更有效率的搜寻法,可以在所辨认出来的可能的国语单音节中,更迅速而正确地找出所代表的同音字。这两项技术都是针对中文及国语的特性发展出来,结合起来以后,可以精确的辨认“连续音中的单音节”,使使用者输入的语音型态可以更为方便自然而且多元化;而同时所需的运算量并不会增加多少,而正确率却可维持同样高或更为提高。所有技术可以用软件完成,并轻易写入任何装有“数位信号处理晶片”(DSP Chip)的“数位信号处理电路板(DSPBoard)”(这类晶片及电路板市面上产品很多,故很容易在不同的电路板或晶片上发展出不同的产品),只要晶片的运算速度够快,电路板上的存储容量够大,它就能“即时”输入。这片电路板可以插入任何一台AT级以上的个人电脑上,故使用方便,价格亦可大为降低。以上述的基本技术及功能为基础,本专利技术又进一步发展出许多“智慧型学习技术”,使得这套听写机更具备不时“学习”的“智慧”。这包括自动学习新使用者的声音,使得新使用者可以很快开始使用、自动学习使用者的环境噪声并适应该噪声、不断线上学习使用者的声音、用字、用词(包括专有名词)、构句等,使得正确率可以继续上升等等。所有这些都将在以下详细说明。本专利技术涉及国语语音输入方法及国语听写机,该国语听写机指利用语音处理技术的方法及根据此方法研制而成的机器,可以“听写”任意文句的国语,亦即使用者对着机器说任意文句的国语,机器可以将之辨认出来,把语句转换成文字,显示在荧光幕上(以中文文字)。其主要应用是作为中文电脑的输入。就好比有一个“听写员”,听了使用者的语句,并将之输入电脑。当然,在输入电脑之后,就可以加以任何处理、修改、编排、储存、印出、传递到远方等应用。简言之,这种机器使中文电脑“会听国语”。这种“国语听写机”和一般看到的能辨认国语语音的机器系统最大的不同有二(1)它必须能“听写”由极大字汇(中文常用词至少10万以上,常用字至少5千以上)组成的任意文句,因为一般电脑要输入的中文可以是任意的文字。(2)它必须快到可以“即时”(Real-time)辨认,完成听写,亦即使用者不能在说完话后慢慢等中文字显示,因为一般电脑输入的应用都是即时的,这两个不同点使得“国语听写机”在技术上易做到,故到目前为止尚没有真正可以有效使用的产品出现。目前各研究单位所发展的“国语语音辨认系统”,或者只能辨认少数的有限字汇(例如100个地名等),或者正确率仍很低尚不便于使用等,均与本专利技术不同。因为上述“国语听写机”在技术上十分困难,本申请案的专利技术人早在1989年就提出第一项申请案,当时的专利技术是将上述构想再增加一些条件,使上述构想在以下三个条件下,在技术上变成可行,可以确实作到(1)机器只适应会听特定语音的声音亦即一架机器一次只听一个使用者的声音,每个使用者在购买机器时可以对机器说一番话作成“训练资料”,输入机器后机器可以调适到听懂他的话,换使用者时只要换一套“训练资料”即可,并不构成太大困难,因为这种机器一次只有一个人在用。发音不正确的人也可以用不正确的发音去训练机器,机器基本上也可以一样听不正确的发音。(2)输入以单音节为电脑处理的单位国语有“一字一音的特性”,亦即每一个字构成一个单音节,故可以先辨认出所有的单音节,再由这些单音节找出相对应的字、词及句子。(3)输入的文字可以允许有少量的错误事实上任何输入法均可能输入错误的字,只要输入的文字可以先显示在荧光幕上,使用者看到有错时,可以用简单的方法,借助方便的软件予以更正。在这样的条件下,使用前项申请案中的专利技术,每分钟约可输入150字,其中约有17字需要更正;由于更正的软件十分方便,每分钟的“净输入”可达约110字。若使用本专利技术,则效果会更好。需要说明的是,目前中文输入法中最快的方法也可达到约每分钟110字以上,不过全台湾只有少数专业人员在长期练习下才能达到。使本文档来自技高网...

【技术保护点】
一种国语语音输入方法,用以将任意文句的国语语音直接转换成相对应的中文文字,该方法包括声音处理过程以及语言解码过程两大部分,其特征在于,该声音处理过程是利用针对国语音节特性所发展的以“次音节单位”为基础而产生的“隐藏式马可夫模型”加以组合的“基本单音节模型”以及针对声调特性的“声调模型”来对比输入国语语音的每一音节以及声调的机率,进而辨认之;该语言解码过程针对该声音处理过程送来的一连串音节,以“中文语言模型”,找出所对应的中文字。

【技术特征摘要】
1.一种国语语音输入方法,用以将任意文句的国语语音直接转换成相对应的中文文字,该方法包括声音处理过程以及语言解码过程两大部分,其特征在于,该声音处理过程是利用针对国语音节特性所发展的以“次音节单位”为基础而产生的“隐藏式马可夫模型”加以组合的“基本单音节模型”以及针对声调特性的“声调模型”来对比输入国语语音的每一音节以及声调的机率,进而辨认之;该语言解码过程针对该声音处理过程送来的一连串音节,以“中文语言模型”,找出所对应的中文字。2.一种国语语音输入方法,用以将任意文句的国语语音直接转换成相对应的中文文字,该方法包括声音处理过程以及语言解码过程两大部分,其特征在于,该声音处理过程是利用针对国语语音特性所发展的“次音节单位模型”及针对声调特性的“声调模型”直接与输入的语音对比,再由对比所得的“次音节单位模型串”及“声调串”中找出对应的音节,进而辨认之;该语言解码过程针对该声音处理过程送来一连串音节,以“中文语言模型”,找出所对应的中文字。3.根据权利要求1或2所述的方法,其中该“中文语言模型”是以“字”、“词”或“词群”为单位做统计分析或参酌词类、语法、语意分析获得的信息或规则等语言学知识,然后将结果适度组合。4.根据权利要求3所述的方法,其中该“词群”是将某些特性相类似的词组合而成,这些特性包含同一个字结尾,同一个字起头的特性、文法特性、语意特性以及统计特性。5.根据权利要求1或2所述的方法,其中该声音处理过程包含下列步骤(1)对输入的国语语音做端点检测,找出声音由那一点开始,那一点结束;(2)对输入语音做基本单音节及声调辨认,该基本单音节的辨认是以基本单音节模型或“次音节单位模型”与输入语音作对比找出对应的基本单音节,该声调辨认则自一声调模型中找出对应的声调,进而串接成词或句;和(3)以前述基本单音节及声调辨认所获得的可能基本单音节及声调中可能性及出现机率较高的基本音节串和声调串,作为候选基本音节串和候选声调串输出至语言解码器。6.根据权利要求1所述的方法,其中该“基本单音节模型”是以“次音节单位模型”为基础而建立,并进而串接成词或句。7.根据权利要求2或6所述的方法,其中是以“受后接韵母起始音素影响的声母”和“不受前后音影响的韵母”为该“次音节单位”。8.根据权利要求2或6所述的方法,其中该“次音节单位”为“受后接音素影响的音素”。9.根据权利要求1或2所述的方法,尚包含一声调辨认步骤,该声调辨认是采用适用于国语连续音中的声调变化而建立的“受前后音影响的声调模型”,此模型判断每一声调受前接声调及后接声调的影响改变特性的情形,并合并接近的状况,而使所有的175种声调模型数目大幅减少,即可完全辨识。10.根据权利要求5所述的方法,其中该“次音节单位模型”和“声调模型”都是以“内插训练法”训练而成的“隐藏式马可夫模型”,其中该“内插训练法”是指在训练的第二阶段的递回训练过程中,每一次递回训练得到的模型被与第一阶段的模型进行某种程度的“内插”,以充分利用第一阶段模型的精确度,加速第二阶段的训练,使得所需要的训练语料可以适度减少。11.根据权利要求6所述的方法,其中该“次音节单位模型”是以“内插训练法”训练而成的“隐藏式马可夫模型”,其中该“内插训练法”是指在训练的第二阶段的递回训练过程中,每一次递回训练得到的模型被与第一阶段的模型进行某种程度的“内插”,以充分利用第一阶段模型的精确度,加速第二阶段的训练,使得所需要的训练语料可以适度减少。12.根据权利要求5所述的方法,其中该“基本单音节辨认”及“声调辨认”包含“连续音节比对法”和“词汇音节比对法”。13.根据权利要求12所述的方法,其中该“连续音节比对法”包含下列步骤(1)利用输入语音音段的瞬间能量及音节长度上下限找出每一个可能的音节起始点及终点;(2)以“动态规划法”(Dynamic Programming)就每一个可能的音节起始点及终点利用“次音节单位模型”或“基本单音节模型”及“声调模型”,找出整个音段中最可能的“基本单音节串”及“声调串”的组合;(3)以步骤(2)的方法自整个音段的起始点开始逐步计算所有可能的单音节的起点、终点,并累积它们的分数;和(4)将分数较高的音节串输出。14.根据权利要求12所述的方法,其中该“词汇音节比对法”是将电脑内建的词典中所有的词根据其基本单音节(没有区别声调)或单音节(有区别声调)的顺序建立一个“树状词典结构”;视该树状结构中的每一节点都是一个基本单音节或单音节,沿该树状结构往下趟到底就可以得到一个词,而后“词汇音节比对法”是利用此一词典结构中,每一基本单音节或单音节在每一词中与前后基本单音节或单音节相连的情形,优先考虑最可能相连的基本单音节或单音节;因而大幅减少搜寻空间并提高正确率。15.根据权利要求14所述的方法,尚可依词出现的频率找词,即越常用到的词越优先考虑。16.根据权利要求1或2所述的方法,其中该语言解码过程包含下列步骤,(1)根据该声音处理过程送来的一系列候选基本单音节串及候选声调串,在一“字词串构成器”中与电脑内建立的词典对比,将可能的同音字或所对应的各个可能的同音词找出来,产生候选词组;和(2)以“中文语言模型”计算该候选词组中各个词连成句出现的统计机率并参酌语言学知识以最可能的句子作为输出答案。17.根据权利要求16所述的方法,其中该“中文语言模型”所计算的各个词连接成句的统计机率,是由单独一个“字”、“词”或“词群”出现的机率及两两相连或三个相连,或共同出现在同一句中的统计机率来计算。18.根据权利要求1、2、4或17所述的方法,其中该“词群”的分类方式包含下列步骤(1)以语言学分析的词类、语法、语音知识将所有的词分成词类一致,语法、语音一致的若干群;(2)把步骤(1)分好的词类,语法、语意一致的每一个词群中的词,根据大量文字资料库中的统计特性(亦即前接什么词,后接什么词,和什么词共同出现在句子中等)进一步分成统计特性一致的小词群;和(3)再利用统计特性,将步骤(1),(2)中因词类、语法、语意不同而分开的小词群,但事实上统计特性很接近的,再把它们合并起来。19.根据权利要求15所述的方法,其中该“中文语言模型”中的语言学知识是以语言学对中文词类、语法、语意分析所获得的知识、规则或信息,并得与前述统计所获得的语言信...

【专利技术属性】
技术研发人员:李琳山
申请(专利权)人:李琳山
类型:发明
国别省市:71[中国|台湾]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利