当前位置: 首页 > 专利查询>李琳山专利>正文

中文电脑的汉语语音输入系统及其方法技术方案

技术编号:2891888 阅读:421 留言:0更新日期:2012-04-11 18:40
一种汉语语音输入系统及其方法,用以将任意文句的汉语语音直接转换成相应的中文文字,该系统及其方法包括声音处理过程及语言解码过程两大部分。其特征在于声音处理过程利用“段落统计模型”计算输入汉语语音的各单音节及声调的机率,进而辨识之;语言解码过程针对声音处理过程送来的一连串音节利用“词类双连中文语言模型”找出对应的中文字。一种包含“智慧型学习技术”的汉语听写机,用本方法将语音输入转换成文字显示。(*该技术在2014年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术是关于一种智慧型汉语语音输入方法及汉语听写机。本专利技术是同一专利技术人的台湾专利申请案第78105818号的改良,利用此改良方法,或使得利用汉语语音输入中文文字的方法更为精确。目前中文电脑的输入方法百家争鸣,或用注音,或用字根,或用划笔,但没有一种是众所公认最好的(因为没有一种真正最方便)。这是因为有的输入速度较慢,有的需要特别训练,有的方法特别要背口诀,久了不用会忘掉等,而人人都会、不需训练的注音符号法,则因其速度太慢,而无法通行。在众多中文输入法中,速度最快的是仓颉法、大易法或类似的方法,但此方法却只有专业人员在长期训练下才会用,一般人不常用就会忘掉。事实上,这是现阶段我国社会信息化最大的障碍,因为“中文输入”变成一种专门职业,一般人自然不会常用它。这些方法不方便的基本原因,是尝试把汉字转成几个按键,由键盘输入;但事实上键盘是西方拼音文字下的产物,汉字不是拼音文字,所以由键盘输入就自然不方便了。既然键盘输入不方便,还有什么其他方法可用呢?很多人很早就想到了可用声音输入。只是用声音输入的技术困难太多,几乎是不太可能的事,所以一直没有这方面的方便产品问世。技术上困难的原因有三点(1)需要辨识的词汇太多了,中文常用字至少五千个,常用词至少十万个,这种数字已超出技术可行的范围;(2)中文字的同音字太多,即使知道是什么音,又如何能方便而快速无误地知道是什么字呢?(3)要能“即时”听写汉语,就必须在极短时间内解决如此困难的问题,更是不容易。本专利技术人的美国专利第5,220,639号专利申请案基本上已可以解决上述困难,这是因为(1)选用汉语单音节为单位中文字、词的数目虽大,不同的单音节却只有1300个,是语音辨认技术上可以接受的范围;知道是什么音节以后,可以再由其前后的音节去判断可能构成什么词、什么句。(2)藉助以中文字为基础的马可夫模型建立中文的语言模型,可以靠大量的训练文字,统计出每一个字的前后与其他不同的字衔接的机率,由这些机率可以算出当一个音节前后与其他音节衔接时,这些音节最可能是代表什么字,这种方法可以大部分解决同音字的问题,不能解决的再在荧光屏上予以更正。(3)制作特殊设计的硬件,以便在最短时间内完成复杂的工作。然而,前项申请案的专利技术基本上虽已可决上述困难,但有其先天上的限制(1)所需运算量极大,为了要达到“即时”听写汉语的目的,亦即在很短时间内完成极大量运算,必须制作特殊设计的硬件,使得该专利技术代价昂贵,(2)正确率仍不够高(约89%),使用者仍需一再更正错字。这两项限制是至今它并没有成为产品大量上市的原因。本专利技术中,就是考虑到前项专利案的上述限制,便在原有的构想下发展出两项重要的新技术(1)专门针对汉语单音节的特性,发展出专门作汉语单音节辨识的“段落统计模型”及(2)专门针对中文的语言结构,发展出“词类双连中文语言模型”。这两项技术都是针对中文及汉语的特性发展出来,结合起来以后,所需的运算量大为减小,而正确率却可大为提高。于是不再需要特殊硬件来达到“即时”输入,同时,所有技术可以用软件完成,并轻易写入任何装有一片“数字信号处理芯片”(DSP Chip)的“数字信号处理电路板(DSP Board)”(这类芯片及电路板市面上产品很多,故很容易在不同的电路板或芯片上发展出不同的产品),只要芯片的运算速度足够快,电路板上的存储容量足够大,它就能“即时”输入。这块电路板可以插入任何一台AT级以上的个人电脑上,故使用方便,价格亦可大为降低。以上述的基本技术及功能为基础,本专利技术又进一步发展出诸如“智慧型学习技术”,使得这套听写机更具备不时“学习”的“智慧”。这包括自动学习新使用者的声音,从而使得新使用者可以很快开始使用;自动学习使用者的环境噪音并适应该噪音;不断联机学习使用者的声音、用字、用词、构句等,使得正确率可以继续上升等等。所有这些都将在以下详细说明。本专利技术系关于中文电脑的汉语语音输入系统及方法,该系统利用语音处理技术的方法及根据此方法研制而成的机器,可以“听写”任意文句的汉语,亦即使用者对着机器说任意文句的汉语,机器可以将其辨识出来,把语句转换成文字,显示在荧光屏上(以中文文字)。其主要应用是作为中文电脑的输入。这就好比有一个“听写员”,收听了使用者的语句,并将之输入电脑。当然,在输入电脑之后,就可以加以任何处理、修改、编排、储存、打印输出、传递到远方等应用。简言之,这种机器使中文电脑“会听汉语”。这种“汉语听写机”和一般看到的能辨识汉语语音的机器系统最大的不同有二(1)它必须能“听写”由极大词汇量(中文常用词至少10万以上,常用字至少5千以上)组成的任意文句,因为一般电脑要输入的中文可以是任意的文字;(2)它必须快到可以“即时”(Real-time)辨识,完成听写,亦即使用者不能在说完话后慢慢等中文字显示,因为一般电脑输入的应用都是即时的,这两个不同点使得“汉语听写机”在技术上不易做到,故到目前止尚没有真正可以有效使用的产品出现。目前各研究单位所发展的“汉语语音辨认系统”,或者只能辨识少数的有限词汇(例如100个地名等),或者正确率仍很低尚不便于使用等,均与本专利技术不同。因为上述“国语听写机”在技术上十分困难,本申请案的专利技术人在78年提出前项申请案的专利技术时系将上述构想再坛加一些条件,使上述构想在以下三个条件下在技术上变成可行,可以确实作到(1)特定语者亦即一架机器一次只听一个使用者的声音,每个使用者在购买机器时可以对机器说一番话作成“训练资料”,输入机器后机器即可以听懂他的话,换使用者时只要换一套“训练资料”即可,并不构成太大困难,因为这种机器一次只有一个人在用。发音不正确的人也可以用其不正确的发音去训练机器,机器基本上也可以一样听不正确的发音;(2)输入以断开的单音节为单位汉语每一个字构成一个单音节,但构成连续语句后整句信号连在一起,前后音互相影响使辨识困难;事实上使用者可以把输入语句每一个字的单音节断开来念,仍然十分方便而且仍然可以很快地输入大量中文;(3)输入的文字可以允许有少量的错误事实上任何输入法均可能输入错误的字,只要输入的文字可以先显示在荧光屏上,使用者看到有错时,可以用简单的方法,借助方便的软件予以更正。在这样的条件下,使用前项申请案中的专利技术,每分钟约可输入150字,其中约有17字需要更正;由于更正的软件十分方便,每分钟的“净输入”可达约110字。若使用本专利技术,则效果会更好。需要说明的是,目前中文输入法中最快的方法也可达到约每分钟110字以上,不过全台湾只有少数专业人员在长期练习下才能达到。使用本专利技术则任何人均可随时达到这个数字。因此本专利技术的主要目的,就是使任何会说汉语之人,在不需训练及永不忘掉的情况下,方便又快速使用本专利技术所述的中文语音输入方法及根据此方法所制成的汉语听写机来输入中文。本专利技术的其它目的和优点可由下列较佳实施例配合附图的说明叙述如下,其中附图说明图1为本专利技术的基本原理与结构;图2为“段落统计模型”的基本原理及其训练方式;图3为“段落统计模型”的辨识单音节的方式;图4为前项申请案中的“词类双连中文语言模型”;图5说明本专利技术的“词类双连中文语言模型”;图6说明机器联机学习使用者用字、用词、构句习惯及用短期记忆保留的技术;图7说明用电脑自动选取“学习例本文档来自技高网...

【技术保护点】
一种汉语语音输入方法,用以将任意文句的汉语语音直接转换成相对应的中文文字,该方法包括声音处理过程以及语言解码过程两大部分,其特征在于,该声音处理过程利用“段落统计模型”计算输入汉语语音的每一音节以及声调的机率,进而辨识之;该语言解码过程针对该声音处理过程送来的一连串音节,以“马可夫中文语言模型”找出所对应的中文字。

【技术特征摘要】

【专利技术属性】
技术研发人员:李琳山
申请(专利权)人:李琳山
类型:发明
国别省市:71[中国|台湾]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1