当前位置: 首页 > 专利查询>陈劲松专利>正文

文字忆频环境输入法制造技术

技术编号:2892312 阅读:190 留言:0更新日期:2012-04-11 18:40
本发明专利技术开辟了计算机文字输入的一个崭新阶段,它采用了即时分类忆频统计的手段,使得无论连续文本还是间断文本都可以实现高速输入。连续文本输入小于1.2键/字,非连续文本小于0.8键/字。不仅输入速度超过现有任何方法,而且无需增加用户的任何负担,并对输入编码的类型没有限制。(*该技术在2012年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及计算机的文字输入。文字输入的宗旨是尽量以最少的时间输入计算机最多的信息。目前汉字键盘的输入速度可达200字/分钟以上。为了提高汉字键盘的输入速率,至今汉字的键盘输入已历经了三个阶段字输入、词输入、句输入。但随着每个阶段对输入速度的提高,其每一阶段的输入适用范围却逐步缩小。如字输入输入速度最慢,但它可输入任何场合下的汉字;词输入速度较快,但它无法对单字或所有的词进行快速输入;句输入速度最快,可它只能对流动文本进行输入。也就是说,它们都只是部分地提高了汉字的键入速度,并未真正地提高汉字的输入速度。本专利技术所述的“汉字忆频环境输入法”的专利技术目的在于,进一步提高汉字的输入速度,并且在提高输入速度的同时,做到不影响高速输入的适用范围,且无需改变用户的输入编码,不增加用户的额外负担。本专利技术所述的“忆频环境输入法”,其专利技术核心在于,对编码输入的识别不再是针对一个固定不变的字库(如GB2312-80)和词库,而是针对一种全浮动式的、自学习性的词库进行编码识别。每一个不同环境下的词库都不相同。这种词库,其中只记录与输入环境有关的词语,而删去了与输入环境无关的词,因而这种词库比一般通用词库的词汇量小很多。针对该词库进行编码输入,自然所需码长较短,从而提高输入速度。即本专利技术采用根据具体输入环境减少词库词汇量,缩小输入判断范围的方法来减少输入所需信息量。这个缩小输入判断范围的方法为即时分类忆频统计法。即在输入的同时,对输入的词分类进行统计,记忆该词在分类中的使用频率。并按使用频率的高低对各分类中的词进行排序,建立成一个小词库。使得下一次在进行同一分类的输时,对输入编码的辨识能够在该词库中进行,对使用频率高的词优先认定。并且随时根据每一次的输入对小词库进行调整。注本专利技术对传统概念中的字、词、词组、段落,凡一次编码输入的,都不加以区别,而作为同样的一个数据输入单元,统称为词。本专利技术所述的即时分类忆频统计法,是根据输入所处环境的环境名为关键字来进行分类的。如,对于连续本文,文章中的每一个输入词,都可以作为下一个输入词的环境名,以及每一段文章的开头,文章中的逗号、句号、分号、冒号、引号等都可能作为其后面输入词的分类环境名。也就是说,将每一个输入词后面可能出现的输入词都分别作为同一类进行统计,将每一段文章的开头可能出现的输入词都作为同一类进行统计,将逗号、句号、分号、冒号、引号可能出现的词都分别加以分类统计。对于间断本文,如数据库数据,可将“数据库名+数据项名”作为环境名,将同一个数据项中输入的数据作为同一类进行统计;对于某一语言的命令名、变量名名称,可以分别作为一类进行统计,其环境名为“该语言名+‘命令’”或“该语言名+‘变量’”;对于编写程序时需要书写的提示信息、字符串等等非连续文本,都可能作为同一类进行统计,其环境名可以是“编程提示信息”或“编程提示串”等等。由于输入和统计是同时进行的,因此说对某一类进行统计,也就是说在该类小词库中进行输入。由于这样处理的每一分类小词库都比固定的词库或字库小,因此在用编码进行输入时,可以不用输入全码,只要输入简码即可。对于拼音码、笔划码之类重码率较高的编码,可以直接输入而不出现重码。对于输入小词库中尚未出现的词,可以再用原编码方法进行输入。本专利技术所述的忆频统计法可分两种,一种为完全统计,一种为缩略统计完全统计是记录某一环境名下所有出现过的词汇及其出现频率。缩略统计只记录那些出现频率较高和新近出现的词汇。设常用的词汇有4000个,则在连续文本中需空出4000×4000×3(设每个词汇名和其使用频率共占3个BIT)=48MBIT内存。这对于一般微机是承受不了的。这时可采用缩略记录的方法。假设每个小词库的容量平均控制在100个,则仅需内存4000×100×3=1.2MBIT。一般PC286以上的机型皆可承受。本专利技术设计了一种统计结构,可用作缩略统计。如附表,该结构将小词库分为三大部分主存区、缓存区、暂存区。主存区约占总结构的80%,记录词汇名及其频率,按频率高低排列和淘汰;缓存区约占总结构10%,记录词汇名及其频率,按“先进先出”原则排列和淘汰;暂存区约占总结构的10%,只记录词汇名不记录其使用频率,按“先进先出”原则排列和淘汰。主存区用来记录小词库中出现频率较高的词汇,暂存区主要用来记录最新出现的词汇,缓存区使得新出现、且使用频率较高的词汇能够进入主存区。对照附表,一个词汇记录在该结构中的过程为1、当小词库未填满时,依次按主存区、缓存区、暂存区的顺序进行填充。2、如果发现已记录在主存区,即将其使用频率加1,并按新频率重新调整其在主存区中的位置,对于频率相同的词,应按新旧顺序排列。3、如果发现已记录在缓存区中,先将其频率加1,再将其频率与主存区中的词汇频率相比较,若超过或等于主存区中频率最低的词,则将其插入主存区。被挤出的原排列在主存区最后位的词移至缓存区的首位(附表B处),其频率照抄过去。4、如果发现已记录在暂存区,则直接将其插至缓存区的首位(附表B处),并设定该词使用频率为2次,同时将从缓存区中被挤出的一词插入到暂存区的首位(附表A处),并不再记录其频率。5、如果小词库中并未记录结构,则将该记号插入到暂存区的首位(附A处),挤去暂存区的末位记录。该结构的优点是将缩略统计和完全统计合为一体,当小词库容量很大时,即为完全统计;当小词库容量缩小到小于词汇使用量时,即为缩略统计,而且当小词库量固定后,对于某环境名下词汇使用量较小的情况下,如数据库某数据项,即为完全统计,对于某环境名下词汇使用量大到超过小词库容量的情况下,该结构自动作缩略统计,该结构的小词库容量和使用量还可分开,系统根据内存大小确定小词库统计词汇量的多少,并根据减少输入按键和重码率的原则控制编码辨识时所使用的小词库汇量的多少。如某小词库统计了100词汇,但仅针对前80个频率较高的词汇进行编码识别。衡量本专利技术功效的两个重要参数是小词库的词汇统计量和词汇覆盖率。词汇统计量是指小词库中统计的词汇的数量,词汇覆盖率是指小词库中统计的词汇在该环境名下的总出现频率。完全统计的词汇覆盖率为1,缩略统计的词汇统计量越大,词汇覆盖率越大。一般来说,连续本文的缩略统计在统计量为500词左右时,词汇覆盖率可达96%以上。象数据库之类间断文本的小词库,一般都能在较小的统计量的情况下,达到近乎1的词汇覆盖率。越高的词汇覆盖率可使越少的词汇需用全码输入。而越小的统计量,即小词库词汇量越少,也使得每个词汇的所需编码码长越短。即在小统计量高词汇覆盖率的情况下能获得高速输入。本专利技术的优点在于,使得编码输入的识别能够在适合输入环境的小范围词库中进行,减少了编码输入所需码长,大大提高编码输入速度。本专利技术的忆频统计法,是一种极其简单的方法,它可以适当地替代老式连续文本输入中复杂的语法判别法。本专利技术无论对于连续文本都可以高速输入,因此可以说,本专利技术开辟了汉字输入的一个崭新阶段-第四阶段,环境输入阶段。本专利技术不仅适用于汉字输入,也同样适用于其它文字的缩略输入。并且同样的结构、原理不仅可用于键盘输入,也可以用于机器识别输入,可大大提高机器识别率。本专利技术应用实例连续文本,设一小段落如下新华社消息,美国总统竞选已趋白热化,现任总统布什获胜希望不大。输入过程在本文档来自技高网...

【技术保护点】
文字忆频环境输入法主要通过即时分类忆频统计手段建立动态小词库的方法来确定文字输入环境,缩小文字输入的辨识范围。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈劲松
申请(专利权)人:陈劲松
类型:发明
国别省市:34[中国|安徽]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1