当前位置: 首页 > 专利查询>朱亮专利>正文

一种汉字键盘句输入系统技术方案

技术编号:2890356 阅读:180 留言:0更新日期:2012-04-11 18:40
一种计算机汉字键盘句输入系统,采用“软词库”,将任意两个汉字之间词与非词的组合关系(即汉语的所有词汇和语法现象)尽数包容,具有极强的自学习能力,完全摒弃了通常的句输入技术中重点考虑语法研究的模式。可以实现字、词、句、自定义短语的混合输入和快速看打、听打、想打。句转换正确率达97~99%,经对软词库的增删优化,正确率可以进一步提高到98~99.5%。是一种易学、好用和通用的汉字键盘输入法。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术是一种汉字键盘句输入系统,属于计算机中文信息处理系统。现有的句输入系统中,大多数是采用拼音语句转换方式,哈尔滨工业大学王晓龙博士的Insun(音声)系统,日本国际情报化协力中心的最优评价函数法拼音汉字转换系统,邢伟华的邢码句输入以及清华大学刚推出的句输入系统,这种系统使用汉语拼音(全拼、双拼、简拼)连续击键输入汉语语句,智能软件对输入的音节序列进行分析后形成以字为单位的汉字内部码。系统要解决的首要问题是通过音节分析、自动分词、词法分析、句法分析、语义分析、语用分析六个环节由计算机来辩识同音字、词,即重码的字、词。现有的句输入技术在保证易学性的前提下,在排除重码字、词方面,比之一般的字、词输入法,的确有更多的手段、更多的选择,这是一个进步。但也存在诸多的问题,具体可以归纳为以下六个方面1、汉字键盘输入法中引入汉语语法以消除重码字、词,其实是不得已的办法,这是由汉语的固有特点所决定的。2、汉语的语法尚未形成规范化,尤其是人们习惯于不断“制造”和使用非规范化的语法,例如人们对“吃食堂”、“吃大碗”、“托儿”、“好不高兴”等的理解只能靠语义来解决。3、句输入技术研制者首先面临的问题是必须要先自定义相当一部分适用于电脑操作的“语法”,这就难免有偏颇,由此而衍生出下述一系列问题,导致句转换错误(1)词库收词不全;(2)知识库、词法、语义规则不全或不够完善,例如“再精简,再膨胀”与“在精简,在膨胀”之间的区分;(3)自动分词匹配算法不够完善;(4)语法、语义分类相同,或者语义归类不当等原因,这类错误目前的汉语语法完全无能为力,例如;“权力-权利”、“形式-形势”等;4、我们的汉语文字资料浩如繁烟,方言土语众多,汉语语法难以准确地归纳所有的语言现象,而且语言文字日新月异,用户情况更是千差万别;5、由于机器内部的代码是以“字”为单元的,系统间交换信息的交换码也是如此,文章中单字词更是不少,当用句、词切分字不成功时,仍然会面临字、词键盘输入法“好学的不好用(拼音类),好用的不好学(字根类)”的尴尬。6、拼音类词句转换系统,输入方式为音节序列,即字的声、韵、调信息,遇到不认识及读不准音、韵、调的字和非字符号就不好办(若去掉音调,而改用空格键符等作为隔音符,又不利于提高句转换的正确率);本专利技术就是为克服现有的各种汉字键盘句输入系统的上述难点和缺陷,面提供一种易学、好用和通用的汉字键盘句输入系统(以下简称为BM句输入系统)。本专利技术的汉字键盘句输入系统,包括有字输入和句输入方式,字的输入以代码的形式通过键盘上的字母键和数字键完成,并配置有将任意两个汉字之间词与非词的组合关系尽数包容的软词库,句输入方式的输入方法为以字母V作为句输入的引导符,回车键作为该句的结束符,格式为V字编码 字编码……字编码<CR>上述字输入的编码规则为字的拆分部首依其首笔划在该字中的笔顺,依次定为第一、次、末部首,字按照拆分部首的数目分为单部首字、双部首字和三部首字,其中(1)单部首字的编码方式为字的读音首字母+字首笔划代码+字次笔划代码+字末笔划代码,笔划数不足时,先取首笔划,次取末笔划,不足的用字母补齐;(2)双部首字编码方式为第一部首代码+末部首代码+末部首首笔划代码+末部首末笔划代码,当末部首非字时第3码改为末部首次笔划代码,其余同单部首字规定;(3)三部首字编码方式为第一部首代码+次部首代码+末部首代码+末部首末笔划代码。上述句输入方式的使用规则为(1)相邻字的编码之间可以用1个或多个空格符分隔,也可以不用;(2)每个句子允许为4~36个字符,即不用空格键符分隔时,每个句子限定为2~18个字;除空格键分隔符外,其余字符必须为全角字符(汉字符,包括非字符号)的编码;(3)每个字按照上述字编码规则固定取前3码;一个字的三个编码之间不准用空格符分隔,句中有叠字时,其次字的编码可简化为一个字母V,以缩短码长;(4)退格键用于删除最末一个字符,回车键和ALT+空格键组合用于删除全部编码字符;光标左右移键“←”、“→”与删除键DEL、插入键INS配合,可以用于在输入的编码中间进行插入、更改或删除字符操作。此外,本专利技术还包括有自定义短语输入方式,其输入格式为V???<CR>其中???表示属于键元集(0~9和A~Z)的任意三个编码字符。上述三个编码字符可用该短语的前二末一字标准拼音的首字母,也可以用任一种输入法的字、词编码方法。下面对本专利技术的技术方案进行详细的描述附图说明图1为BM句输入和自定义短语输入使用流程图;图2为BM句输入算法流程图;图3为自定义短语输入算法示意图。本专利技术的BM句输入系统可以实现字、词、句和自定义短语的混合输入,其中字、词输入方式时的字表、软词库和程序的编制与专利申请号为96119064.7(BM输入法)中对BM100字集的处理相同,且其字集、键元集、拆字编码规划和字词使用规则也与上述专利申请号的输入法相同。句输入的方法为以字母V作为句输入的引导符,回车键作为该句的结束符,格式为V字编码字编码……字编码<CR>。其使用规则为\ (1)相邻字的编码之间可以用1个或多个空格符分隔,也可以不用;(2)每个句子允许为4~36个字符,即不用空格键符分隔时,每个句子限定为2~18个字;除空格键分隔符外,其余字符必须为全角字符(汉字符,包括非字符号)的编码;(3)每个字按照上述编码规划固定取前3码;一个字的三个编码之间不准用空格符分隔,句中有叠字时,其次字的编码可简化为一个字母V,以缩短码长;(4)退格键用于删除最末一个字符,回车键和ALT+空格键组合用于删除全部编码字符;光标左右移键“←”、“→”与删除键DEL、插入键INS配合,可以用于在输入的编码中间进行插入、更改或删除字符操作。根据上述使用规则输入字编码,并键入回车键后,该句的转换结果即在提示行编码区显示,至于是否直接上屏,由用户在装入BM句输入系统的命令参数中予以指定“无条件上屏”或“有条件上屏”两种方式,其中采用“无条件上屏”时,则无论所输入句子的转换结果是否可靠,均在提示行显示的同时直接上屏;采用“有条件上屏”时,若系统处理程序确认本次转换结果比较可靠,则在提行显示的同时直接上屏,若认为不可靠,则先修正可能出错的字,并需通过按键确认后才上屏。若本次转换结果不太可靠而用户又指定“有条件上屏”,则提示行光标将停于可能出错的字处,并在提示行右边提示该字的三个编码和1~10个可供选择的字,用户键入相应的数字键选择所要的字,若可供选择的字超出10个,可用退格键翻页(若刚好只有10个可选字,则第10个字的标识序号为正常的“0”,若多于10个,则第10个字的标识序号改为“?”,不过要选择第10个字时仍应键入数字键“0”),利用光标键“←”、“→”可以选择要修改的字,提示行右边的提示编码和可选字将随之而改变;修改完毕,键入空格键该句即上屏。图1规定了使用BM句和自定义短语输入时的具体步骤,用户在最初使用时,应尽量采用“有条件上屏”方式,并在提示行修正错误,此时,程序将自动修改软词库,而且即改即用,下次就不会犯同样的错误;当经过一段时间的使用,转换错误已经比较少时,即可改用“无条件上屏”方本文档来自技高网...

【技术保护点】
一种汉字键盘句输入系统,字输入以代码的形式通过键盘上的字母键和数字键完成,并配置有将任意两个汉字之间词与非词的组合关系尽数包容的软词库,其特征在于还包括有句输入方式,其输入方法为:以字母V作为句输入的引导符,回车键作为该句的结束符,格式为:V字编码字编码……字编码<CR>。

【技术特征摘要】

【专利技术属性】
技术研发人员:朱亮
申请(专利权)人:朱亮
类型:发明
国别省市:44[中国|广东]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1