当前位置: 首页 > 专利查询>叶星遥专利>正文

汉字两分表示法及输入法制造技术

技术编号:2836768 阅读:275 留言:0更新日期:2012-04-11 18:40
一种汉字编码系统及输入方法,适用于大字库中的汉字输入,用常用字(国家标准中的常用字)、常用偏旁部首及基本笔画作为常用字元集,将汉字拆分成两个部分,以其中最大常用字元分别作为两部分的表示符,以两个表示符表示一个汉字。键盘输入汉字时,输入其中两个部分表示符的音码(包括全拼码、双拼码、注音码),鼠标及光笔输入时输入屏幕上提示的两个表示符,排序时以表示符的音码排序。

【技术实现步骤摘要】

中文信息处理及汉字输入。
技术介绍
汉字输入主要分三大类形码输入、音码输入、音型结合输入。本专利技术是在“汉字析音编码及输入方法”(专利号92113155.0,以下简称“析音码”)基础上的改进和创新,是析音码的第二种方案。属于音型结合类。本专利技术采用析音码的汉字结构分类及拆分方法(包括首部正向取大原则、尾部逆向取大原则),并稍加改进。然后提取常见字元作为拆分后首尾两个部分的表示符作为汉字输入和排序的基础。析音码由四码组成,前两码是汉字的双拼码,后两码是汉字拆分成首尾两个部分后的声母码,其中双拼码需要一定的记忆,并且需要知道该字的读音,对于超大字库中的许多难认字和偏僻字,就难以输入了,虽然析音码中有难认字输入法,但由于仅采用首尾两部声母编码,对于数万乃至十多万的汉字来说,重码率极高。析音码中虽然制订了拆分原则,和以声代形编码方法,其取大原则是无限取大,只要拆分后的部分是汉字,则取其声母作为编码。然而,对于超大字库来说,汉字拆分后的部分绝大多数仍然是汉字,而且很可能是普通人不认识的汉字,或者是普通人不知道是汉字的汉字,如“部”字拆分成“咅”和“阝”,析音码说明书中认为“咅”不是字,这是不正确的,如果要取大就必须取“咅”编码,普通人不认识“咅”,自然取“立”,而对于认识“咅”的人则会取“咅”,这样取码具有较大的歧义。本专利技术以常用字(国家标准中的常用字)、常用偏旁部首及基本笔画作为常用字元集,只提取常用字元作为首尾两部的表示符,解决了汉字拆分成两个部分后难认的问题;同时也解决了难认字的输入问题,由于是两个部分的完全音码,对于超大字库而言,其重码率也相对较低。并且也适宜于汉字的排序、鼠标、及光笔等输入设备的输入。
技术实现思路
音码输入法是最普及的汉字输入法,但对难认字就无法输入了,且由于音码仅有400个左右,即使加上四声只有一千多个,对于超大字库重码率太高,除常用字外需要太多的翻页。本专利技术恰好能解决这两方面的问题,同时又保留着音码输入简单易学的特点。(一)原理以常用字(国家标准中的常用字)、常用偏旁部首及基本笔画作为常用字元集,将汉字一分二,从汉字两部分(分别称之为首部和尾部)中提取最大常用字元作为该两个部分的表示符,首部按书写顺序正向取大原则提取,尾部按逆向取大原则提取,每个汉字均由两个表示符表示。结构为独体和三部分以上的汉字均按两个部分看待。(二)汉字的结构分类(析音码的改进)将汉字结构分为六大类。在本编码中,除不可拆分的“一”和“乙”无法分解外,其余的汉字均拆分成首尾两个部分。根据下列六种字形,对汉字进行拆分。1、左右型(左中右型)左右型取左部为汉字的首部,右部是尾部,如“析取键郴鸿”的首部分别是“木耳金林江”, 尾部分别是“斤又建阝鸟”。2、上下型(上中下型)上下型取上部为汉字的首部,下部是尾部,如“音节墓想架”的首部分别是“立艹莫相加”,尾部分别是“日卩土心木”。3、倾斜型倾斜型取倾斜部分作为汉字首部,余下的是尾部。如“题遍麻尾式戒”的首部分别是“是辶广尸弋戈”尾部分别是“页扁林毛工廾”4、全包围(半包围)包围型取包围部分作为汉字首部,被包围部分为尾部。如“国匠凶周贝凤”的首部分别是“囗匚凵冂冂几”尾部分别是“玉斤叉吉人又”5、夹合型夹合型汉字取夹合部分作为首部,中间部分为尾部。如“哀街噩辩裹”的首部分别是“衣行王辛衣”尾部分别是“口圭口言果”6、独体字按笔顺取其中最大字根作为首部,余下的为尾部,兼顾自然、直观和习惯。如“大夷夫田卞己”的首部分别是“横大二日二口”尾部分别是“人弓人横卜折”(三)、汉字的拆分原则(与析音码相同)为了减少记忆量、消除二义性,使首尾两部的拆分简单、直观并符合汉字的构成规律。特制定了“正向取大”和“逆向取大”原则。简述如下1、正向取大原則(首部)以汉字书写顺序第一笔画开始,按汉字结构正向顺序尽量取出最多笔画,但不能取整个汉字,构成一个最大字元,作为“首部”。2、逆向取大原则(尾部)除去首部,剩下的都是尾部,由于尾部可能不完全成字(部件),故以其最末笔画开始,按书写顺序相反的顺序,逆向取最多笔画(不得与首部重叠,按汉字构成本义)作为尾部的代表。(四)首尾两个部分的表示符汉字拆分成首尾两个部分后,每一部分中取其最大常用字元作为该部分的表示符。举例如下“部” 左右型,首部(左部)为“咅”,由于“咅”字普通人不认识,不属于常见字元,故取“立”代表“咅”,故“立”为“咅”的表示符。尾部的“阝”是常见字元,其表示符就是其本身。“翰” 左右型,左部“”以“十”作为表示符。右部由“人”和“羽”组成,按逆向取大原则取“羽”作为右部的表示符。“馨”上下型,首部(上部)为“殸”,由于“殸”字普通人不认识,不属于常见字元,按取大原则取“声”作为“殸”的表示符,虽然“声”中的“士”也是常用字元,但取“士”不符合取大原则。尾部为下部“香”,因为“香”是常见字元,不应取“日”作为表示符,“香”的表示符就是其本身。“敷” 左右型,左部“旉”不是常见字元,故以“甫”作为左部表示符,尾部仍为右部“攵″(五)、以音代形以首尾两个部分的读音(包括声母和韵母)作为该汉字的键盘编码输入码。这样,即使不认识该汉字,也能通过其首尾两个部分表示符的读音,准确快速地输入该汉字,罗马拼音方案、注音方案、双拼方案均可适用,双拼方案最为快速,每字最多四码,注音方案每字最多六码,罗马拼音方案最长,但无需记忆。汉字的字元共分两大类一类是成字字元,其编码当然是取其音码。另一类是偏旁部首,偏旁部首是由古代的成字演变而来,故其一般也有读音,然而,现代汉字与占代有较大的区别,我们不可能以古代的读音标定现代汉字的读音,因此我们只能以现代读音习惯对偏旁部首进行编码。为了减少记忆,本编码规定的常见字元很少,只将一些人们常见、常用、又都能认识的偏旁部首规定为常见字元。有些常见字元使用频率较高,但不易读出其发音,为此,笔者除了在下表中列出较为常用的字元外,还将全部的常见字元全部列在o部,无法确定常见字元的读音时,可通过输入o,翻页查阅其读音。常见字元读音表(以拼音、注音为例) 具体实施例方式本汉字输入方案的具体实施方式如下1、键盘输入以汉字首尾两个部分表示符的完全音码(包括全拼、注音、双拼)作为输入码。如“菅”字一般人不认识,也不读半边音,音码无法确定。键盘输入(以全拼和注音为例)为首部“艹”的音码为cao或ㄘㄠ,尾部“官”的音码为guan或巜ㄨㄢ,故“菅”的完整编码为caoguan或ㄘㄠㄍㄨㄢ2、鼠标或者光笔等输入设备屏幕上按音码的顺序提示首尾两个部分的表示符,分别点取汉字的两个表示符输入汉字。如“菅”点取屏幕上提示的“艹”,再点取屏幕上提示的“官”3、字词排序以汉字拆分后首尾两个部分的表示符的音码作为汉字的先后顺序。本文档来自技高网
...

【技术保护点】
一种汉字编码系统及输入方法。其特征在于:以常用字(国家标准中的常用字)、常用偏旁部首及基本笔画作为字元集,将汉字一分二,从汉字两部分(称之为首部和尾部)中提取最大常用字元作为该两个部分的表示符,首部按书写顺序正向取大原则提取,尾部按逆向取大原则提取,每个汉字均由两个表示符表示。结构为独体和三部分以上的汉字均按两个部分看待。

【技术特征摘要】
1.以常用字(国家标准中的常用字)、常用偏旁部首及基本笔画作为字元集,将汉字一分二,从汉字两部分(称之为首部和尾部)中提取最大常用字元作为该两个部分的表示符,首部按书写顺序正向取大原则提取,尾部按逆向取大原则提取,每个汉字均由两个表示符表示。结构为独体和三部分以...

【专利技术属性】
技术研发人员:叶星遥
申请(专利权)人:叶星遥
类型:发明
国别省市:31[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1