当前位置: 首页 > 专利查询>张汉民专利>正文

汉字规范编码及键盘输入法(简称规范码)制造技术

技术编号:2892137 阅读:386 留言:0更新日期:2012-04-11 18:40
本发明专利技术是一项利用英文字符给汉字编码的方案和用计算机通用键盘输入汉字的方法。目的是改进汉字拆分的规范性,解决汉字输入法中“好学与快速”的矛盾。 通过确定汉字的规范拆分取码方法和合理分布部件代码,使汉字编码符合造字规则和识字规律,降低重码率,使编码易学好记,有利于计算机处理中文信息技术的普及。 通过码长分组消除字重码和减少字与词重码,独特的输入方法使汉字输入既适于初学者也适应专业录入人员快速盲打的要求。(*该技术在2013年保护过期,可自由使用*)

【技术实现步骤摘要】
一、本专利技术是一项利用英文字符给汉字编码的方案和用计算机通用键盘输入汉字的方法。目的是改进汉字拆分的规范性,解决汉字输入法中“好学与快速”的矛盾。通过确定汉字的规范拆分取码方法和合理分布部件代码,使汉字编码符合造字规则和识字规律,降低重码率,使编码易学好记,有利于计算机处理中文信息技术的普及。通过码长分组消除字重码和减少字与词重码,独特的输入方法使汉字输入既适于初学者也适应专业录入人员快速盲打的要求。该项技术也适于任何汉字编码方案及输入法。规范码适于任何汉字信息处理领域及其设备。二、规范码的理论基础汉字由30多种笔画组成字根(字根中有常用的偏旁部首,有独体字,当然也有些字根既不是常用偏旁部首,也不是字)。由字根和笔画组成新的独体字,由字根和字根组成合体字,由字根与合体字或合体字与合体字组成新的合体字。也就是说字的组成过程不是并行的,而是分级有序的。组成合体字的字称之为“子字”,为叙述的方便,以下将笔画、字根、子字统称为“部件”。字的组合结构有并列、包围、重叠和复合几种形式。举例如下并列字“明”、“尖”,组字顺序是先左后右,先上后下。包围字“国”、“同”、“匣”、“闸”、“囱”、“层”、“或”、“威”、“越”,组字顺序是先外后内。“这”、“建”等含“辶”,“廴”的字是先内后外。重叠字“必”、“重”,组字顺序由写书笔画顺序决定,“必”是“心”加“丿”组成,“重”是由“千”、“曰”、“二”组成,“本”是“木”加一横组成。复合字“键”、“蓿”、“圆”,由前三种结构复合组成,因此组字顺序按上述三种结构顺序决定。少数字是先中间后两边。如“水”、“承”,是以书写笔画为顺序的。在上述理论的基础上对汉字的拆分方法才可能规范化。三、部件分布部件大部分按其称谓读声分布在26个英文字母上,少数部件根据笔形特征归类分布在“;”、“,”、“.”、“/”四个符号和部分字母上。分布在“a”、“e”、“o”、“;”、“,”、“.”、“/”七个字符上的部件组之间可以互换字符代码而不影响规范码的性能指标。具体分布如下A门、 、冂、凵、匚、 B宀、疒、 、卜。C艹、廾、 。D刂、 。E山、巾、阝、 、彐、 。F手、扌、 。G广、廿、 。H一、 、虍、火。I丨、虫、厂、彳、亍、 。J钅、 。K 。L木、 、ㄥ、レ、し、 。M目、 。N女、 。O氵、 、灬、 。P丿、鱼、 、卩、 。Q犭、气、 。R亻、 。S 。T 、土。U 、尸、 。V 。W攵、 、主、 、戊。X忄、 、穴、 、下。Y肀、予、 、亦。Z 巛、辶、廴、足、走、 ;车、冫、 、羊、 .礻、衤、 /月、彳、八、 、勹、 其中为了分离重码,有十个字没有按其声母分布。有些部件的读声没有声母就用其汉语拼音的首韵母替代,本文统称为声母。由于汉字的拆分遵循组字方法,因此大量的汉字也作为部件参与编码,这是规范码的特别之处,它们按其读声的声母分布在相应字母上,显然无需具体列出。四、编码方案规范码码长4位,第一码为该字读音的声母(卷舌声母zh用v代替,ch用i代替,sh用u代替,没有声母的用其汉语拼音的首字母代替)。声母字符符合国家汉语拼音标准,可以一字多声。第二、三、四码为形码,按以下方案拆字取码。1、对于独体字按书写顺序,根据部件分布表对汉字进行拆分取码。第一码为起笔部件码,第二码为第二部件码或余部件码,第三码为余部件码或包括末笔的最大子部件(简称子部件)码,码长不够用字母q补齐。例“一”的声母为“y”,第一形码取横即“h”,没有余部件,则用“q”补齐,于是“一”的规范码是“yhqq”。“开”的声母为“k”起笔部件是横,余部件“廾”,子部件是“丿”,因此“开”的规范码是“khcd”。同样“禾”,“介”,“少”的规范码分别是“hpl/”、“jrdi”、“uxpq”。2、对于合体字的拆分也是按书写和组字顺序,仅当部件字与字同声时要拆开,这是规范码的关键之处,称之为“同声拆字”。若起笔部件是一个与字同声的子字,就取子字的取笔部件码为第一形码(如“遍”的第一形码为“h”)否则就取该子字的读音声母为第一形码(例如“频”的第一形码为“b”)。余下若是一个与字同声的子字,就取该子字的起笔部件码为第二形码,(例如“横”的第二形码为“c”)否则取该子字的读音声母为第二形码,(例“室”的第二形码为“v”)。第三形码为未部件码或子部件码,(例“遍”的未码为“z”,“频”的未码为“b”,“横”的未码为“/”,“室”的末码为“t”)。码长不够就用“q”补齐。有些汉字在拆分时中间部件没有用到是由于码长所限,其实汉字的信息冗余量大,因此有些汉字的部件信息无须全部使用或者码长少于4位也可以唯一的确定该汉字,规范码正是利用了这个特点简化了部件和对汉字进行了码长分组的。以下给出字形拆分取码的流程图3、对极少数拆分方法不唯一的字,规范码的特征在于没有规定繁杂的拆字规则,而是通过具体的编码示例规定的,这样更便于理解和记忆。有如下字非fdss 兆veo; 夹jh;d 交j;fx 衮glsq 堇jgeh 夫fern 失upfr矢uptd 充iyel 克kgel 隶lejo 录leuo 长ipqn 隹vr;w 元yeel完wbyw 亏kh,z 口kiah 臣iait 工gthq 艮geqn 不bdin4、含“弋”、“戈”和“戊”部件字用该部件作为起笔或第二部件,拆分编码示例戊wgpq 载zug; 裁zugl 哉zugk 或hgkh 戒jgcd 武whyv 斌bwwv贰eyeb 成iw.q 威wwhn 戍uwnq5、带框形的包围字用框形部件作为起笔部件,拆分编码示例耳ejsh 且qash 身uasp 面mdae 囟xaxn 匣xaji 圈qajz6、重叠字的拆分按笔画顺序进行,拆分编码示例弗fgdi 柬jls/ 重iqre 垂iqee 熏xqho 西xwkh 酉ywke 州voii秉bqe/ 叟sjiy 巴bail 戋jhgn 末mhl/7、部分含“辶”,“廴”、“刂”和右“阝”部件字的拆分取码当这几个部件作为第二形码时,第三形码反过来取首部件字的未部件码。示例这vwzx 建jyzi 刘lwdx 邦bfep8、极少数多声字的拆分没有遵循“同声拆字”,是为了统一形码部分,这样更有利于记忆。示例腌y/dd(a/dd) 秘bhxp(mhxp) 校xl;f(jl;f)9、对于偏旁部首的编码,前两码为“pp”即“偏旁”词的声母,第三码为该部件在部件分布表中的字母,第四码为其未部件码,不够则用“q”补齐。(例如“廴”的编码为“przn”,“卩”的编码为“pppi”)。五、无重码分离技术在上述编码的基础上,在全部第一码相同的字中分离出10个相对常用的字,再分别加上数字(0,1,2,3,4,5,6,7,8,9)构成二码高频字组。例如和h1、好h2、会h3、化h4、号h5、或h6、还h7、回h8、活h9、很h0。再在全部前二码相同的字中分离出一个相对常用的字取前二码编码构成二码字组,例如湖ho。再在全部前三码相同的字中分离出一个相对常用的字取前三码编码构成三码字组,例如汉hoy、河hok、涵hol,滑hog。余下的为四码字组,例如洹hog本文档来自技高网...

【技术保护点】
一种对汉字字形的拆分取码遵循汉字的组字规则和识字规律的方法,并且部件分布规律性强、易学好记。技术特征如下:(1). 部件绝大部分按其称谓读声分布在26个英文字母上,少数部件根据笔形特征归类分布在“;”、“,”、“. ”、“/”四个符号和部分 字母上。分布在“a”、“e”、“o”、“;”、“,”、“. ”、“/”七个字符上的部件组之间可以互换字符代码而不影响规范码的性能指标。具体分布如下:A:门、口、冂、凵、匚、*、*、*、*、*、*、*、*。B:宀、疒、*、卜。C :艹、廾、*、*。D:刂、*、*、*、*、*、*、*、*。E:山、巾、阝、*、彐、*、*、*、*。F:手、扌、*、*、*、*、*、*、*。G:广、廿、艮、*、*、*。H:一、*、虍、火。I:丨、虫、厂、彳、*、*、* 。J:钅、*、*、*、*。K:口、*。L:木、*、*、*、*、*、*、*、*。M:目、*、*。N:女、*、*、*、*、*。O:氵、*、灬、*、*。P:*、鱼、冖、卩、*、疋、爿。Q:犭、气、*、匕、七、*、* 。R:亻、*、*、*。S:纟、糸、厶、*、*、*。T:*、土。U:饣、尸、*、*、*、*。V:豸、*、*、*、*、*、*。W:攵、夂、*、*、戊。X:忄、*、*、穴、*、*。Y:*、予、*、*、*。Z:* 、*、巛、辶、廴、足、走、*、*、*、*、*、*、*、*、*、*。;:车、冫、*、*、*、丬、亠、*、羊、*、*、*、*。,:讠、*、*、*、*、*。. :礻、衤、*、*、*、*、*、*。*:月、彳、八、*、*、*、*、*、* 、彡、*、*、*、*、*、*。大量的汉字也作为组字部件使用,这是规范码的突出特点。它们按其声母分布,显然无须在上面部件分布表中一一列出。(2). 把字的组合结构分为:并列、包围、重叠和复合四种形式。并列字的组字顺序是先左后右,先上后下 。包围字的组字顺序是先外后内。含“辶”,“廴”的字是先内后外。重叠字的组字顺序由写书笔画顺序决定。复合字是由前三种结构复合组成,因此组字顺序按上述三种结构顺序决定。少数字是先中间后两边,是以书写笔画为顺序的。这是一种对汉字结构的独特认识,为汉字拆分规范化奠定了基础。对字形的拆分顺序是按上述组字顺序进行的。(3). 对字形拆分取码的方法是独特的:对于独体字按书写顺序,...

【技术特征摘要】

【专利技术属性】
技术研发人员:张汉民
申请(专利权)人:张汉民
类型:发明
国别省市:42[中国|湖北]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1