当前位置: 首页 > 专利查询>雷应海专利>正文

演生关联汉字编码方法技术

技术编号:2888610 阅读:180 留言:0更新日期:2012-04-11 18:40
一种汉字编码方法。引入字根结构符概念,根据字根的音、形、意特征,将字根归纳为演生根和关联根两大类。以26个英文字母为字根代码,在字根与字根代码之间建立了对应关系。从字根数量、书写笔序、字根关系及字根合并四方面依次选择汉字分解方案。对汉语字词进行最大码长为4的形声编码。本发明专利技术字根归类科学,单字分解严密,易学易记;码元少,重码率低,输入速度快。便于在广大非专职及专取录入人员中普及推广。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术是一种汉字编码方法。汉字编码方法很多,有音码、形码、音形码和序号码四大类,好几百种。各有其优缺点。有的编码易学易记,但输入速度慢,多为非专职录入人员所采用;有的编码输入速度快,但不易掌握,多为专职录入人员所采用。目前还没有一种既容易掌握、输入速度又快,为广大非专职录入人员和专职录入人员所通用的汉字编码方法。本专利技术的目地是提供一种易学易记,输入速度快,为广大非专职录入人员和专职录入人员所通用的汉字编码方法。一、字根归类与字根代码本专利技术选择了398个字根,作为简体汉字编码的字根总集。引入字根结构符概念,根据字根的音、形、意特征,本着易学易记、重码率低的原则,将所选字根归纳为演生字根和关联字根两大类。以26个英文字母为字根代码,在字根与字根代码之间建立了对应关系。1.字根结构符与演生根将字根结构归纳为32种类型,给每种类型设定了一个特定符号,称之为字根结构符,简称结构符。在32个结构符与23个字根代码之间建立了对应关系,如表1所示。表1字根结构符与字根代码之间的对应关系 演生根是结构符按一定规则演变而来的。结构符的演变有多种方式。本专利技术将符合下述演变规则或其组合规则的字根称为演生字根,简称演生根。(1)旋转结构符以与其所在平面垂直的任一直线为轴线,进行任意角度的整体转动。如 。逆时针旋转90°变为 ,旋转180°变为 (2)翻转结构符以其所在平面上的任一直线为轴线,旋转180°。如 翻转后可变为 等。(3)变形构成结构符的某一笔段或若干笔段在长度、粗细、角度、弯曲度等方面发生变化,但笔段之间的相互关系不变。笔段之间的相互关系有离散、连接、交叉、端接和转折五种。如 的两笔段为离散关系,丆的两笔段为连接关系,ㄨ的两笔段为交叉关系,厂的两笔段为端接关系, 的两笔段为转折关系。本专利技术将端接关系与转折关系同等对待,即认为端接笔画属于同一整体,不进行分解。(4)倍增一个字根由某一结构符的多个演生符交叉或叠套而成,并且这个字根的所有笔画能被所含的演生符全部覆盖,则称这个字根为该结构符的倍增根。演生符指结构符按前述三条规则或其组合规则演变而成的各种可能的几何图形,字根总集中不一定存在。判断倍增根时,笔画允许共用,但不允许截断。如 是 的倍增根。(5)同形增笔给一个字根增加若干笔画后,不影响其外围的几何形状。这种演变方式称为同形增笔。如申是中的同形增笔字根。(6)钩笔延伸一个字根与某一最为相似的结构符或其演生符相比,多了一个钩笔段。这种演变方式称为钩笔延伸,这一字根称为该结构符或演生符的钩笔延伸根,归属于相应的结构符,如 是的钩笔延伸根。(7)平笔相交一个平笔或多个平笔(折笔以外的单笔画统称为平笔)与结构符或其演生符相交构成字根。这种演变方式称为平笔相交,这一字根称为该结构符或其演生符的平笔相交根,如 是中的平笔相交根。一个字根可归于多个不同的结构符时,原则上应归于最为相似的结构符。如目可归于日,也可归于口,但目与日更为相似,因此目归于日。演生字根与结构符及字根代码之间的对应关系如表2所示。表2演生根与字根结构符及字根代码之间的对应关系 续表2演生根与字根结构符及字根代码之间的对应关系 2.关联根与字根代码、结构符及演生根有关联的字根统称为关联根。实际上,字根总集中除演生根以外的所有字根都为关联根,即都能找到关联对象。关联方式有音关联、形关联和意关联三种。关联根与字根代码的对应关系如表3所示。表3关联根与字根代码之间的对应关系 二、单字分解1.字根关系字根之间有拼并和交叉两种关系。(1)拼并关系两字根的所有笔画之间或者为离散关系,或者为连接关系。如走字的土 两字根为拼并关系。拼并关系进一步分为正并关系和非正并关系两种,正并关系指上下并列关系和左右并列关系。如万字的一、 两字根为正并关系,可字的丁、口两字根为非正并关系。(2)交叉关系两字根的所有笔画或若干笔画之间互相交叉。如来字的 木两字根为交叉关系。2.单字分解方案的选择依据如下四条原则选择单字分解方案。(1)根数原则在各种可能的分解方案中,选择字根数最少的方案。计算字根数时字根右上角的孤点不计,即省去右上角的孤点。(2)顺序原则在根据根数原则选出的多种方案中,优先选择符合书写笔序规范的方案。(3)关系原则在根据上述两原则选出的多种方案中,优先选择字根之间具有拼并关系的方案,在没有拼并方案的情况下,选择交叉方案。拼并方案中,优先选择正拼方案。(4)和并原则在根据上述三原则选出的多种方案中,如果存在某一字根与多个其它字根合并的可能,那么,应选择与相邻前根合并的方案。根据上述原则选择单字分解方案时,如果方案唯一,则此方案便为该字的最终分解方案。所有汉字按这四条原则选择之后,都可得到唯一的分解方案。这四条分解原则从表面上看比较繁锁,但实际上很明确。它彻底解决了汉字分解时通常遇到的模棱两可的问题。三、单字编码1.字根字字根总集中的字称为字根字。两位码,首码取字根代码,尾码取声码。字根字重码时,对于使用频率较低的字多取一位或两位声码。2.非字根字最大码长为4,尾码取声码,前几位取形码。由两个字根组成的字,第一、第二码分别取两字根的代码。由两个以上字根组成的字,第一、第二码分别取前两个字根的代码,第三码取最末字根的代码。字根右上角的孤点不参与编码。声码取码设两种方案。第一方案是按通用双拼双音编码法取单字的声母代码。该方案适合发声准确的人采用。第二方案是取汉语拼音的第一个字母,N、L发声容易混淆,取N取L均可,该方案适合发声不准的人采用。四、词组编码1.双字词四位码,按顺序每个字取其首尾两位形码,形码不足时用声码代替。2.三字词四位码,前三位按顺序取每个字的首码,第四位取第三字的末尾形码,形码不足时用声码代替。3.三字以上词四位码,前三位按顺序取前三个字的首码,第四位取末尾字的首码。本专利技术字根分类方法新颖、科学,容易记忆,成功地解决了字根记忆难的问题。在398个字根中,演生根就有299个。只要理解了字根的演生规则,所有演生根便可一次性永久记忆。关联根共有99个,与字根代码、字根结构符及演生根通过音、形、意特征紧密关联,记忆起来也很容易。单字分解原则明确,分解结果是唯一的。彻底解决了单字分解时通常遇到的模棱两可的问题。声码取码设两种方案,使用者可根据自己的汉字发声情况选择。码元少,可盲打。重码率低,输入速度快。对于国标一、二两级汉字,按第一方案取声码,静态重码率低于4%,按第二方案取声码,静态重码率低于5%。比其它形声码都低。对个别字根加以调整,可用于繁体字编码。本专利技术除了主要用于电脑汉字输入之外,还可用于编制汉语字、词典索引。权利要求1.一种汉字编码方法。其特征在于将字根归纳为演生根和关联根两大类。以26个英文字母为字根代码,引入字根结构符概念,根据字根的音、形、意特征,在字根与字根代码之间建立了对应关系。以单字分解为基础,对汉语字词进行最大码长为4的形声编码。2.根据权利要求1所述的汉字编码方法,其特征在于演生根是字根结构符按旋转、翻转、变形、倍增、同形增笔、钩笔延伸和平笔相交七种方式及其组合方式演变而来的。3.根据权利要求1所述的汉字编码方法,其特征在于从字根数量、书写笔序、字根关系及字根合并四个方面依次选择汉字分解方案。所有汉字的分解方案都是唯一的本文档来自技高网...

【技术保护点】
一种汉字编码方法。其特征在于:将字根归纳为演生根和关联根两大类。以26个英文字母为字根代码,引入字根结构符概念,根据字根的音、形、意特征,在字根与字根代码之间建立了对应关系。以单字分解为基础,对汉语字词进行最大码长为4的形声编码。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:雷应海孙勇
申请(专利权)人:雷应海孙勇
类型:发明
国别省市:62[中国|甘肃]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1