汉字表形符号和字素(即部件)分类编码法制造技术

技术编号:2891100 阅读:284 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及的是一种汉字表形符号和字素的分类编码法,具体的讲,它是一种汉字输入法;本发明专利技术也是中国专利CN85105556的后续专利。(*该技术在2015年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及的是一种汉字表形符号和字素的分类编码法,具体的讲,它是一利汉字输入法;本专利技术也是CN85105556的后续专利。本专利技术所述的在先专利CN85105556,题为‘汉字表形符号和字素分类编码法’,于1990年5月2日获专利权。并于1993年10月8日依法办理了专利权的转让登记手续,本专利技术的申请人成为合法的专利权持有人。1994年,国家科委把本专利技术所述的汉字表形符号和字素分类编码法列入国家级火炬计划,本专利技术的申请人是项目的承担单位。作为本课题开发计划的第一阶段,为了满足广大老用户的使用习惯,为了适应国内汉字激光照排系统多数采用方正748繁体字库的实际情况,为了检验表形码在ISO-10646标准的条件下的适应情况。所以本案的申请人在ISO10646标准和方正748繁体字字符集的基础上,开发了本专利技术所述的版本。对对在先专利所述的变码规则、部件分类作进一步的修订;并针对字符集收字量增加209.6的实际情况作适当修改、补充。本专利技术的在先专利中,拆分规则是薄弱环节,在适应内码标准上,在先专利也只能在GB2312-80环境下运行,对应简化汉字6763个。本专利技术的目的是提供一种能对应(1)GB-2312-80 简 6763(2)ISO-10646 GB-13000 简繁 中日韩20902(3)BIG-5(台湾) 繁 13000(4)BD-748(方正) 繁 字形有差异 14000的编码法。本专利技术提供了二个附图,其中图一是表形码新老版本部件数量对照示意图;图二是表形码新版本和4.0版部件数量对照示意图;图三是本专利技术所述的表形码的逼近、过渡示意图;本专利技术对所述的汉字表形符号和字素分类编码法的制定如下规则本专利技术所述的编码法强调编码是个过程,要有一个完整的规则体系,核心是部件拆分规则。本专利技术所述的汉字编码实际上包含了若干个环节。这些环节环环相扣彼此衔接,构成一个完整的体系。这些环节,主要有部件的选取、部件的分类、部件的拆分、键符的匹配、汉字的编码等。一种汉字编码方案的设计,实际上是在分析指定的汉字集的元素的基础上,对上述各个环节制定相应的规则,形成一个完整的规则体系,这个体系核心是部件拆分规则。本专利技术所述的汉字表形符号和字素分类编码法强调在对部件进行拆分和分类时,要综合考虑两个参照体系,两种结构关系。两个书写顺序,不可偏废。本专利技术所述的汉字表形符号和字素分类编码法采用的参照体系实际上是两个1、汉字造方法的逆过程。也就是大批的"会决字"、"形声字"形成过程的逆过程,从字中拆出天然部件。2、部件和拉丁字母开关上的近似--近字性。在老的表形码方案中,在拆出天然部件的过程中,实际上起主导作用的是1,因此拆出的部件,比较规范。但对这一点,老方案强调不够。而2,实际上是在确定编码部件和把部件同键符匹配时,才起到主导作用的。老方案对2,渲染过分。新方案对"汉字中隐藏着字母"的说法,予以淡化。3、汉字中,存在着两种结构关系(1)笔画和笔画相互之间的结构关系。(2)笔画结构块和笔画结构块相互之间的结构关系;在先专利只提(1),不提(2),事实上,在拆出天然部件的过程中,实际上起主导作用的是(2),不提(1)是偏面的,也造成分类时概念上的混淆。本专利技术所述的汉字表形符号和字素分类编码法强调取码程序,不仅看笔顺,更要看根顺,而且以根顺为主。本专利技术所述的汉字表形符号和字素分类编码法在笔画结构关系上从原来的三种关系(离、连、交)变成四种关系(离、连、切、交),约定了在拆分时要考虑结合的紧密程度。拆分时,从笔画结构关系的角度考试,难点在"粘连"的拆分。新方案把它一分为二,分成相连、相切两种状态。相连基本不拆,从而突出了基本要拆的相切状态。"撇笔要拆掉",实际上是切于其它笔画结构的撇笔要拆开,引入"切"这一概念,可以可加准确的予以描述。在先专利中对部件的定义中,有一种"隐形分隔沟"的提法。原来是确定为拆分的依据但对"隐形分隔沟",无法准确定义,且认为"天然间隙是拆分汉字的基本界线""不同型式"的结构挨着时如无间隙,当作有间隙"。后一种间隙也就是"隐形分隔沟""当作"就不是客观标准,有主观认定的成分,这样定义是需要商榷的,"不同型式的结构挨着(实际上还有相同型式的结构挨着)"有关笔画间的关系,只会是相切的状态。因此碰到"相切"是拆还是不拆?是部件拆分中的焦点。在先专利原来期望单纯分析形的特征,来确定是否拆分。事实是需要综合考虑字形字义、字源等方面的因素,才能确定。本专利技术所述的编码法对拆分规则进行修定,改变了原来主要用部件类别去描述部件拆分规则的方法,用笔画结构关系去描述,对每一类部件也都重新定义,定义现加精确、严谨。在先专利的拆分规则,是措词上是用"自己去定义自己",原来主要用部件类别去描述部件拆分规则,这显然是不确切的。象上面提到的"天然间隙是拆分汉字的基本界线""不同型式的结构挨着时如无间隙,当作有间隙",也属于用"自己去定义自己"之列,本专利技术对其作了修定。本专利技术所述的汉字表形符号和字素分类编码法强调拆分规则要有一定的"宽松性",着重说明了规则不能复盖的"特例"补充了"撇捺连写不拆"的原则,强调了规则和部件总阴结合应用。如前所述,由于汉字结构太复杂,只靠有限的几条规则要毫无例外地复盖整个字符集的,实属罕见。所有编码方案的拆分规则,都是有一定的"宽松性"的。作为一项应用技术,规则、定义要力求严谨、精确,但也不能苛求,要有一定的"宽松性"。要用部件总表作为规则的必要补充。表一是本专利技术与电脑打字七日通的拆分规则的比较。部件数量是可以作定量分析的重要参数,本专利技术同在先专利以相比,变化较大,变动情况统计如下 ①=③+④②=④+⑤ ⑥=③+④+⑤百分比=③/⑥;④/⑥;⑤/⑥部件变动率=34.9%下面给出的表二是本专利技术与在先专利部件分类体系的比较;而表三则是本专利技术与电脑打字七日通部件分类体系的比较。本专利技术在编码理论和方法上,在以下方面有变动,着重解决原方案中的偏面性。(1)表形码采用的参照体系实际上是两个①当字造字方法的逆过程-拆出天然部件-部件的规范化程度较好。②部件和拉丁字母形状上的近似--编码部件--部件同键符匹配(2)在对部进行拆分和分类时,强调不单纯看微观的笔画结构关系,还要看宏观的轮廓特征。按照这一思路对部件类的归属关系进行了调整。(3)在笔画的结构关系上从原来的三种关系变成四种关系,约定了在拆公时要考虑结合的紧密程度。(4)强调取码程序,不仅看笔顺,更要看根顺。而以根顺为主。(5)摒弃了原来部件定义中,“隐形分隔沟”的不甚确切的提法。对每一类部件重新定义,定义更加精确、严谨。(6)对拆分规则进行修定,改变了原来用部件类别去描述部件拆分规则的方法。用笔画结构关系去描述。强调是一个规则体系,拆分规则是其核心。强调拆分规则要有一定的“宽松性”,着重说明了规则不能复盖的“特例”。补充了“撇捺连写不拆”的原则。强调了规则和部件总表结合应用。上述变动,集中体现在对拆分规则的修定上面以及对部件体系的调整上。详见附件(二)、附件(三)。本专利技术所述的汉字表形符号和字素分类编码法在重码字的处理上,方法有改进,变音形结合为“纯形”处理。在老的表形码的编码方案中,是加声码。这样做要在形、音两种依托方法中,反复考虑,用起本文档来自技高网...

【技术保护点】
一种汉字表形符号和字素[即部件]分类编码法,本专利技术所述的汉字编码实际上包含了部件的选取、部件的分类、部件的拆分、键符的匹配、汉字的编码,其特征在于所述的拆分规则如下:***。

【技术特征摘要】

【专利技术属性】
技术研发人员:王朴
申请(专利权)人:张家港爱文电脑有限公司
类型:发明
国别省市:32[中国|江苏]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1