当前位置: 首页 > 专利查询>李晓明专利>正文

汉字动态结构易编码技术制造技术

技术编号:2878847 阅读:186 留言:0更新日期:2012-04-11 18:40
本发明专利技术“汉字动态结构易编码技术”,涉及一种汉字字形编码技术,属于汉字信息处理领域。其建立了符合认知规范的汉字动态结构和动态结构元集(笔画、偏旁和成字三个层次)的概念,采用汉字和汉字动态结构元称谓的汉语拼音首字符作为编码符,形成了编码符与编码对象之间的内在联系,确立了汉字“识”、“写”、“打”、“查”四者技能的统一性,并由此构造出易编码技术方案,包括应用于计算机等信息处理设备汉字输入的“易输入法”,和应用于辞书编纂的“易检索法”。易编码技术可以生成3位编码以上的多种形式的编码方案。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种汉字编码技术,属于汉字信息处理领域。具体地说,本专利技术建立和构造了一种规范、易学、好用、高效的汉字动态结构易编码体系。汉字固有的象形、会意、简洁、全息的优越性能,是任何西文所不可比拟的。然而,在现代信息处理系统中,汉字信息地处理与西文相比,却存在着独有的难度。于是,就出现了汉字编码的问题。多年来,不少专家学者专利技术人对这一问题进行了广泛的研究,其中一些相对优秀的编码方案,已在计算机汉字输入领域发挥了很好的作用。汉字编码现有的技术方案,大致可以分为两大类即拼音码和字形码。拼音码以汉字整字读音的拼写信息为编码依据,以汉语拼音字母为编码符。其优点是编码规则简单,较好掌握。其缺点是重码率高,输入效率低;由于拼音码对使用者普通话发音水平有较高的要求,非北方地区的使用者更显困难。其实,拼音码并不是严格意义上的汉字编码,而是用汉字读音转换汉字字形。字形码以优选一定数量的形态字根构成“基本字根集”,以此为编码依据,分类归并后,以英文字母或数字作为编码符。其优点是重码率低,输入效率高。其缺点是编码规则复杂,编码符与字形的相关度低,因而学习难度大,尤其难为非专业录入人员所掌握。字形码以“五笔字型”为代表,现有的所有字形码方案,几乎都是“五笔字型”的思路,不同的只是“基本字根集”的选取和“基本字根集”在键盘上的分布,或调整、或优化,甚至有的还劣化了,把事情弄得更为复杂。前者如音表字形码,在一定程度上降低了掌握字形码输入方法的难度;后者如英文字母模拟字形码,会给汉字的正确认知和使用带来更多的混乱。现有的字形编码之所以“难学难用难掌握”,其根本原因在于这些字形编码方案存在的“先天缺陷”。这个“先天缺陷”是对汉字认知规律及与编码技术之间的相互关系,尚缺乏深刻的剖析研究和相应的技术处理。最重要的,往往是最简单的;最简单的,往往是最自然的。本专利技术从根本上解决了现有字形编码技术的“先天缺陷”。任何一个汉字都有一定的结构形态,都是由一个或一个以上的结构单元(以下简称结构元)所构成的。汉字的结构元是一动态集合,现有编码技术中的“字根”是一个静态集合,只是反映了汉字结构元动态集合的部分特性,没有全面揭示其本质。汉字的“动态结构”和“动态结构元集”是本专利技术的重要概念。以构造一个“基本字根集”为编码依据,是现有字形编码技术的“先天缺陷”之一。汉字“国”是由结构元“冂、玉、一”所构成的,“国”字的“识”与“写”都遵循这一结构关系,而在“五笔字型”等字形编码中,“国”字却变成是字根“口、王、丶”的组合。因为,在“基本字根”中没有“玉”,却又有“口”。于是,汉字“国”的结构关系被扭曲了,对“国”字的“识”、“写”与“打(计算机汉字输入)”,变成两件互不相干且又相互矛盾的事情了。可见,现有字形编码“难学难用难掌握”的确是事出有因的。这样的实例可以举出很多。所以,任何一个在静态字根集的基础上,构造出来的字形码及各种变通的编码方案,都不得不以牺牲汉字认知规范为代价,作出一些非规范且复杂的编码规则,以换取较低的重码率。这种状况,对人们认识汉字、学习汉字和理解汉字,必然会产生明显的干扰和混淆的作用,因而也造成了学习和掌握字形编码的较难克服的困难。以与汉字本身特性无关的人为方式确定编码符,是现有字形编码技术的“先天缺陷”之二。现有的汉字编码技术所用的编码符,有英文字符、数字、特别符号(如“<”、“>”、“/”等)。所用编码符与汉字“字根”之间,要么没有任何内在联系,要么就是牵强附会的象征。如,“五笔字型”中的编码符“G”和“F”与“王旁青头戋五一”和“土士二干十寸雨”相应,其间有何道理,没有,你只能死记硬背下来;再如,有的字形码将汉字偏旁“阝”等同为英文字符“P”,把“口”等同为“O”,令人云里雾里。本专利技术所建立的汉字“动态结构元集”中的每一个结构元,均具有规范的形态信息和规范的音态信息。汉字动态结构元规范的形态信息,由三个层次来表征笔画、偏旁和成字。汉字动态结构元规范的音态信息,由对应称谓的汉语拼音首字符表征。于是,本专利技术所涉及的编码符与汉字结构元之间建立了内在的联系,对使用者而言,这种联系是其“识”、“写”汉字知识的自然延伸。现有字形码中死记硬背编码符与“字根”之间对应关系的难题,不复存在了。汉字的动态结构不仅精美精巧,而且结构规律统一简明。本专利技术在此基础上,建立了以下的具体的科学概念和易编码技术方案。一、汉字三层次结构元任一汉字,总是由相应的结构元所构成的。如“李”字的结构元是“木”和“子” “陈”字的结构元是“阝”和“东”,“利”字的结构元是“禾”和“刂”,“习”字的结构元是 和“冫”,“羽”字的结构元是“习”和“习”,“力”字的结构元是 和“丿”,“功”字的结构元是“工”和“力”,等等。汉字的结构元分为三个层次1.笔画;2.偏旁;3.成字。 、“丿”属于笔画结构元;“阝”、“刂”属于偏旁结构元;“木”、“工”属于成字结构元。二、汉字的动态结构关系(动态结构元的生成顺序)1.汉字是由其结构元按规范顺序而生成的。如“木、子、李”,“阝、东、陈”,就是人们对结构元顺序生成汉字的正确的和恰当的认知。不论是识字、写字,还是打字,符合结构元规范顺序,就顺畅,就方便,就舒服;违背结构元规范顺序,就别扭,就复杂,就难受。如前面提到的“国”字,其结构元及规范生成顺序为“冂、玉、一、国”,这样识也明了,写也好看,打也简单,因为三者是完全是统一的。2.汉字是由其动态结构元按规范顺序而生成的。如前所述,静态“字根”无法完全正确地反映汉字自身的结构关系和人们对汉字的认知。因为,任何一个汉字,都是由其动态结构元集之中的相应动态结构元按规范顺序生成的。或者说,汉字的结构元,并非是静止的、固定的,而是相对的、浮动的。如,结构元“厂、 丿、丶”顺序生成汉字“成”;但“诚”却不是由结构元“讠”与“厂、 丿、丶”的构成,而是由结构元“讠、成”顺序生成,即所谓“讠、成、诚”的顺序生成关系。再如,结构元“一、丨”构成汉字“十”;结构元“十、丿、”构成汉字“木”;结构元“木、子”构成汉字“李”。由此可以看到,结构元对于不同的汉字而言,是变化的,是动态的。换言之,汉字的外部形态是一动态结构关系,而非静态“字根”的概念可以涵盖的。动态结构元包含有比静态结构更为丰富的信息。例如,汉字“奴”的结构元显然是“女”和“又”。汉字“努”的结构元是什么呢,按静态“字根”的观点,应当是“女”、“又”和“力”;而按动态结构的概念,则应当是“奴”和“力”。请注意,动态结构元“奴”含有“努”的音态信息,即“奴”是“努”的声旁的信息显示出来了。而在静态“字根”观点的观察中,却把这一音态信息丢失了。三、汉字结构元称谓与编码符汉字的普通话读音就是汉字的称谓。如“李”读着“lǐ”,“lǐ”就是“李”字的称谓,“陈”读着“chén”,“chén”就是“陈”字的称谓。笔画结构元和偏旁结构元与汉字一样,都有规范的称谓。如,笔画“丿”的称谓是“piě”即“撇”,笔画“フ”的称谓是“héngpiě”即“横撇”,偏旁“刂”的称谓是“lìdāo”即“立刀”。结构元称谓是可以由汉语拼音来表达的。结构元称谓的汉语拼音首字符或关键字(针对复合笔画和偏旁结构元)的首字符,在这里,自然而然就成了本专利技术的易编码符本文档来自技高网...

【技术保护点】
一种汉字动态结构易编码技术,其特征在于:以符合认知规范的汉字动态结构关系和动态结构元集为编码对象集,以动态结构元称谓或其称谓关键字的汉语拼音首字符为编码符,按照易编码规则和易编码结构对汉字词实施编码。

【技术特征摘要】

【专利技术属性】
技术研发人员:李晓明
申请(专利权)人:李晓明
类型:发明
国别省市:52[中国|贵州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1