当前位置: 首页 > 专利查询>李成跃专利>正文

双分汉字与双分输入法及合成字模制造技术

技术编号:2880355 阅读:284 留言:0更新日期:2012-04-11 18:40
本发明专利技术由双分汉字与双分输入法及合成字模组成,它将文字赋予技术属性,属于文字改革与汉字信息技术领域。双分汉字,将汉字、汉语拼音与输入编码融为一体,实现用标准ASCII码字符记录和传输汉语。双分输入法,作为双分汉字及现有汉字的输入方法,具有应用形式的多样性。合成字模,将汉字用规范的或个性化的部件字模合成。其意义在于:将文字改革与信息技术相结合,在信息领域实践文字改革,使汉字拼音化在文字自身演化,为汉字信息处理提供一种新形式。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术由一种双分汉字与一种双分输入法及一种汉字合成字模组成,它利用现有的汉语资源和信息技术,在信息领域实践汉字拼音化,并改进现有汉字信息技术,属于文字改革与汉字信息
在现有的信息技术与现有的文字改革实践之间,缺少一种相互兼容并包(简称“兼容”)的具有技术属性的文字形式。具体表现在(1)符号系统多。在个人使用方面,现已存在汉字、汉语拼音和汉字输入编码三种符号系统。汉字与汉语拼音,不便于信息处理,在文字改革中,将逐步走向汉字拼音化。汉字输入编码,没能将文字改革与信息技术相结合,游离于汉字和汉语拼音之外,种类繁多。在信息处理方面,文字与输入编码不统一,外码和内码不统一。(2)人机不通用。现有的汉语符号系统,不便于人和机器共同使用。汉字,字形不能很好地表示读音;汉语拼音,拼写存在不确定性汉字输入编码,无文字功能。(3)文盲不便用。不识字的人,在现有汉语符号系统面前,不便录入和理解信息;不便于利用现有信息技术,进行“自助式扫盲”和学习。这种文字的技术属性,与现有汉语符号系统的根本区别在于,它不单是记录汉语的书写符号系统,还应是传输汉语的技术符号系统。现有的汉语符号系统做不到这一点。现有的汉字存在“三难”,不便于信息处理。汉字,存在难读、难写和难记(简称“三难”)等缺点。为改变汉字“三难”,现有的作法是,给汉字标注读音和推行简化汉字。在汉字头上标注读音,不便于输入和排版;在汉字后边标注读音,先认的是汉字,不便于人(或机器)识别;在汉字前边标注读音,按现有习惯,似有些主次不分;这些标注,都没有赋予信息技术方面的意义。简化汉字,字形仍不能很好地表示读音。在现有信息处理中,简化汉字没能从总体上减少汉字的数量,汉字的不断简化,不便于现有的汉字信息处理。如何利用现有信息技术“简化汉字”,需要一种实践探索形式。本说明为叙述方便,作如下约定。将已知汉字总数看作6万个,常用汉字看作7000个,其余看作“非常用汉字”。将国标GB2312-80(简称GB)收录的汉字看作常用汉字(“简体版”),其中的一级汉字,看作“一般能认汉字”。所谓“一般能认汉字”,是指在小学范围内,用于汉语拼音识字教学的(大约3500个)汉字,是一般人群都能识记的汉字。将国标GB18030-2000字符集,简称GBK。将双字词组,看作16800条(见于个别公开码表)或28600条(见于几种公开码表)。“传输汉语”,在本说明中,是指对汉语信息的输入、输出、传送或机器内部处理。现有的汉语拼音,还不能用来记录和传输汉语。现有的汉语拼音,只有《汉语拼音方案》(简称《方案》)具有权威性、合法性。现有《方案》的缺点是,字词拼写与汉字字词存在不确定性,即一种拼写对应多个汉字。具体表现在(1)同音字词不便区分,(2)多义字词不易区别,(3)不便方言拼写,(4)不便拼写文言等方面。以同音字词为例。汉语拼音的基本音节416个(据《新华字典》),考虑音节标调,可以有1282种念法。在GBK范围内,每个基本音节平均有50个同音字,每种念法平均有16个同音字。在16800条双字词组中,有18%的词组拼写(不标声调)存在不确定性。《新华字典》中,基本音节“ji”,有同音字116个,念“ji4”的同音字有40个;基本音节“yi”有同音字125个,念“yi4”的同音字69个。汉语拼音的其它样式,如“注音字母”等,也有“字词拼写与汉字字词存在不确定性”的缺点。如何利用现有信息技术将汉语拼音连续地演化为汉字拼音化文字,也需要一种实践探索形式。现有的ASCII码字符,不能直接用来记录和传输汉语。文字,在信息处理中,是采用字符代码表示的。国际上通用的字符代码是ASCII码。这种代码,用1个字节表示1个字符,全部字符128种,又叫做标准ASCII码。通用键盘的字符键与常用的ASCII码字符相对应。这种代码,给信息处理很多方便。但是,这种标准ASCII码字符,不能直接用来记录和传输汉语。当然,就更不能用标准ASCII码字符与汉字(或其形义特征),或汉字部件(或其形义特征)来记录和传输汉语。现有的汉字代码,还存在缺点,需要改进(1)按字编码,字符多,字模库庞大。GBK字符集中,已收录汉字2.7万个,需要庞大字模库支持。(2)代码种类多。汉字信息处理,需要输入码、机内码和传输码等多种代码。其中输入码又分很多种类。(3)未能表示全部汉字。汉字“字无定数”。对未收录汉字,“不便”处理。(4)不适应文字改革需要。为应用现有汉字信息技术,二十年前,就有人提到,“现行汉字就不能象过去那样分期分批地不断地简化”。文字改革,是一个不断发展变化的历史过程。现有的汉字编码,不能及时反映这个历史过程的发展变化。现有的汉字输入方法,码表越编越长,语料库越做越大;软件功能越来越多,使个人的能动性越来越少;不利于汉语的个性化表达。“码表固定”,对于个人来说,存在大量的冗余编码;长期固定在某个范围内选词用字,特别是青少年,无形中,将造成语言僵化,个性丧失。汉字使用的个性化特征,是汉语的一种语言特色。在字词选用、语汇积累和习用句式等方面,人们都有自己的个性特点。个人常用的字词很少,习用语汇更少。人们需要适合自己个性特点的输入方法。一个好的输入法,对于个人来说,应该是简单,易学,不忘记;一字一码,无重复;无个人不用的字词拼形取码的“翻译”量小,大脑及眼睛不易疲劳;不影响思维的流畅性。要达到这个要求,现有的汉字输入方法,还有待改进。现有的汉字输入编码,无文字功能。汉字输入编码,是专为汉字信息处理而编制的符号系统,种类繁多。音码,按汉字读音编码,重码多,与汉字的对应性差,不能作为文字使用。形码,按汉字结构编码,重码少,与汉字的对应性好,但汉字拆分过细,不便于“见码知字”,且无读音,也不能作为文字使用。音形结合编码,结合了两者长处,有汉字读音,有汉字的形义特征描述,与汉字的对应性好,但是,因着眼于汉字的编码输入,读音部分没有标志,不便于人机阅读和分词处理,汉字拆分过细,不便于“见码知字”,仍不能作为文字使用。现有的音形结合编码,以自然码为代表。它以双拼词语输入为主。其单字编码,全码码长5码,格式为音码〔声母+韵母〕+形码〔义部部件+部件2+部件3〕。多数部件的代码与其发声相近。但是,在单字编码方面,还存在形码的共有缺点(1)汉字拆分过细,拼形取码量大。成字部件(约150个)选用较少,使汉字拆分过细,拼形取码“翻译”量较大。(2)部件代码仍有一定记忆量。(3)三部件以上汉字,结构表达不全。(4)同一编码,未能用于多种(包括标准和数字等)键盘。现有的汉字字模,还存在缺点(1)数量大。有1个汉字,就需要1个字模。(2)未能表示所有汉字。未收录汉字,没有字模。(3)新造的汉字字模,缺乏规范性。(4)字模“众人一体”,无个性特色。本专利技术的目的是提供一种双分汉字与一种双分输入法及一种合成字模,(1)为信息技术与文字改革实践,提供一种相互兼容的具有技术属性的文字形式;(2)逐步解决汉字“三难”,使汉字简化,在文字自身完成;(3)克服汉语拼音的缺点,使字词拼写具有确定性;(4)实现用标准ASCII码字符(或用标准ASCII码字符与汉字或其形义特征,或用汉字部件或其形义特征横排)记录和传输汉语;(5)改进汉字代码,减少其数量(或种类本文档来自技高网...

【技术保护点】
一种双分汉字,将汉字、汉语拼音和输入编码融为一体,属于文字改革与汉字信息技术领域,其特征在于:(1)具有读音部分和形义特征部分,为汉语拼音与汉字(或其形义特征)的结合体;(2)或只有形义特征部分,为汉字部件(或其形义特征)的结合体;(3)字词拼写具有确定性;(4)采用标准ASCⅡ码字符记录和传输汉语;(5)或采用标准ASCⅡ码字符与汉字(或其形义特征)记录和传输汉语;(6)或将汉字部件(或其形义特征)横排书写记录和传输汉语;(7)将信息技术与文字改革实践相结合。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:李成跃
申请(专利权)人:李成跃
类型:发明
国别省市:51[中国|四川]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1