一种用来产生与操作员的输入相对应的表意字符的方法和装置。该装置包括能产生一串输入信号的输入设备,这些输入信号是因输入一连串书写笔划而产生的,这些输入笔划对应于一个表意字符集内的一个表意字符的可标识的结构特征。处理机存贮一个字符表示库,库中每一字符反映了表意字符集内每字符,每一字符根据它所代表的那个表意字符的予先确定结构特征来标识。处理机对输入信号作出反应以选出字符表示库中的一个字符表示。(*该技术在2008年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及有关信息处理的方法和装置。具体地说是涉及对表意文字进行编码并辨认与每个字符相对应的输入、以便把它们输出到显示或打印、所用的新方法和装置。本申请是1987年1月2日申请的000,091号专利申请之后的部分继续申请,而000,091号专利是1985年6月3日申请的740,411号专利之继续申请,后者现在已经放弃。汉语是使用表意字符的若干种语言之一。这些语言通常是非线状的,不包含字母表,这是因为每个字符定义了唯一的一个单字。正因为这样,为了构成一个字典,需要大量的字符。此外,两个或多个字符的组合可构成唯一的第三个汉字。作为一个例子,就汉语来说,字符数超过35,000。但是在通用的汉英字典中,列出了大约8,000个字符就足以应付现代汉语的用途了。就书面写汉语而言,每个字是用若干笔划来定义的,每个汉字的笔划数通常是1到26。笔划的定义为书写设备不离开书写面的情况下所作出的可读的标记或线段。此外在书面汉语中大约有40个单独的笔形,这40个笔形大小的变化使笔划类型数扩展到大约82种。在此之前,已经对打印汉语的编码作过若干种尝试,它们用的是诸如打字机或具有字处理功能的计算机。为了对这类系统提供数据的输入输出,采用了各种方法。寻求这些方法的目的是为了“简化”从字符参数到一组可管理的规则化信息这一难以愈越的“高山”。汉语的“简化汉字”是在简化方法方面所作的努力的有历史意义例子。按照这一简化方案,常用的汉字的笔划数从20笔减少到16或18划。简化系统的另一个例子是几乎在一个世纪前专利技术的汉字电报系统。在这个电报系统中,从整个汉语中选出了9,999个字,每个字赋于一个标识号。就电报系统而言,要求操作员记住数值化的字库。这种系统的一个缺点是提出了新的信息集。因而这个系统要求操作员有工作知识。该系统的另一缺点是,总的来看,它是一个抽象的系统。在分析该系统的抽象性时,标识号与它所代表的字符本身的可见性之间没有任何的联系,而这种联系本来可以使字符的识别和分类比较容易。此外,由于字符数的限制造成该系统的另一些缺陷,例如限制了交往中语言的细微表情、活力、含义、力量和色彩。没有这些特性,该语言就变得平淡无味了,这对广泛交往来说是不可取的。比较现代化的一些系统所作出的尝试是通过“部首”来简化搜索传统的汉语字典时的算法。为了提高操作员的工作效率,对部首作了简化或者说减少了数目。虽然“部首”是中文书写时的固有成分,但是用部首和其它笔划的组合来定义中文字符的所有尝试都失败了。利用部首和其它笔划的组合来搜索它所代表的字符时势必涉及要从字符特性菜单中作选择。得出确切字符的工作是乏味的和费时的,因而操作员的输出很少超过每分钟20到30个字符,而这20到30个字符充其量只能转换为10到15个词汇。在笔划的标准化方面也有过简化的尝试,所作的尝试是把“基本”的笔划数减少为14种或更少。这在效果上较适用于语言到机器,而机器到语言的适用性则较差。这种“简化”通常要求操作员还要懂得罗马字,要按照所专利技术的语言规则重新学习汉语,或者记住并应用需要理解的相应编码并在操作员这一边作出选择。还作过的一些尝试是利用汉语拼音来作文字处理。一般说来,由于两个难以克服的困难使这些尝试失败了。一个困难是由汉语中的大量同音异义字造成的。另一个困难是由不同地区的中国人发音不同引起的。例如,按照官方汉语读写中文的广东人其发音就完全不同于其它地方的中国人。因此,希望有一种表意文字的处理装置和方法,它能以接近于罗马字处理机和计算机所能达到的效率,对表意文字进行编码和译码。希望在实现表意文字的高效率的同时不排除或更改整个汉字谱系中的任何字符,不限制该语言的能力,不导致该语言系统自身范围的缩小;或者不用学习外语、抽象编码或复杂的步骤。众所周知,无论过去和现在都是以非常有结构的、形式化的和接近于仪式那样的方式来传授汉语的书写的。中国人利用练习用的方框格来学习汉语的书写。练习用的方格被分为9个小方格,每个小方格再分为9个小方格。利用中文的练习用的方格作为基本的位置和比例指南,用笔划,即笔划的大小、笔形、笔位、笔序和笔数来讲授汉字。其结果是所有有文化的中国人都能直观地懂得正确地构成每一个汉字的确切方法和次序。每个汉字按照特定的、习惯的和标准的顺序书写时都有精确的笔划数,而且字中的每一笔对于其它各笔都有唯一的位置关系。每个汉字笔划的输入顺序就象线性语言中字母输入顺序那样严格,例如,在书写英语时,属于一个单词的“信息”是从左到右输入的,就象这些字母最后排列的顺序一样。虽然先写“in…tion”然后写“fon”等等,直到所有字母写完,是可以的,但是考虑到书写篇幅的节省、视觉的方向和物理响应等因素,强烈地希望采用通用的顺序方法。所以在汉语中,构成汉字的笔划顺序是固定的,好多人都这么说如果笔划和其位置是以不正确的顺序写下来的,这个字就显得象是孩子或不太懂汉语的人写出来的。而就线性语言而言,笔划结构的稍有变化是很自然的事情,它体现了不同人的书法特点,根本不会造成误解。所以说,有文化的中国人懂得构成汉字的笔划数、懂得写每一笔的正确而标准的顺序以及精确到1/81的确切位置。有文化的人还知道每一笔从何开始到哪结束;这一笔的属性或类型;它的形状和大小。本专利技术认识到同一个在阅读汉语时用的能够迅速地理解一个复杂汉字的过程可以被用来实现一个高效率的语言处理机。在所有汉字中,均存在一个基础的视觉组织原理。这个原理称做速记视觉模型识别器,它使肉眼能够借助于Gestalt右半脑功能迅速地辨认出每个认识的单字,而不需要去跟踪每一个笔划。这些速记式的视觉模型识别器十分显著地适合于充分利用肉眼的自然生理学和视力动力学。人们知道观察事物对复杂的人眼运动原理。譬如,在大英百科全书第七卷,人类,人眼和视力这一部分中的99-100页中清楚地描述了这一原理。中文书面语言的唯一而杰出的成就是对于汉字的视觉组织利用了人眼的自然的生理学和视力的动力学,从而使其能够比线性的罗马语系统更有效地起作用。中文的书写规定遵照且强化了上述的令人注目的视觉上的编码和解释系统。因此,速记式的视觉模型识别器能够及时地识别每一个认得的字符,不管它如何复杂。对于简单的汉字,例如中字,人眼不用跟踪其笔划或者说不用致力于它的模样的细微描述就能识别它,这一点是容易理解的。但是对于象国字那样的11笔的汉字或者象让字那样的24笔的字,眼睛看起来就费劲了,似乎只有通过视觉上的描述和冗长的肉眼运动才能理解。但是实际上,复杂字符的识别与最简单字符的识别一样简单。而且只要认识,对于复杂字符的识别并不比简单字符用更多的时间,更多的肉眼运动,也不用在视觉上费更大的劲。利用汉字练习方格内书写笔划的类型、顺序、位置和大小等特点来教如何书写汉字这种做法已经很久很久了。运用这些笔划方面的参数中的某一些,能够把中文的书面语变成有章法可依,从而指导计算机使用和文字处理。利用标明一个字符之特性的笔划,该字符本身可以自我标识。因此,关于肉眼的自然的视觉编码法和解释过程可以方便地移到计算机上。因此本专利技术的一个目标是给出一种新颖的和改进了的表意文字的处理方法和装置。本专利技术讲解了对于表意文字一种处理方法和装置,该语言的各个字符被编译到一个数据库并按照标志着特征的笔划编上索引,所标识的特征可本文档来自技高网...
【技术保护点】
在一个表意字符集中标识出一个被选择的表意字符的方法,此方法包括:提供一字符表示库,在所述的字符表示库中的每一字符表示代表着上述的表意字符集中的各自的表意字符,每个字符表示包含一组由所述的字符表示代表的各个表意字符的预先确定的结构 特征,关于各个字符的一组预先确定的结构特征对各个表意字符的预定的字符笔划中的每一笔均包含一组笔划特征,此外,为每一组输入的字符笔划提供一组输入信号,所述的输入信号对应于所选择的表意字符的至少两个笔划特征,每个信号对应于一个预先确 定的字符笔划,所述的一组输入字符笔划对于包含三划以上的表意字符来说,少于该表意字符的笔划总数。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:詹姆斯C门罗,斯蒂芬E罗伯茨,托马斯A诺克彻,
申请(专利权)人:中国商用机器公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。