本发明专利技术公开了一种基于笔段网格的汉字字形信息表示方法、手写汉字输入法和无需训练的汉字识别法。汉字字形信息表示方法是设定一个由N×N个小矩形组成的笔段网格,笔段具有有线或无线两种状态,有线状态笔段的集合表示一个字形。输入方法是在笔段网格中描画笔段,计算机获取所有描画过的笔段并将其状态标为有线。识别方法是:输入待识汉字的笔段网格字形,将它与比对汉字信息库中每个汉字的笔段网格字形进行基本笔画和复合笔画的配对,获得最优的笔画配对方式,计算出距离,把距离最小的前M个比对网格字形作为候选识别结果输出,供输入者选定。本发明专利技术的方法可以按原貌输入和识别各种汉字,包括错字、异体字等,促进汉字的教学和研究。
【技术实现步骤摘要】
本专利技术涉及一种基于笔段网格的汉字字形表示方法、手写汉字输入方法及 汉字识别方法,无需事先学习训练、无论该字书写是否正确,均可按书写原貌 将汉字输入到计算机内并被计算机识别。本专利技术属于模式识别、人工智能和汉字信息处理
技术背景随着中国经济的飞速发展,对外经济、文化交流的不断深入,越来越多的 外国人对中文感兴趣,学习中文。在汉语教学的过程中,外国留学生迫切地需要一种无需训练、无需辨析汉 字结构、无需知道读音即可使用的计算机汉字输入法。目前的汉字输入方法主 要有拼音输入法、字形输入法和手写输入法。拼音输入法要求输入者必须能够 准确地拼出要输入字的拼音;字形输入法要求输入者必须熟练地掌握五笔字形 或其他某一种字形规则;手写输入法要求使用者必须能够正确理解汉字字形结 构而且书写要比较规范,否则计算机无法识别。因此,目前这三种汉字输入方 法都不适合外国留学生使用。此外,汉语教师迫切需要一种汉字字形处理工具,能将外国人写的正字和 错字按原貌输入计算机,让计算机对字形书写错误进行错误自动判断、检索和 定量分析,对错字和正字、错字和错字、正字和正字进行字形相似度的自动比 对,目前还没有这样一种工具。再者,在古籍汉字的历史文化研究过程中,需要将古籍整理成各种电子或 网络出版物。在将古籍汉字录入到计算机内时,许多异体字在计算机的字符集 内没有,目前的办法是用一些通用字、规范字来代替。这样做虽然保留了古籍 的内容信息,但是丧失了很多字形原貌信息,不利于古籍汉字的历史文化研究。 所以,需要一种汉字输入方法,可以使输入者把古籍汉字的字形按原貌直接进 行录入,并需要有工具,对于古籍汉字在不同历史朝代的字形演变特征进行比 对、分析和研究。中华文化中还有一些拼合字,它们由一个词组中的多个字拼合而成,表示 某种民俗文化意义,但整体不一定有读音。这种字形的计算机处理对于中华民俗文化的研究很有意义,但目前也没有输入和比对拼合字的手段。这些问题根源在于现有的汉字处理技术存在问题,具体分析如下 目前,任何能输入汉字的计算机,其系统内部都是有一个有限汉字的字库,字库中每个汉字存储的信息是机内码和字模。内码用以存储、处理和交换,字模用以在屏幕或打印机上输出,内码与字模有一一对应性。汉字输入的人机界面主要有两种键盘输入和手写输入。另有语音输入,但技术上不成熟。键盘输入方式需要对国际标准字库中的每一个汉字设计输入码给用户使 用。用户在自己的头脑里把要输入的汉字转为输入码,借助键盘输入计算机。 计算机内有一个输入码到字库内汉字内码的对照表,可将输入码映射为内码并进而映射为字模。这种映射关系可能是一对多的,此时需要用户来选定。不在 国际标准字库中的字由于未设计输入码,无法输入计算机。手写输入方式需要收集字库中每一个汉字的书写特征存入计算机中。用户 使用特定设备写汉字,计算机获得书写笔迹的图像,手写输入软件将这一图像 的特征与字库中已有汉字的书写特征进行比较,选择最相近的几个提交给用 户,让用户最终选定。目前流行的手写输入识别方法允许用户相当随意地书写 汉字,包括可以写连笔字。这样虽然给用户带来一定的方便,但也付出了很大 的代价。不同的用户写同一个字,其字形骨架会有很大差别,只有一些基本特 征相同或相似。为了使输入系统能为各种不同的用户服务,就要事先把各种不 同用户写同一个字的相同特征提取出来,这需要收集大量样本用来训练。而且,如此的要求也就使系统所能识别的汉字只能局限于一个预定的字库范围内。无论哪一种输入方式,输入软件都必须知道计算机字库中有哪些汉字,预 先建立每个汉字的特征信息(输入码或字形图像特征),以便同用户的输入信 息进行比对。要把错字、异体字、拼合字等输入计算机,就需要扩充计算机内的字库。 计算机系统提供了造字功能,可以用来扩充字库。用户使用造字软件,将不在 字库中的汉字的图像输入计算机,计算机将这个图像转换成字模,并给它分配 一个机内码。这种软件扩充了字库,但无法将新字的特征信息加入到输入软件 中去。以至于只有造字者知道新造了什么字,他自己可以直接用这个字被分配 的内码来输入这个字,其他用户却不知道这个字已经加进字库中去了,即使知 道加了这个字,也不知道这个字被分配的内码是什么,因此无法输入这个字。这样的造字功能的另一个问题是,在为字库造字的过程中,可能会出现同一个字造了两次甚至多次的情况,使字库越来越冗杂,使机内码失去了表示字 形的唯一性,从而给文本检索等处理带来混乱。问题的原因是在于计算机内唯 一包含字形的信息是字模,但字模中不仅包含了字形骨架信息,还包含了书法 信息、造字者对字形的理解和表达习惯等多种混合信息,十分复杂,以至难以 自动判断两个字模是不是同一个字。从以上分析可以看出,不能把任意汉字输入计算机的原因, 一是输入软件 的封闭性, 一是计算机汉字处理软件未单独存放汉字字形骨架信息。由此也可以看出解决这个问题的一种方法,就是为汉字设计一种字形骨架 的表示法。这种表示法一方面有足够大的区别性,使得不同字形能够被区分开 来,另一方面又足够规范和简单,使计算机能根据这个信息判断两个字形的异 同以及相似程度。有了这样的字形骨架表示法之后,对汉字输入识别系统的字库中每个字来 说,除了存放机内码和字模以外,还要存放它的字形骨架信息,并在字形骨架 信息与机内码、字模之间建立一一对应关系。在这样的安排之下再设计一种输 入方法和识别方法,用户就可以把字形骨架信息输入计算机,而计算机就能将 这个信息同字库中己有汉字的字形骨架信息进行比对,确定这个字的内码和字 模,进而可以对这个汉字作各种处理。本专利技术就是依据这样的思想设计实现的。
技术实现思路
本专利技术的第一个目的是提供一种字形表示方法,能描述各种可能的汉字字 形的骨架信息。这种表示法一方面有足够大的区别性,使得各种可能字形的不 同之处能够被区分开来,另一方面又足够规范和简单,使计算机能根据这个信 息判断两个字形的异同以及相似程度。本专利技术的第二个目的是提供一种基于上述字形表示方法的无需学习即可 使用的手写汉字输入方法。用户无需知道字的读音,也无需对于汉字结构具有 背景知识,只要能把汉字看成是一些线条组成的图形,把这些线条描画出来, 就能输入汉字。本专利技术的第三个目的是提供一种基于上述字形表示方法和输入方法的手 写汉字识别方法,该汉字识别方法无需进行大样本集合的训练。只要用户把汉 字字形描画式地输入计算机,系统就可以将这一可能的汉字字形与字库内已有 汉字的字形进行对比,从而可以对各种正字、错字、古籍异体字、拼合字进行 比对、识别,而且可以从汉字整字中识别出不同笔画、部首等构字元素,对汉字字形特征进行深入定量地分析和研究。为实现上述目的,本专利技术采用以下技术方案:本专利技术具有以下优点1、 输入方式自然。使用者不需要事先学习和训练,只要按照手写输入板 上或屏幕上设定的网格笔段描画出想要输入的汉字,就能把字输入进去。2、 输入的汉字集合是开放的。无论是正字、错字、异体字还是拼合字, 都可以将该字按描画原貌输入到计算机内。3、 无需训练就能识别。由于本专利技术在手写输入汉字过程中已经规整了汉 字的笔画形状,不同人书写同一汉字得到的笔段网格字形之间存在的变形差异 不会很大,因此,不需要为适应一个字的各本文档来自技高网...
【技术保护点】
一种基于笔段网格的汉字字形表示方法,其特征在于:该方法包括以下步骤:步骤1:首先,设定一个大矩形区域,将该矩形区域划分为大小相等的N×N个小矩形区域;步骤2:在每个小矩形区域内,设定笔段,构成用来描画汉字的笔段网格;步骤3:将笔段网格内的笔段设定为有线笔段状态和无线笔段状态;该笔段被描画过,则为有线状态;没有被描画过,则为无线状态;步骤4:通过有线笔段集合表示汉字的字形。
【技术特征摘要】
【专利技术属性】
技术研发人员:宋柔,林民,
申请(专利权)人:北京语言大学,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。