本发明专利技术涉及一种字符识别方法与系统。抽取字符图象的笔划特征,直接利用笔划特征对字符进行分类和匹配识别。字符的结构词义采用框架形式的知识表达,框架中强调有重要影响的笔划和笔划连接,忽视作用不大的笔划,给出允许畸变的笔划方向以及为辨析相似字所必须的比较条件,十分有利于突出字符间的区别又简化了匹配识别的过程。较之目前通用的字符识别技术具有更高的识别率和适应能力。(*该技术在2012年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及一种字符识别方法和系统,尤其适用于识别手写体汉字和多字体印刷汉字的识别方法。国内外已经研制的若干字符识别系统,主要采用对字符图象的象元分布抽取特征参量,并以此参量为依据进行分类和匹配识别的字符识别方法。例如,1989年2月8日中国专利审定公告CN1003257B的字符识别系统,1990年11月21日中国专利审定公告CN1010512B所公开的技术。因此,通常的技术有如下的问题1.不能直接反映字符的结构特征,因而忽视了笔划结构作为字符构成的本质特点。2.大字符集的情况下难以达到高的识别率。3.区分形态相似或笔划结构复杂的字符十分困难。4.在手写体字符情况下,字形书写变化很大,所抽取的特征参量分散性大,且需采用高维特征矢量。本专利技术的目的是创造一种字符识别方法,力求准确地抽取字符图象的笔划特征,充分反映字符的结构本质;直接利用字符的笔划结构词义对字符分类和匹配识别;运用知识表达字符的结构词义,达到简化字符的匹配识别过程,提高辨认相似字符的准确性和识别方法的适应能力。本专利技术所涉及的字符识别方法包括对书写有字符的页面扫描获得字符图象为第一步骤;字符图象二值化、字符切分及规格化为第二步骤;抽取字符二值化点阵的笔划结构特征为第三步骤;由结构特征求得分类特征码以确定所属分类为第四步骤;将结构特征与所属分类的字符模型进行匹配并识别之为第五步骤;将识别结果转为可见输出为第六步骤。所述的第三步骤包括1.字符结构模式作为模式整体可以分解为元字符、笔划和笔划元三种子模式。元字符是构造字符的字符。笔划分解为直线段即为笔划元。笔划元是最低级子模式,用作描述字符模式的结构基元,其结构特征包括笔划元中心坐标、长度、方向和连接关系。2.对字符点阵作一次简单的扫描,检测每一象元在8个方向上与相邻象元的连接情况,将其区分为笔划的始端、终端、连接区或普通笔划元素并标记相应的符号,从而将字符点阵平面(CDP)转换成字符象元属性平面(CAP)。3.除属于连接区的象元以外,在CAP上处于边缘点的象元,计算其“︱”、“-”、“/”“\”四个方向上连续的象元个数en,en最大的方向取作该边缘点的纤维主方向。在主方向上的en值称作纤维长度,纤维长度上连接的象元赋以主方向相应的权值。各边缘点的纤维可能相交形成交织区,交织区的象元其方向权值累加。所有边缘点完成上述计算后即可求得字符纤维结构图(CFP)。4.对照CAP连接区的方向特征,除去CFP中的噪声纤维,将属于“︱”、“-”、“/”“\”四个方向的纤维分别置于v、h、s、b四个平面中,即可求得每一笔划元的中心坐标、长度和方向。5.利用CAP的端点和连接区特征,结合已经求到的笔划元中心坐标、长度和方向可以计算笔划元的连接关系。所述的第四步骤包括1.应用字符外围结构的四角特征和四边特征作为字符的分类特征,在二个层次上进行外围结构的描述和分类。由已知字符的四角特征和四边特征建立预分类字典。2.在字符的笔划平面上(CSP)以平面的四个角为中心,搜索距离四角最近的笔划元。3.判断最近角点的笔划元方向属性,并分成横、竖、撇、捺、角、交六种类型,赋以相应的编码,称作角码。由四个角码组成的码串构成字符的第一分类特征。4.在CSP上由中心引出射线,按顺时针扫描,获得射线与字符最外层笔划元所组成的多边形作为字符外围轮廓,抽取其超过某一阈值的凸点,分别计数每一边的凸点数求得四边的码串构成字符的第二分类特征。5.查找预分类字典中与待识字符四角码及四边码相同的同类字符代码,完成第四步骤。所述的第五步骤1.字符结构词义采用框架形式的知识表达,由字符框架表达每一字符模式。在框架中,构成字符的全部笔划元分别在h、v、s、b四个平面上分组排序,并列出必要的笔划连接关系和相似字之间笔划元特征的辨析条件。在字符框架中参与分组排序的每一个笔划元由笔划元框架描述。笔划元框架表达笔划元之正常方向、中心位置和长度。此外,还给出该笔划的权重和允许的畸变方向。字符框架中的必要连接关系和笔划元框架中的权重属于运用知识表达、强调对识别结果有重要影响的笔划元及其连接关系而忽视那些冗余的或影响不大的成份。相似字辨析条件和允许的畸变方向使得识别过程既能顾及在结构复杂而且数量庞大的字符集中辨认不同字符间笔划结构的细微差别,又能对变化万千的字形具有良好的适应能力。2.取出预分类同类的字符模型,依次与待识字符的笔划元特征进行搜索匹配、计算属性距离,若距离小于某一阈值认为匹配成功,否则认为匹配失败。如此过程在每个模型的四个笔划元子平面上依次执行直至结束。3.按照笔划元框架指定的权重计算笔划元属性的加权距离。对字符结构起关键作用的笔划元由于有最高的权重而便于区分字符间笔划的细微差异,影响不大的笔划元有较小的权重,从而达到忽略冗余笔划的目的。4.匹配未成的笔划元中若存在容许畸变方向的、转向相应方向的样本子平面搜索匹配。5.对必要的连接关系进行检测,不满足这一要求时退出匹配候选列。6.检测笔划元比较和相似字符辨析条件,不满足要求时退出匹配候选列。7.匹配总距离在阈值范围内的所有字符,按距离从小到大排序,取出最小的几个作为识别候选字,若无识别候选字以拒识处理。本专利技术具有的独特优点可概括如下准确抽取笔划结构特征从而充分反映了字符的本质特点。直接利用笔划特征描述字符之结构骨架而以笔划属性矢量适应字符形态的种种变化,实现字符分类和匹配识别。对字符的结构词义模型运用框架形式的知识表达,既便于强调重要的笔划或笔划连接关系,又可忽视对识别字符影响不大的笔划,十分有利于突出字符间的区别简化匹配识别过程。框架中表达了相似字的辨析条件,使得辨认字符间细微的笔划差异成为可能,例如风、凤;士、土;澜、谰……,从而极大地提高了字符的识别率。在笔划框架中还给出允许畸变的方向,使得识别的灵活性和适应能力显著提高。与现有的技术比较,既避免统计方法中因采用高维特征存在特征选择和模式可分性方面的困难而限制识别率的提高。也避免了结构方法难以适应字符形态多变的缺陷。本专利技术的实施例由图文扫描仪、微型计算机主机、显示器、打印机、磁带机及有关接口板组成。扫描仪包括手持扫描在内各种型式均可适用。微型计算机主机使用DOS操作系统最为通用。磁带机不是必要的设备可以作为主机存储器的扩充或后备自由选用。系统的工作原理结合下面的附图逐步说明。图1是实施例的系统方块图,书写在纸张上的字符用图文扫描仪扫描页面,每页扫描得到一幅图象文件,按所选的灰度阈值转换成二值化(0,1)点阵,经接口板存入计算机内。由页面切分程序模块搜索点阵的起始行,行总数,字首和字数自动完成字的切分,经规格化处理后得到每个字符的点阵(例如32×32或64×64字符点阵),抽取每个字符点阵的笔划特征,进行分类、匹配进而识别该字符至存于机内的字符点阵全部识别完毕,以机内码表示识别结果。最后以标准字形显示或打印出书写在样张上全部字符的识别结果,或者继续进行必要的编辑。图2是结构特征抽取的流程图,以规格化处理后的字符点阵(CDP)作为该流程的起点,扫描CDP的行和列,检测在行和列二个方向取值为1的连续象元数X,记录出现次数最多的X作为笔划宽度wi,在行和列方向用笔划宽度量连续象元素不足wi时,分别用“︱”和“-”标记该象元。在“-”象元的两侧本文档来自技高网...
【技术保护点】
一种字符识别方法,对书写有字符的页面扫描获得字符图象为第一步骤;字符图象二值化、字符切分及规格化为第二步骤;抽取字符二值化点阵的笔划结构特征为第三步骤;由结构特征求得分类特征码以确定所属分类为第四步骤;将结构特征与所属分类的字符模型进行匹配并识别之为第五步骤;将识别结果转为可见输出为第六步骤,本专利技术的特征是:所述的第三步骤包括:(1)字符结构模式作为模式整体可以分解为元字符、笔划和笔划元三种子模式,元字符是构造字的字符。笔划分解为直线段即为笔划元。笔划元是最低级子模式,用作描字符模式的结构基元,基结构特征包括笔划元中心坐标、长度、方向和连接关系。(2)对字符点阵作一次简单的扫描,检测每一象元在8个方向上与相邻象元的连接情况,将其区分为笔划的始端、终端、连接区或普通笔划元素并标记相应的符号,从而将字符点阵平面(CDP)转换成字符象元属性平面(CAP)。(3)除属于连接区的象元以外,在CAP上处于边缘点的象元,计算其“丨”、“一”、“丿”、“丶”四个方向上连续的象元个数en,en最大的方向取作该边缘点的纤维主方向。在主方向上的en值称作纤维长度,纤维长度上连接的象元赋以主方向相应的权值。各边缘点的纤维可能相交形成交织区,交织区的象元其方向权值累加。所有边缘点完成上述计算后即可求得字符纤维结构图(CFP)。(4)对照CAP连接区的方向特征,除去CFP中的噪声纤维,将属于“丨”、“一”、“丿”、“丶”四个方向和纤维分别置于v、h、s、b四个平面中,即可求得每一笔划元的中心坐标、长度和方向。(5)利用CAP的端点和连接区特重,结合已经求到的笔划元中心坐标、长度和方向可以计算笔划元的连接关系。所述…。...
【技术特征摘要】
【专利技术属性】
技术研发人员:杨源远,路浩如,杨震,杨平勇,李璇,
申请(专利权)人:浙江大学,
类型:发明
国别省市:33[中国|浙江]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。