本发明专利技术公开了一种基于笔划编码的印刷体汉字识别方法,包括如下步骤:(1)根据汉字笔划对汉字进行编码;根据编码结果建立笔划编码数据库;(2)提取汉字库中各字符图像的LBP特征;(3)使用svm分类器学习汉字的编码,以获得学习器;(4)使用所述学习器对待识别汉字的字符图像进行预判,获取笔划编码;(5)将预判获得的笔划编码与笔划编码数据库里所有的笔划编码进行匹配,匹配成功的笔划编码所对应的汉字即为识别结果;本发明专利技术公开的这种印刷体汉字识别方法,基于笔划编码进行汉字识别,使用特征学习的方法空间映射预判,笔划编码特征向量只由25位二进制编码表示,具有识别速度快,识别精度高的特点。
【技术实现步骤摘要】
本专利技术属于印刷体汉字识别
,更具体地,涉及一种基于笔划编码的印刷体汉字识别方法。
技术介绍
现有技术的印刷体汉字识别多基于均匀网格特征、弹性网格方向分解特征、梯度特征,LBP特征进行分析识别。其中,基于均匀网格特征的方法是以网格为单位进行的,个别像素差异不会对结果有很大的影响,该方法识别速度快,简单易行,但是对图像的质量要求很高,不易满足。而弹性网格方向分解特征法对不同的字体之间,笔划宽度,大小不固定的情况有着比较好的适应能力,但是该方法增加了对字符划分弹性网格的步骤,从而增加了耗时;基于梯度特征的方法是基于灰度图像上提取的,可以避免信息的损失,获得较高的识别率,但是需要通过sobel算子检测边缘,耗时不能满足实时需求;LBP特征算法简单,识别速度快,能够满足实时性要求,但是其特征不能良好的表示汉字字符,导致识别精度不高。目前,印刷体汉字识别技术的难点在于:其一,图像印刷质量较低、图像倾斜、以及字符粘连断裂等干扰都对特征提取造成了一定的影响,导致最后汉字识别率不高;其次,汉字的字符集非常庞大,常用的简体汉字集合大约为7000个,还不包括其他的大量生僻字的情况,大量的汉字使得一些简单的特征无法唯一的表示所有的汉字;这些特殊性都给汉字识别带来了较大的困难。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于笔划编
码的印刷体汉字识别方法,其目的在于解决现有技术识别精度不高、实时性较差的技术问题。为实现上述目的,按照本专利技术的一个方面,提供了一种基于笔划编码的印刷体汉字识别方法,包括如下步骤:(1)根据汉字笔划对汉字进行编码;根据编码结果建立笔划编码数据库;(2)提取汉字库中各字符图像的LBP特征;(3)使用svm分类器学习汉字的编码,以获得学习器;(4)使用学习器对待识别汉字的字符图像进行预判,获取笔划编码;(5)将预判获得的笔划编码与笔划编码数据库里所有的笔划编码进行匹配,匹配成功的笔划编码所对应的汉字即为识别结果。优选地,上述基于笔划编码的印刷体汉字识别方法,步骤(1)中,根据汉字笔划,为每个汉字生成一个唯一对应的25位二进制编码。优选地,上述基于笔划编码的印刷体汉字识别方法,根据汉字笔划对汉字进行编码的方法,具体如下:(1.1)判断汉字是否包含横竖撇捺折这五个笔划,若是,则将对应笔划的编码位标记为1;若否,则将对应笔划的编码位标记为0;由此生成二进制编码的第0-4位的编码;(1.2)将汉字图像区域均匀划分为2*2的区域;并按照从左到右,从上到下的顺序,依次判断各区域是否包含有横竖撇捺折这五个笔划;若是,则将对应笔划的编码位标记为1;若否,则将对应笔划的编码位标记为0;获得各区域的5位编码;按照上述各区域在汉字图像里从左到右,从上到下的顺序,将上述各区域的5位编码,依次对应到二进制编码的第5-9位、第10-14位、第15-19位、第20-24位;并与所述第0-4位二进制编码一起按照比特位顺序生成25位二进制编码;这个步骤,将汉字图像划分为2*2的区域,对笔划编码加上了汉字的空间分布信息,提高了对于汉字的分辨能力。优选地,上述基于笔划编码的印刷体汉字识别方法,其步骤(2)中对字符图像提取LBP特征向量的过程,包括如下子步骤:(2.1)对字符图像进行灰度化处理;(2.2)对灰度化处理后的字符图像进行图像分块,均匀划分为16*16个图像块;(2.3)获取灰度化处理后的字符图像中各像素点的LBP特征值;(2.4)根据各图像块内各像素的LBP特征值,获取LBP特征值直方图;对直方图进行归一化处理,将所有256种LBP值均等量化为32个等级,根据LBP特征值在32个量级中出现的频率,获取各图像块的32维的LBP特征向量;其中,LBP值由8位二进制组成,共有256种不同的值;(2.5)按照图像块在字符图像里从左到右,从上到下的顺序,依次将各图像块的LBP特征向量拼接起来,由此获得字符图像的16*16*32维的LBP特征向量。优选地,上述基于笔划编码的印刷体汉字识别方法,获取字符图像中各像素点的LBP特征值方法,包括如下子步骤:(2.3.1)在3*3的窗口内,以窗口中心像素点的灰度值为阈值,与相邻的8个像素的灰度值依次进行比较;若周围像素点的灰度值大于中心像素点灰度值,则将该像素点的位置标记为1,否则标记为0; L B P ( x c , y c ) = Σ p = 0 P - 1 2 p s ( i p - i c ) ]]>其中,(xc,yc)是指3x3邻域的中心元素,它的像素值为ic,ip是指邻域内其他像素的值;符号函数(2.3.2)对3*3邻域内的8个点进行比较,由此生成8位二进制数;将该8位二进制数转换为十进制;该十进制数即为该窗口中心像素点的LBP特征值,采用该LBP特征值来反映对应区域的纹理信息。优选地,上述基于笔划编码的印刷体汉字识别方法,其步骤(3)中使用svm分类器学习步骤(1)中获得的汉字的编码,以获得学习器,具体为:将步骤(2)获得的LBP特征向量,依次输入到25个svm分类器中,与汉字库中对应的笔划编码进行训练学习;使得每一位笔划编码对应的svm分类器形成对应的规则,可判断LBP特征向量对应的笔划编码位是0还是1,获得学习器。优选地,上述基于笔划编码的印刷体汉字识别方法,其步骤(4)使用学习器对待识别汉字的字符图像进行预判,获取笔划编码的方法,具体包括如下子步骤;(4.1)提取待识别汉字的字符图像的LBP特征向量;(4.2)将上述LBP特征向量输入到学习器中,预判出该LBP特征向量对应的25位笔划编码;这串笔划编码即为待识别汉字的字符图像所对应的笔划编码。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:(1)本专利技术所提供的基于笔划编码的印刷体汉字识别方法,其步骤(3)中使用特征学习的方法训练获得学习器,步骤(4)中使用学习器进行空间映射预判获取字符图像的笔划编码,步骤(5)中基于匹配的思想,将待识别字符的笔划编码与汉字库中字符的笔划编码进行匹配;对于拟搜索的汉字文本字符,可获得对应的笔划编码;然后将拟搜索的文本块图像进行字符切分,获得单个字符的图像,依次进行编号,获取
每个字符图像的笔划编码,将拟搜索的字的笔划编码与文本块图像中字的笔划编码进行对比,匹配成功即为搜索结果;实现了以字搜图;相比较而言,现有技术中的印刷体汉字识别方法是先进行简单的特征提取,然后进行训练分类,特征提取时的处理对象都是image图像,而无法获取一个txt文本字符的特征,因此无法进行后续的训练分类,进而无法实本文档来自技高网...
【技术保护点】
一种基于笔划编码的印刷体汉字识别方法,其特征在于,包括如下步骤:(1)根据汉字笔划对汉字进行编码;根据编码结果建立笔划编码数据库;(2)提取汉字库中各字符图像的LBP特征;(3)使用svm分类器学习汉字的编码,获得学习器;(4)使用所述学习器对待识别汉字的字符图像进行预判,获取笔划编码;(5)将预判获得的笔划编码与笔划编码数据库里所有的笔划编码进行匹配,匹配成功的笔划编码所对应的汉字即为识别结果。
【技术特征摘要】
1.一种基于笔划编码的印刷体汉字识别方法,其特征在于,包括如下步骤:(1)根据汉字笔划对汉字进行编码;根据编码结果建立笔划编码数据库;(2)提取汉字库中各字符图像的LBP特征;(3)使用svm分类器学习汉字的编码,获得学习器;(4)使用所述学习器对待识别汉字的字符图像进行预判,获取笔划编码;(5)将预判获得的笔划编码与笔划编码数据库里所有的笔划编码进行匹配,匹配成功的笔划编码所对应的汉字即为识别结果。2.如权利要求1所述的印刷体汉字识别方法,其特征在于,所述步骤(1)中,根据汉字笔划,为每个汉字生成一个唯一对应的25位二进制编码。3.如权利要求2所述的印刷体汉字识别方法,其特征在于,所述步骤(1)根据汉字笔划对汉字进行编码的方法,具体包括如下子步骤:(1.1)判断汉字图像是否包含横竖撇捺折这五个笔划,若是,则将对应的笔划的编码位标记为1;若否,则将对应的笔划的编码位标记为0;由此生成二进制编码的第0-4位的编码;(1.2)将汉字图像区域均匀划分为2*2的区域;并按照从左到右,从上到下的顺序,依次判断各区域是否包含有横竖撇捺折这五个笔划;若是,则将对应的笔划的编码位标记为1;若否,则将对应的笔划的编码位标记为0;获得各区域的5位编码;按照所述各区域在汉字图像里从左到右,从上到下的顺序,将所述各区域的5位编码,依次对应到二进制编码的第5-9位、第10-14位、第15-19
\t位、第20-24位;并与所述第0-4位二进制编码一起按照比特位顺序生成25位二进制编码。4.如权利要求1所述的印刷体汉字识别方法,其特征在于,所述步骤(2)中对字符图像提取LBP特征向量的过程,包括如下子步骤:(2.1)对字符图像进行灰度化处理;(2.2)对灰度化处理后的字符图像进行图像分块,均匀划分为16*16个图像块;(2.3)获取灰度化处理...
【专利技术属性】
技术研发人员:尤新革,李政,陈鹏旭,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。