一种手写文字的识别方法技术

技术编号:2931716 阅读:171 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种基于脱机识别方法和联机识别方法集成的手写文字的识别方法,其脱机识别方法主要包括对汉字笔画轮廓方向角特征的弹性网格特征提取技术以及线性判别分析(LDA)对高维特征降维;联机识别方法主要包括对汉字笔画方向特征进行模糊提取以及一种可变性较强的笔画模板弹性匹配方法;本发明专利技术大大提高了对连笔草书汉字的识别效果,不仅能识别规范书写的汉字,也能够对连笔草书汉字进行识别,故而可以让用户无限制地自由书写汉字,还可以提高手写输入时用户书写汉字的速度。

【技术实现步骤摘要】

本专利技术属于模式识别与人工智能
,特别是涉及一种手写文字图像识别处理方法。
技术介绍
汉字在线识别是指用户一边书写一边识别。一般是指用户通过手写输入设备(比如手写板、触摸屏、鼠标等)书写汉字,同时计算机将手写输入设备采集到的汉字书写轨迹转换为相应的汉字机器内码的识别技术。按书写限制的程度,一般可以分为限制性手写体(如限制笔顺,横平竖直,没有连笔),手写印刷体(指书写工整的汉字),行书手写体(指有部分笔画变形和连笔的汉字),草书手写体(指大部分笔画变形以及几乎完全连笔书写的汉字)。这几种手写体的识别难度依次增大,以草书手写体的识别难度最大。因为草书手写体的汉字字型通常已经和原汉字字形有了较大的不同,不仅表现在笔画的变形上,还表现在汉字结构的变形上。这些变形一般是由于书写者为了达到更快、更流畅的书写速度而在原有汉字字形的基础上改变而来的。因此在以上几种手写体汉字中,以草书手写体的书写速度最快,因而这种书写方式也是人们最乐于接受的一种书写方式。已有的汉字识别方法大多数是基于汉字笔画来进行识别的,比如中国专利技术专利98106953.3号专利《手写汉字识别方法及装置》、98108373.0号专利《文字识别装置及文字识别方法》以及98122949.2号专利《一种无笔画顺序的手写字符辨识系统》等专利使用的方法都依赖于笔画的正确提取与识别,而草书手写体汉字不但连笔书写,大部分笔画变形严重,而且有很多短的笔画会被省去,因此以上识别方法无法很好地解决草书手写体汉字的识别。在中国专利技术专利93101683.5号专利《自由书写联机手写汉字识别方法及其系统》中也提到已有的基于笔画或笔段的字形结构识别方法很难处理分解不出笔段的汉字,该专利的特征在于将两种识别不同书写风格汉字的识别方法相结合,一种用于识别楷书和部分行书,另一种识别不规范连笔字,而该专利提出的识别方法的结合方式是采用一种串行的方式,即先用前种方法识别,拒识以后才用后一种方法识别。这种方法的不足之处在于针对不规范连笔字的识别只采用了一种识别方法,而其采用的串行结合的识别方式的不足在于如果某个草书汉字没有被拒识,则不会用后一种识别不规范连笔字的识别方法进行识别。
技术实现思路
本专利技术的目的在于克服上述汉字手写识别方法的不足,提供一种通过脱机识别方法和联机识别方法相结合的手写文字识别方法。本专利技术采用的技术方案为,通过脱机文字识别方法和联机文字识别方法相结合对手写文字进行识别,所述脱机文字识别方法包括(1)、重构手写文字图像;(2)、通过文字图像提取文字笔画的轮廓方向角特征;(3)、选取脱机识别候选字;所述联机文字识别方法包括 (A)、提取手写文字时序点的联机笔画方向特征;(B)、选取联机识别候选字。所述步骤(1)重构手写文字图像通过采集手写文字时序点轨迹坐标,并将时序点轨迹线性归一化到固定大小,再用等宽的线段依次连接所有相邻的时序点,从而重构出原手写汉字的图像。所述步骤(2)提取文字笔画的轮廓方向角特征通过把汉字图像在水平和垂直两个方向上的直方图投影画出4×4的全局弹性网格,使得每一列网格在水平方向上的直方图投影累积量相等,每一行网格在垂直方向上的直方图投影累积量相等,再根据每个网格水平和垂直两个方向上的直方图投影在网格内画出2×2的局部弹性网格,形成64个局部弹性网格,再从这64个网格中提取出文字的轮廓,然后对每个弹性网格单元内的轮廓在4个方向上进行轮廓方向角特征提取,得出轮廓方向角特征。所述4个方向为横撇、撇竖、竖捺、横捺。对汉字图像经过轮廓提取后,对字符轮廓点P的8邻域通过θ(p)=tan-1(DxDy)]]>计算该轮廓点的轮廓方向角,其中Dx、Dy是p点在x轴和y轴上的梯度函数,且Dx、Dy定义为Dx=(p6+2p7+p8)-(p1+2p2+p3),Dy=(p3+2p5+p8)-(p1+2p4+p6)而轮廓点p的8邻域为 ,方向角的取值范围为0到180度,整个文字64个弹性网格单元总共得到256维轮廓方向角特征矢量。所述步骤(2)还包括线性判决分析(LDA)对轮廓方向角特征进行降维,将原先的256维数降为128维数。所述步骤(3)选取脱机识别候选字通过计算128维轮廓方向角特征与模板中所有文字特征的欧式距离,选出距离最小的前100个候选字作为脱机识别候选字。所述步骤(A)提取手写文字笔画时序点的方向特征通过对手写文字笔画时序点按固定距离进行采样,又定义采样后的特征点的笔画方向角为前一特征点指向该特征点的方向角度,范围为0到255,线性对应0到359度,然后计算每个特征点的笔画方向角,作为该特征点的联机笔画方向特征。所述步骤(B)选取联机识别候选字通过动态时间规整(DTW)的方法对联机笔画方向特征矢量与步骤(3)得出的脱机识别候选字的多种不同笔顺的模板特征矢量进行弹性模板匹配,计算脱机识别候选字与联机笔画方向特征的匹配相似度,其中,DTW弹性匹配的局部距离函数采用如下关系式计算d(i,j)=(Δθ)20≤Δθ≤64-(Δθ-128)2+819264≤Δθ≤128,]]>而Δθ=|θi-θj|0≤|θi-θj|<128256-|θi-θj|128≤|θi-θj|<256,]]>i和j分别为当前匹配的两特征值在各自特征序列中的位置,θ为轮廓方向角特征;然后再将100个脱机识别候选字按其与联机笔画方向特征匹配相似度由大到小排序,组成100个联机识别方法候选字。本专利技术通过对脱机识别候选字和联机识别候选字进行集成完成对手写文字的识别,其算法称之为首选识别结果选择器,具体包括如下规则(I)、计算脱机识别候选字中每个候选字的位置分数Si, Si=i*exp(1-i)*D+i′*exp(1-i′)*C其中i为该候选字在脱机识别候选字序列中的位置,范围为1到100,i’为该候选字在联机识别候选字序列中所处的位置,范围也为1到100,C和D为两个常数;(II)、计算联机识别候选字中每个候选字的位置分数Tj,Tj=j*exp(1-j)*C-Pj其中j为该候选字在联机识别候选字序列中的位置,范围为1到100,C为常数,且与步骤(I)的C相同,Pj为预先定义好的惩罚分数,根据j的不同而不同;(III)、根据联机识别候选字的匹配相似度选择可信度区间1到M,位置在M以后的候选字认为是不可信的候选字;(IV)、将脱机识别候选字与联机识别候选字序列合在一起按照每个候选字的位置分数从大到小排序,得出集成候选字序列;(V)、选取一个候选字作为识别结果,通过定义Ai为联机识别候选字,Bj为脱机识别候选字,i和j的范围为1到100,分别对应100个候选字,如果A1=B1,则选择A本文档来自技高网
...

【技术保护点】
一种手写文字的识别方法,其特征在于通过脱机文字识别方法和联机文字识别方法相结合对手写文字进行识别,所述脱机文字识别方法包括:(1)、重构手写文字图像;(2)、通过文字图像提取文字笔画的轮廓方向角特征;(3)、 选取脱机识别候选字;所述联机文字识别方法包括:(A)、提取手写文字时序点的联机笔画方向特征;(B)、选取联机识别候选字。

【技术特征摘要】

【专利技术属性】
技术研发人员:金连文龙腾
申请(专利权)人:华南理工大学
类型:发明
国别省市:81[中国|广州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1