在字符识别系统中选取候选字符的方法技术方案

技术编号:2936906 阅读:211 留言:0更新日期:2012-04-11 18:40
一种在字符识别系统中选取候选字符的方法,包括:字符特征提取步骤,以字符的串长度信息为基础,提取字符的特征;字符分布提取步骤,在提取的字符特征基础上确定字符的位置信息;字符分类基准数据存储步骤,在存储器中存储作为字符分类基准数据的确定的字符位置信息;以及候选字符选取步骤,选取属于存储在存储器中的与要识别的输入字符的特征相对应的一个具体位置的字符作为输入字符的候选字符。与现有技术相比,依照本发明专利技术,字符识别时间为减少,而字符识别的准确率为增加。(*该技术在2012年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术总的来说涉及,即利用统计的方式识别字符,更具体地说,涉及这样的,它能够在串长(run-lengths)的基础上对组合型字符如朝语,汉语字符通过选取字符特征,迅速准确地选出候选字符。根据现有技术的一种统计字符识别系统中对候选字符的识别是这样的,首先根据所有字符得出基本特征,然后,根据基本特征的相似性将这些字符划分成树形结构。然后,输入要识别的字符,得到输入字符的基本特征,然后在基本特征的基础上,沿着预先存储的树,找出对应于输入字符的候选字符。也就是说,在树上与要识别的输入字符相对应的位置的字符(或字符组)被确定作为输入字符的候选字符。对于根据所有字符获得基本特征以及根据基本特征的相似性将这些字符分成树形结构的方法,下面几种是人所周知的,即利用网格字符分类法,根据字符的象素距离利用平行特征的字符分类法,以及利用时间/频率变换的字符分类法等。参见附图说明图1,这里显示了根据现有技术利用网格对字符分类的方法。如该图所示,每个字符都被n×n个格子形空间所覆盖,这些格子形空间称为网格。包括在单个网格中的每个字符的象素(例如黑色象素)的个数被计算出来。计算出的数值被作为字符的基本特征。在对应的网格单元中即可得出字符的基本特征的相似性。然后,这些字符被划分成如图2所示的在基本特征相似性的基础上形成的树形结构。例如,n×n个网格都标上数字,而且每个字符都被标有数字的n×n个网格所覆盖。根据从1到NN(在n×n个的情形)的每个相同数字的网格的基本特征,计算出不同字符的相似性。在相似性的基础上,将这些字符划分到同一类别的字符中。划分到同一类别的字符再分成从第2个到第N×N个的组,从而形成如图2所示的顾大的树形结构。计算相同数字的每个网格的字符的相似性的方法有几种,主要是利用费雪(Fisher)定律,欧氏(Euclidian)距离,马氏(Mahal-anobis)距离等进行计算。因此,根据输入的未知字符,将输入字符覆盖网格,该网格已标有数字,然后根据网格中输入字符的象素数,得出输入字符的基本特征。根据该未知字符的基本特征,在先前限定的如图2所示的树形结构中检索,找出属于未知字符的在树中的位置。当与未知字符最相似的树位置被找到后,在选取的树位置的字符(字符组)即被确定为未知字符的候选字符。另外,可以选取少数最确定的特征来取代使用n×n个的总体特征,这样可以减少树的数量。并可使字符分类实现高速。参见图3,这里显示了在字符象素距离基础上利用平行特征的字符分类法。如该图所示,从围住每个字符的框的左边到每个字符的第一个象素(例如黑色象素)被以线的单位选取出作为分类特征(平行特征)。因此,上述方法即是以上述方式得到的分类特征为基础对字符分类。在该方法中,测量点是根据在限定字符的框上互相之间以恒定的间隔选择的,直线由字符限制框的测量点画到字符的第一象素。直线的长度作为字符的基本特征。参见图4,这里显示了利用时间/频率变换的字符分类方法。如该图所示,上述方法强调每个字符都具有的特征,利用付氏(Fourier)变换,或拉氏(Laplace)变换在二维平面上将时域。因此,上述方法就是根据由上述变换强调的字符特征来区分字符。但是,利用网格的字符分类法遇到的困难是找出分割并覆盖一个字符的最有效个数的网格。尽管分割的网格的个数越多,字符分类越准确,但网格个数增加会引起更多的时间损失用于获取相似性。从而使字符识别速度降低。由于这个原因,在朝语的大部分情况下,主要使用8×8(64)个网格,而在汉语的情况下,主要使用16×16(256)个网格。如果个数高于所述,则字符识别速度下降。利用网格的字符分类法还有另一个不利之处,即当字符趋于失真变形时,字符可能被误认,由于树形结构是先前限定的,而字符的候选字符是在树形结构的基础上确定的。也就是说,在某个字符趋于失真变形时,一个或多个字符网格的特征超出临界值,树形结构中搜索出一个非正常的树位置。因此,搜索落入该局部最小值,造成字符的误识。而且,利用网格的字符分类法还有一个缺点,就是由于较高次的网格增加了特征的个数,所以需要更多的时间进行处理。另外,由于在输入字符的周围混有干扰,在字符限制框的大小不同于输入字符的原来大小时,因在网格的位置上的变化,输入字符误识的可能性变高。如图3所示的利用平行特征的字符分类法的优点在于与利用网格的字符分类法比,特征个数被减少了。这可使树形结构简化并减少字符识别处理时间。但是,利用平行特征的字符分类法的缺点在于字符分类特征的分支的个数很小。这可造成字符分类不准确。与利用网格的字符分类法类似,由于当字符中有干扰时,字符限制框的大小是变化的,在对字符限制框定位中会引起瓶颈效应。利用时间/频率变换的字符分类法的优点在于字符的特征可确切地分类,但是缺点是在变换中需要较长时间。而且在组合型字符如朝语、汉语等字符的情况下,由于字符的结构问题,特征位置不能确切地区别。因此,本专利技术就是考虑到上述问题而作出的,本专利技术的目的在于提供一种在字符识别系统中选出候选字符的方法,与现有技术相比它能够减少字符识别时间并增加字符识别的准确率。按照本专利技术,上述目的可以通过这样一种在字符识别系统中选出候选字符的方法实现,包括在字符的串长信息基础上取出字符的基本特征的取出字符的基本特征的步骤;在取出的字符的基本特征的基础上确定字符的位置信息的分布选取步骤;在存储器中将字符的确定的位置作为字符分类基准数据器存储的字符分类基准数据存储步骤;取出属于在存储器中存储的与要识别的输入字符相对应的位置的一个具体的字符作为输入字符的候选字符的候选字符选取步骤。本专利技术的上述的以及其它的目的、特征和优点从下面的结构附图的详细描述中将会得到更好的理解图1显示了根据现有技术的利用网格的字符分类方法,其中字符被8×8个网格所覆盖;图2显示了根据现有技术的树形结构;图3显示了根据现有技术的利用平行特征的字符分类法;图4显示了根据本专利技术的利用时间/频率变换的字符分类方法;图5为根据本专利技术的统计字符识别系统的方框图;图6为根据本专利技术显示字符特征选取操作的流程图;图7为根据本专利技术显示候选字符选取操作的流程图;图8为根据本专利技术显示统计字符识别控制操作的流程图;图9为根据本专利技术显示X-Y坐标上字符特征图;图10显示了根据本专利技术的以X-Y矩形图基础得到的字符分布空间;以及图11显示了根据本专利技术最终得到的候选字符区域。在传统的统计字符识别方法中,对输入字符的识别是通过从所有的预先存储的字符中选取出与输入字符最相似的特征。因此,对于组合型字符,如朝语和汉语,需预先存储的字符数达14000个,其中2350个是目前使用的。基于这个原因,需要大量时间将输入字符与预先存储的字符逐个比较。这造成了识别速度的降低。而且也需较大容量的存储器。因而,本专利技术就是针对以上问题而提出的。根据本专利技术,作为要被识别的客体的所有字符的特征首先被选取出来,然后,这些字符被分成具有相同特征的组。分成具有相同特征的组的字符被在组单元中预先存储。然后,输入要识别的字符,随后,输入的字符与相同特征的字符组的代表值比较以找出与输入字符最相近的字符组。最相近的字符组找到后,属于找到的组的字符被选出并划分为输入字符的候选字符。然后,通过将输入字符的特征与候选字符的每一个特征比较,本文档来自技高网...

【技术保护点】
一种在字符识别系统中选取候选字符的方法,包括:字符特征提取步骤,以字符的串长信息为基础、提取字符的特征;字符分布提取步骤,在提取的字符特征基础上确定字符的位置信息;字符分类基准数据存储步骤,在存储器中存储作为字符分类基准数据的确定的字符位置信息;以及候选字符选取步骤,选取属于存储在存储器中的与要识别的输入字符的特征相对应的一个具体位置的字符作为输入字符的候选字符。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:崔宰均
申请(专利权)人:株式会社金星社
类型:发明
国别省市:KR[韩国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利