当前位置: 首页 > 专利查询>索尼公司专利>正文

手写体字符识别方法技术

技术编号:2936949 阅读:248 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及手写体字符识别装置,在树结构的识别辞典的各分枝上,登录着该分枝上所允许的保留笔划数的范围。对字符进行识别时,将输入字符的未检验笔划数与分枝的保留笔划数范围进行比较检验,只有二者相符的分枝,才进一步作扫描和进行笔形检验。这一方法既提高了识别速度,也减少了干扰,从而提高了识别率。(*该技术在2011年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及手写体字符的识别装置。本专利技术是在使用不按输入笔划数进行大分类的树型结构辞典的手写体字符识别装置上,在树结构的每一分枝上定义有该分枝所允许的保留笔划数,然后根据输入字符的未检验笔划数与分枝上的笔划数相比较,以实现更高的识别速度。一般,联机方式的手写体字符识别,按下列二个阶段进行处理,亦即第一阶段从手写体字符的笔迹提取出各种特征(特征数据),这些手写体字符从图形输入板上输入。第二阶段将提取出的特征数据和辞典中所登录的各字符的特征(测试码)进行比较检验,检测出一致度足够高的字符。此时如果进行第二阶段的处理时的识别辞典为树型结构,那么,不仅识别辞典的容量可以减小,且可高速进行比较检验。图4是这种树型结构识别辞典的示意简图,(31)~(42)是测试分枝(亦即比较检验不间断扫描时的比较检验扫描顺序),(51)~(56)是分叉节点,C1~C7是识别结果的字符码。其中,字符码Cn(n=1~7)是在分枝(31)~(42)中的末端分枝(34)~(36),(38),(40)~(42)中一一分别定义的。当手写体字符被输入,其特征被提取后,首先,在分枝(31)上,从识别辞典中取出测试码,并根据此测试码来检验该特征数据。然后,根据分枝(31)的检验结果,扫描从分叉节点(51)向下一分枝例如分枝(32)前进,同样地,从分叉节点(52)转到分枝(33)。但是,在分枝(33)上,如果测试码与笔迹数据的不一致度很高的话,那么该分枝(33)便被认为是不合格。于是,扫描返回到分枝(33)和分枝(36)的分叉节点(52),然后转入分枝(36),在该分枝(36)上,若测试码与特征数据的一致度足够高的话,由于分枝(36)是末端分枝,就把定义于这个分枝(36)中的字符码C3作为输入字符的识别结果而输出之。进而,在分枝(38)中,若测试码与笔迹数据的一致度也很高的话,那么就把定义在这个分枝(38)中的字符码C4作为输入字符识别结果的第2候选加以输出,同样地,有时还会输出第3或更多的候选码。但是,在上述这样的树型结构的识别字典中,因为在输入字符的笔划数和测试字符的笔划数并不一致的分枝上也要进行检验,因此使识别的速度被降低了。本专利技术就是要解决这样的问题而研制的装置。为此,本专利技术中,在识别辞典的分枝中,登录着该分枝中所允许保留的笔划数的范围,在上述手写体字符识别时,把上述保留笔划数的范围与上述被输入的手写体字符的未检验笔划数进行比较测试,仅当上述被输入的手写体字符的未检验笔划数处于上述保留笔划数的范围内时,才在该分枝上继续进行扫描,对上述被输入的手写体字符进行识别。由于对不必要的分枝不再进行检验,从而使识别速度得到提高。附图说明图1是本专利技术的功能构成示例框图;图2是该辞典的构造示意图;图3是本专利技术的一个示例的流程图,图4是用于说明的图,其中(11)是图形输入板;(12)是预处理电路;(13)是缓冲器;(14)是笔划特征提取电路;(15)是笔划特征缓冲器;(16)是未检验缓冲器;(17)是识别电路;(18)是识别辞典;(19)是输出缓冲器。图1中,若在图形输入板(11)上书写字符,则该图形输入板(11)的输出数据便提供给予处理电路(12),以进行除去噪音和数字化(折线近似)等予处理,经过予处理的数据,被提供给输入缓冲器(13),并加以存储。进而,在笔划特征提取电路(14)中,从缓冲器(13)的数据中,针对输入字符的每一笔划,提取作为特征数据的该笔划的特征,在把这些特征数据存储到笔划特征缓冲器(15)中的同时,把未检验缓冲器(16)的值递增1。这样地,从图形输入板(11)输入的一个字符,对它的每一笔划,生成一个特征数据,在把这些特征数据顺序地存储到缓冲器(15)中的同时,缓冲器(16)的值也随之递增。进而,当输入完一个字符时,在识别电路(17)中,把存储在缓冲器(15)中的特征数据与识别辞典(18)的测试码进行比较检验。而且每检验一划,就将检验缓冲器(16)的值递减1。这种识别辞典(18)的结构情况,例如可以用“枚”和“検”字来加以说明。“枚”具有构辞部分“木”,此外,剩余的笔划数是2~4划,具有构辞部分“攵”。“検”具有构辞部分“木”,此外,剩余的笔划数为5~8划,具有构辞部分“人”和“ ”。因此,用树型结构来表示时,如图2所示,经由检验“木”的分枝(21)→分叉节点(22)→检验出具有保留划数为2~4划的分枝(23)→检定“攵”的分枝(24)这一途径由分枝(21)至(24)进行,在分枝(24)上定义出“枚”的字符码Cm。此外,沿分叉节点(22)→检验保留有笔划数为5~8划的分枝(25)→检定“人”的分枝(26)→检定“ ”的分枝(27)这条途径由分枝(22)至(27)进行,在分枝(27)上定义出“検”的字符码Ck。此时,当扫描辞典(18)时,或者是碰到了分叉节点,或者碰到如命令(23)、(25)那样的检验保留笔划数的命令的情形,即把缓冲器(16)的值与识别辞典中所登录的保留笔划数的范围相比较,在范围内时,扫描进入后续分枝,而在范围外时,扫描转入下一分枝(相邻的分枝)。例如,当输入“枚”字时,扫描从分枝(21)开始,通过分叉节点(22),进入分枝(23),在分枝(23),将缓冲器(16)的值,与分枝(23)中存储的保留笔划数的范围“2~4划”相比较,在现在所说的情形,因为恰在范围内,因此扫描从分枝(23)进入分枝(24),由于分枝(24)的检验合格,从而取出了“枚”的字符码Cm。此外,在输入“検”字时,扫描从分枝(21),通过分叉节点(22),进入分枝(23),在这个分枝(23)内,把缓冲器(16)的值与分枝(23)中登录着的保留笔划数范围“2~4划”相比较,此次因在范围外,故扫描从分枝(23),通过分叉节点(22),进入分枝(25),在此分枝(25)中,将缓冲器(16)的值与分枝(25)中登录着的保留笔划数范围“5~8划”相比较,现在因在范围以内,故扫描从分枝(25)进入分枝(26)、(27),从而取出了“検”的字符码Ck。这样地顺序地进行检验,当得到了该识别结果的字符码后,便把它们从识别电路(17)输出,存储到输出缓冲器(19)中。图3是采用软件处理进行上述字符识别的处理子程序示例。亦即,当从图形输入板(11)输入一个字符部分时,检验处理即从第(101)步开始,在(102)步,输入字符的全部笔划数被存储到未检验缓冲器(16)中。其后,在(111)步,检查登录在辞典(18)中的命令是否是保留笔划范围检验命令?如果是,处理便进入(112)步;在(112)步,检查缓冲器(16)中的值是否在辞典(18)中所登录的保留笔划数范围内,若在范围内,处理便从(112)步返回到(111)步。这些处理对应着例如扫描从分叉节点(22),通过分枝(23)而进入分枝(24)的情形。此外,在(111)步,若不是检验保留笔划数范围的命令,处理即从(111)步进入(121)步。在(121)步,检查辞典(18)中登录的命令是否是笔划形状检定命令,如果是,处理从(121)步进入(122)步,在(121)步,对笔划形状进行检验,确定其是否合格。进而,在笔划形状合格时,处理从(122)步进入(123)步。在此(123)步,每当(122)步检验出一条合格笔划,便本文档来自技高网...

【技术保护点】
利用树型结构的识别辞典对手写体字符进行识别的字符识别装置,其特征在于:在上述识别辞典的分枝上,登录有该分枝上所允许的保留笔划数范围;对上述手写体字符进行识别时,把上述保留笔划数范围与上述输入的手写体字符的未检验笔划数进行检验;仅 当上述输入的手写体字符的未检验笔划数处于上述保留笔划数范围内时,才在该分枝上继续扫描和对上述输入的手写体字符进行识别。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:坂野秋夫井上畅朗安黑政行茶谷公之吉田公义
申请(专利权)人:索尼公司
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1