信息处理装置制造方法及图纸

技术编号:8907338 阅读:152 留言:0更新日期:2013-07-11 05:00
本发明专利技术提供一种信息处理装置,其即使是暂时被误判为包含在字符串中的准字符,也可以正确地判断出其包含在其后形成的字符串中,并且,可以抑制正确地判断出包含在字符串中的准字符,被误判为包含在其后形成的字符串中。信息处理装置的准字符选择单元,从字符串要素内选择包含在作为对象的字符串中的准字符,字符串形成单元通过将选择的准字符包含在作为对象的字符串中而形成字符串,特征量赋予单元计算出字符串的表示字符串可能性的特征量,将该特征量向包含在该字符串中的准字符赋予,作为通过准字符选择单元选择的对象的准字符,包含已在字符串中包含的准字符,准字符选择单元根据赋予准字符的特征量,选择包含在作为对象的字符串中的准字符。

【技术实现步骤摘要】

本专利技术涉及信息处理装置及信息处理程序。
技术介绍
已存在提取字符串的技术。作为与之相关的技术,例如,在专利文献I中,关于具有文档图像的行和段的提取功能的文档图像识别装置,公示了下述技术,其以可以高速且高精度地进行横行与纵行混合存在的文档图像的行.段提取为课题,文档图像斜率检测部参照文档图像,提取构成字符的成分的集合,并据此提取横向及纵向的行候补,对于上述各个行候补推定可靠度,根据推定的行可靠度提取正确度较高的行的集合,根据其结果,使用正确度较高的行的集合的字符成分的配置推定斜率,布局解析部从构成文档图像的基础要素的集合提取行方向已确定的行集合,基于行之间的关联交互地执行段提取和约束段的行的提取,从而将行和段提取出。另外,例如,在专利文献2中,公示了下述技术,其以正确无误地合并在字符识别中成为误识别原因的分离字符串,防止由分离字符引起的误识别为课题,从文档图像中提取字符串矩形,合并字符串矩形内的分离字符串矩形,然后,按照下述方式对分离为大于或等于2个字符串矩形的分离字符串进行合并,S卩,关注字符串矩形内的字符数较少的字符串矩形,将位于该字符串矩形的上下(横写)或左右(竖写)的字符串,以推定字符串尺寸进行临时合并,对重新合并形成的字符矩形进行字符识别,判定字符识别的评估值(例如,距离值)是否满足一定基准,验证分离字符串的临时合并结果。另外,例如,在专利文献3中,关于用于生成、识别独立的字符成分的字符分割方法,公示了下述技术,其以提供独立的字符成分的提取、识别为目的,由以下7个过程构成,即:第I过程,其搜索文章中全部的像素连结成分;第2过程,其将第I像素连结成分与将第I像素连结成分完全包含在内部的第2像素连结成分结合为I个;第3过程,其设定字宽、字距、行宽、及行距的参考值;第4过程,其将与参考值的规定一致而属于同一个字符成分的像素连结成分结合为I个;第5过程,其根据像素连结成分的结合状况,判定是否重复执行第2至第4过程;第6过程,其通过包含第5过程的反馈式连结成分结合运算方法,使像素连结成分结合,形成多个独立的字符成分;以及第7过程,其将字符成分排列。另外,例如,在非专利文献1、非专利文献2中公示了下述技术,其中2值图像的连结成分为准字符,而在准字符的合并中,在准字符接近的基础上,利用字符串的尺寸和方向,从准字符的集合推定此时字符串的方向,所谓用于推定的准字符的集合,是指根据从输入图像得到的全部准字符生成的局部集合,相对于各自的局部集合,赋予字符串的尺寸和方向。专利文献1:日本特开2008 - 217833号公报专利文献2:日本特开2002 - 015283号公报专利文献3:日本特开平08 - 263589号公报非专利文献1:岩田基,黄濑浩一,松本啓之亮,“Segmentation of page imagesusing the area Voronoidiagram, ” 情報処理学会論文誌,Vol.49, N0.8, pp.3239 一3248, Aug 1999.非专利文献2:Daniel M, Oliveira, Rafael D.Lins, Gabriel Torreao, JianFan, Marcelo Thielo, “A New Method for Text — Line Segmentation for WarpedDocuments, ” in Proc.0f Int.Conf.0n Image Analysis and Recognition, Povoa deVarzim, Protugal, pp.398 — 408, 2010.
技术实现思路
本专利技术目的在于提供一种信息处理装置及信息处理程序,即使是暂时被误判为包含在字符串中的准字符,其也可以正确地判断出包含在其后形成的字符串中,并且,抑制将正确地判断为包含在字符串中的准字符误判为包含在其后形成的字符串中。作为用于实现上述目的的本专利技术的主旨,存在于以下各项专利技术中。技术方案I的专利技术是一种信息处理装置,其特征在于,具有:准字符选择单元,其从作为字符串构成要素的准字符的集合即字符串要素内,选择在作为对象的字符串中包含的准字符;字符串形成单元,其通过使由上述准字符选择单元选择的准字符包含在上述作为对象的字符串中,从而形成字符串;以及特征量赋予单元,其计算表示由上述字符串形成单元形成的字符串的字符串可能性的特征量,将该特征量向包含在该字符串中的准字符赋予,作为成为由上述准字符选择单元选择的对象的准字符,包含由上述字符串形成单元形成的字符串中的准字符,上述准字符选择单元根据由上述特征量赋予单元向准字符赋予的特征量,选择在上述作为对象的字符串中包含的准字符。技术方案2的专利技术为,如技术方案I所述,其特征在于,还具有范围设定单元,其设定可由上述准字符选择单元从上述字符串要素内选择的准字符所存在的范围,上述准字符选择单元从处于由上述范围设定单元设定的范围中的字符串要素内,选择在作为对象的字符串中包含的准字符。技术方案3的专利技术为,如技术方案I或2所述,其特征在于,上述准字符选择单元,对由上述字符串形成单元形成的过程中的字符串的特征量和向在已经形成的字符串中包含的准字符赋予的特征量进行比较,选择在作为对象的字符串中包含的准字符。技术方案4的专利技术为,如技术方案I至3中任意一项所述,其特征在于,上述特征量赋予单元计算出字符串的长度、字符串的粗细、字符串的斜率、包含在字符串中的准字符或多个准字符组之间的距离、字符串的偏斜、字符串的长细比中的任意一个或它们的组合,作为特征量。技术方案5的专利技术为,如技术方案I至4中任意一项所述,其特征在于,还具有字符识别单元,其识别由上述字符串形成单元形成的字符串内的字符,并输出字符识别结果。技术方案6的专利技术为,如技术方案I至4中任意一项所述,其特征在于,还具有:偏斜计算单元,其计算出由上述字符串形成单元形成的字符串的偏斜;以及校正单元,其根据由上述偏斜计算单元计算出的偏斜,对包含上述字符串的文档的偏斜进行校正。技术方案7的专利技术是一种信息处理程序,其特征在于,使计算机作为下述单元起作用,即:准字符选择单元,其从作为字符串构成要素的准字符的集合即字符串要素内,选择在作为对象的字符串中包含的准字符;字符串形成单元,其通过使由上述准字符选择单元选择的准字符包含在上述作为对象的字符串中,从而形成字符串;以及特征量赋予单元,其计算表示由上述字符串形成单元形成的字符串的字符串可能性的特征量,将该特征量向包含在该字符串中的准字符赋予,作为成为由上述准字符选择单元选择的对象的准字符,包含由上述字符串形成单元形成的字符串中的准字符,上述准字符选择单元根据由上述特征量赋予单元向准字符赋予的特征量,选择在上述作为对象的字符串中包含的准字符。专利技术的效果根据技术方案I的信息处理装置,即使是暂时被误判为包含在字符串中的准字符,也可以正确地判断出其包含在其后形成的字符串中,并且,可以抑制将已正确判断为包含在字符串中的准字符误判为包含在其后形成的字符串中的情况。根据技术方案2的信息处理装置,可以设定应该包含在字符串内的准字符的选择范围。根据技术方案3的信息处理装置,可以根据形成过程中的字符串的特征,确定选择准字符的范围。根据技术方案4的信息处理装本文档来自技高网
...
信息处理装置

【技术保护点】
一种信息处理装置,其特征在于,具有:准字符选择单元,其从作为字符串构成要素的准字符的集合即字符串要素内,选择在作为对象的字符串中包含的准字符;字符串形成单元,其通过将由上述准字符选择单元选择的准字符包含在上述作为对象的字符串中,从而形成字符串;以及特征量赋予单元,其计算表示由上述字符串形成单元形成的字符串的字符串可能性的特征量,将该特征量向包含在该字符串中的准字符赋予,作为成为由上述准字符选择单元选择的对象的准字符,包含由上述字符串形成单元形成的字符串中的准字符,上述准字符选择单元根据由上述特征量赋予单元向准字符赋予的特征量,选择在上述作为对象的字符串中包含的准字符。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:田中瑛一
申请(专利权)人:富士施乐株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1