一种字符识别后处理方法、设备及包括该设备的图像拾取设备。该方法包括:组件识别步骤,从字符行区域图像中提取组件并获得组件的识别结果;顶点和底点获取步骤,获取组件的与字符方向线的距离最大的顶点与底点;消失点确定步骤,使用顶线和底线的交叉点来确定消失点,其中顶线是基于各组件的任两个顶点的线段中具有彼此相一致的斜率和截距的线段的顶点组而确定的,并且底线是与顶线类似地基于各组件的任两个底点的线段中具有彼此相一致的斜率和截距的线段的底点组确定的;基线确定步骤,基于所确定的消失点来确定至少两条基线;以及字符校正步骤,基于所确定的基线来校正所述识别结果。
【技术实现步骤摘要】
本申请总地涉及计算机视觉和图像处理领域,特别涉及可以在严重透视畸变情况下提供准确的基线计算结果的字符识别后处理方法、字符识别后处理设备。本申请还涉及包括该字符识别后处理设备的图像拾取设备。
技术介绍
随着配有照相机的手持设备的发展,基于照相机的移动OCR(光学字符识别)应用在多种环境中存在迫切的需要,这些环境如文档的室外数字化、外文街头符号识别、以及针对弱视者的字音输入等。传统的字符识别过程大致可包括文字区域检测步骤、预处理步骤、字符切割步骤、字符识别步骤和后处理步骤。在OCR中基于字符尺寸和位置进行的后处理步骤是非常重要的,其旨在校正不同尺寸的字符(拉丁字符的大小写字符,平假名和片假名的大小字符等),标点与字符混淆等。后处理步骤通常利用基线信息,这是因为准确的基线信息可以准确地描述每个字符的位置和尺寸。但是在基于照相机的图像捕获中,由视角变化引起的透视畸变是常见现象,透视畸变可以包括由于被拍摄的字符相对于照相机的光轴存在各种角度而引起的相对于原始字符的成像畸变。特别地,在文档图像之外的其它自然场景图像中,透视畸变可能很严重。透视畸变将影响基线计算,由此进一步对识别结果的准确度有不利影响。因此在透视畸变情况下计算多个基线几乎成为OCR的必需过程。例如,在文档字符识别中应用的传统基线计算方法可以被分为两类:基于文字方向聚类的方法和基于投影柱状图的方法。基于文字方向聚类的方法假定没有严重的透视畸变并且可通过聚类方法来区分基线1、2、3、4。图1A示例性示出字符行与四个级别的基线之间的对应关系。该方法针对每个字符提取顶点和底点,并然后把顶点集和底点集分别沿着文字方向聚类为两个组。最后,可以通过在每个组内执行线性拟合来容易地获得相应的基线。图1B示出该方法的流程图,包括如下步骤:组件提取步骤S101,从文字行图像中提取字符组件;组件识别步骤S102,使用字符识别引擎来识别字符组件;基线确定步骤S103,根据文字方向来确定各个基线;以及校正步骤S104,根据各个基线来校正识别结果。尽管该方法可以在透视畸变较小的情况下取得较好效果,但是不适于自然场景图像。这是因为当存在严重的透视畸变的情况下,来自不同基线级别的点距离非常近甚至可能混在一起,所以难以正确地把点聚类为两个组。此外,当场景中的文字比较短时,在特定基线级别可能甚至只有一个点,从而难以确定该基线的方向。另一方面,基于投影柱状图的方法从字符提取像素,然后将其沿着文字方向投影。根据投影柱状图的峰来确定各基线的位置。该方法适于没有透视畸变的普通文档图像。然而,当在自然场景的情况下发生严重畸变时不能找到两个峰,因此不能正确地计算基线。另一个限制是投影柱状图对总是被指定为文字方向的投影方向敏感。在视角变化的情况下,一些方法试图首先确定消失点。例如,美国专利公开US7333676公开了一种用于识别场景图的图像序列中的文字的方法和装置,其中,通过以各种角度旋转文字行并然后在垂直边缘过渡上计算一系列水平投影来估计顶线和底线。这些顶线和底线的最好估计应该对应于在水平投影一侧上产生最陡斜率的旋转角度。该方法的主要问题是其顶线可能不太准确,这是因为其并不明显区分基线1和基线2。此外,遍历多个旋转角度来获取投影也是耗时的。在另一例子中,中国专利公开CN101458770公开了识别文字的方法和装置并且还提供了消失点确定方法。对于垂直消失点而言,首先从所有水平文字行提取左端点和右端点。然后,从左端点对获得所有左线并且从右端点对中获得所有右线。每个左线和右线可以确定一个交叉点,通过加权的交叉点来估计垂直消失点。该方法并不滤除不可靠的点(或线),因此是不精确的。此外,在端点数量较小时,难以通过该方法获得可靠的消失点。由此可见现有技术的方法存在在严重透视畸变或短文字的情况下难以准确有效地计算基线来进行后处理的问题。
技术实现思路
本申请的目的之一是要在严重透视畸变或短文字的情况下准确高效地计算基线,而基本上不依赖文字行方向,从而提高了字符识别的准确性。本申请的一方面涉及一种字符识别后处理方法,包括:组件识别步骤,从字符行区域图像中提取组件并获得组件的识别结果;顶点和底点获取步骤,获取各组件的与字符方向线的距离最大的顶点与底点;消失点确定步骤,使用顶线和底线的交叉点来确定消失点,其中顶线是基于连接各组件的任两个顶点的线段中具有彼此相一致的斜率和截距的线段的顶点组而确定的,并且底线是与顶线类似地基于连接各组件的任两个底点的线段中具有彼此相一致的斜率和截距的线段的底点组确定的;基线确定步骤,基于所确定的消失点来确定至少两条基线;以及字符校正步骤,基于所确定的基线来校正所述识别结果。本申请的另一方面涉及一种字符识别后处理设备,包括:组件识别装置,被配置为从字符行区域图像中提取组件并获得组件的识别结果;顶点和底点获取装置,被配置为获取组件的与字符方向线的距离最大的顶点与底点;消失点确定装置,被配置为使用顶线和底线的交叉点来确定消失点,其中顶线是基于连接各组件的任两个顶点的线段中具有彼此相一致的斜率和截距的线段的顶点组而确定的,并且底线是与顶线类似地基于连接各组件的任两个底点的线段中具有彼此相一致的斜率和截距的线段的底点组确定的;基线确定装置,被配置为基于所确定的消失点来确定至少两条基线;以及字符校正装置,被配置为基于所确定的基线来校正所述识别结果。本申请的又一方面涉及一种图像拾取设备,包括:成像设备,被配置为获取输入图像;字符识别设备,被配置为识别输入图像中的字符;以及如前所述的字符识别后处理设备,被配置为对所识别的字符进行后处理。因此,根据本申请的各方面,可以在严重透视畸变或短文字的情况下与文字行方向基本无关地准确高效地计算基线,从而提高了字符识别的准确性和效率。附图说明下面结合具体的实施例,并参照附图,对本申请的实施例的上述和其它目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。图1A和图1B分别示出现有技术中的字符行与四条基线之间的对应关系以及基于文字方向聚类的方法的流程图;图2示出根据本申请的实施例的字符识别后处理方法的流程图;图3A-3C分别示出字符行区域图像、预处理之后的图像以及提取组件之后的图像的示例;图4A-4B和图4C-4D分别示出字符方向线获取本文档来自技高网...
【技术保护点】
一种字符识别后处理方法,包括:组件识别步骤,从字符行区域图像中提取组件并获得组件的识别结果;顶点和底点获取步骤,获取各组件的与字符方向线的距离最大的顶点与底点;消失点确定步骤,使用顶线和底线的交叉点来确定消失点,其中顶线是基于连接各组件的任两个顶点的线段中具有彼此相一致的斜率和截距的线段的顶点组而确定的,并且底线是与顶线类似地基于连接各组件的任两个底点的线段中具有彼此相一致的斜率和截距的线段的底点组确定的;基线确定步骤,基于所确定的消失点来确定至少两条基线;以及字符校正步骤,基于所确定的基线来校正所述识别结果。
【技术特征摘要】
1.一种字符识别后处理方法,包括:
组件识别步骤,从字符行区域图像中提取组件并获得组件的识别
结果;
顶点和底点获取步骤,获取各组件的与字符方向线的距离最大的
顶点与底点;
消失点确定步骤,使用顶线和底线的交叉点来确定消失点,其中
顶线是基于连接各组件的任两个顶点的线段中具有彼此相一致的斜率
和截距的线段的顶点组而确定的,并且底线是与顶线类似地基于连接
各组件的任两个底点的线段中具有彼此相一致的斜率和截距的线段的
底点组确定的;
基线确定步骤,基于所确定的消失点来确定至少两条基线;以及
字符校正步骤,基于所确定的基线来校正所述识别结果。
2.根据权利要求1所述的方法,其中,顶点和底点获取步骤还
包括:
中心点确定步骤,确定所有组件的中心点;以及
字符方向线获取步骤,使用所确定的中心点通过线性拟合方法获
取字符方向线。
3.根据权利要求1所述的方法,其中,顶点和底点获取步骤还
包括:
属性设置步骤,基于识别结果来针对每个组件设置与基线级别有
关的属性;
组件选择步骤,选择具有相同属性的至少两个组件;以及
字符方向线获取步骤,使用所选组件的中心点通过线性拟合方法
获取字符方向线。
4.根据权利要求1-3之一所述的方法,其中,消失点确定步骤还
包括:
主角度确定步骤,计算连接任两个顶点的线段的角度并选择包含
\t最大线段数量的角度范围作为主角度范围;
顶点组确定步骤,根据主角度范围来确定所述顶点组;以及
顶线获取步骤,基于所述顶点组通过线性拟合方法来获取顶线。
5.根据权利要求4所述的方法,其中,顶点组确定步骤还包括:
顶点记录步骤,选择其角度在主角度范围内的线段的顶点及这些
顶点在这些线段中的出现次数;
第一分割线获取步骤,通过使用所记录的顶点并把出现次数作为
权重进行线性拟合来获取第一分割线;以及
顶点组选择步骤,从第一分割线将所记录的顶点划分出的第一组
和第二组中选择总顶点出现次数较大的组作为所述顶点组。
6.根据权利要求5所述的方法,其中,在顶线获取步骤中把出
现次数作为权重进行线性拟合来获取顶线。
7.根据权利要求4所述的方法,其中,顶点组确定步骤还包括:
构图步骤,以连接任何两个顶点的线段为边并且以这些线段的角
度与主角度范围之间的差为权重来构图;<...
【专利技术属性】
技术研发人员:田雨,
申请(专利权)人:佳能株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。