判断文本区域排版方向的方法技术

技术编号:3848376 阅读:337 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了一种文本区域排版方向的判断方法,属于OCR领域,根据得到的投影直方图进行统计分析,找出各自最有代表性的特征数据三元组,对于字符行(列)数小于3的文本区域,根据文本区域外接矩形的长宽比判断排版方向;对于字符行(列)数大于等于3的文本区域,根据异常投影柱的数目及其统计位置判断排版方向;无法判断的通过正常投影柱间距的一阶距判断文本排版方向;再无法判断排版方向的通过文本字符的缩进判断排版方向;最后仍然无法判断排版方向的区域放弃判断。本发明专利技术能够准确判断正常文本区域是横排还是竖排,而且能够准确判断存在小角度倾斜或轻微几何畸变的文本区域是横排还是竖排,判断效果好,速度快,具有良好的应用价值。

【技术实现步骤摘要】

本专利技术属于0CR(光学字符识别)
,特别涉及一种。
技术介绍
当前信息的主要存在形式有纸质和电子两大媒介。随着信息技术和计算机技术的 发展和普及,纸质媒介在存储成本、记录密度、共享手段、查阅方便性等诸多方面均落后于 电子媒介。为了将信息由纸质媒介转换为电子媒介存放,一般方法是将纸质文档(包括纸 质图书、杂志、报纸、文件等)先扫描或拍摄成图像,然后对图像进行版面分析,再对分析结 果分别处理,例如对图像进行压缩存放、对文本进行OCR识别等。版面分析是对文档图像内的图像、表格和文本等进行自动分割、识别的过程,其方 法分为自顶向下和自底向上两类。自顶向下是指从页面的整体入手,采取多层次纵横投影 方法分出各个区域,其优点是简单快速,缺点是对复杂的版面适应性不强,自底向上的方法 是指由像素点出发先检测连通域,再把连通域合并成各个区域,其优点是可以处理复杂的 版面,缺点是计算量大、合并规则不易确定。随着硬件技术的快速进步,运算量逐渐不再是 瓶颈,而对版面分析的准确性要求越来越高,这使得自底向上的版面分析方法逐渐成为主 流方法。在文档图像中,字符是主要的信息载体,版面分析的主要任务之一就是将文档图 像中的文本区域分割出来,然后采用0CR(0ptical Character Recognition)技术将图像中 的字符转换为字符编码存放。在通过连通域标记和合并得到文本区域之后,有一个重要步 骤就是判断文本区域中字符的排版方向,即字符是按照水平方向排列即横排还是按照竖直 方向排列即竖排,只有知道了文本的横竖排信息,才能决定下一步光学字符识别中是按水 平方向切分文本为行还是按竖直方向切分文本为列。文本区域的排版方向一般采用投影方法来判断,即将文本区域内的二值图像进行 水平方向投影和竖直方向投影,分别得到水平投影直方图和竖直投影直方图。文本区域中 的字符行(列)对应着直方图中的投影柱,字符行(列)间距对应着直方图中投影柱之间 的间距。这样,在字符排版方向上,存在明显的投影柱和投影柱间距,而在非字符排版方向 上,投影相互粘连,没有明显的投影柱和投影间距,根据这一特点,可以判断字符排版方向。 这种方法简单快速,但是对于存在倾斜或(和)轻微几何畸变(如相机拍摄图像中的几何 畸变)的文本区域,其投影直方图就失去了上述的明显特点,判断准确率很差。
技术实现思路
本专利技术提出了一种,根据得到的投影直方图进行统 计分析,找出各自最有代表性的特征数据三元组,利用三元组中的正常投影柱数目、异常投 影柱数目和统计位置坐标值的大小关系,将它们或它们与文本区域的特征相结合,并利用 一阶矩统计特征对文本区域排版方向进行判断。本专利技术能够准确判断正常文本区域是横排还是竖排,而且能够准确判断存在小角度倾斜或轻微几何畸变的文本区域是横排还是竖 排,判断效果好,速度快,具有很好的应用价值。,包括如下步骤步骤1 统计文本区域外接矩形内包含的字符连通域的高度,将出现频率最高的 连通域高度作为字符高。步骤2 对文本区域内的二值图像进行水平方向和竖直方向的投影,分别得到水 平投影直方图和竖直投影直方图。统计直方图中投影柱的分布,在选定的统计位置依次选 取正常投影柱数目、异常投影柱数目和统计位置坐标值并筛选为水平投影直方图对应的三 元组和竖直投影直方图对应的三元组。步骤3 如果投影直方图三元组中正常投影柱数目小于既定数目,且对于水平投 影直方图来说文本区域的高度小于既定高度,或对于竖直投影直方图来说文本区域的宽度 小于既定宽度,则比较文本区域的宽度和高度,宽度大于高度,则排版方向为水平,宽度小 于高度,则排版方向为竖直。步骤4 分别计算三元组中统计位置坐标值处的正常投影柱间距的一阶矩;如果 一方向上直方图的正常投影柱间距的一阶矩小于既定距离,且另一方向上直方图的正常投 影柱间距的一阶矩大于既定距离,则排版方向与正常投影柱间距的一阶矩小于既定距离对 应的方向一致;否则转到步骤5。步骤5 根据投影直方图中的正常投影柱的位置,分别得到文本区域的文本行和 文本列,记录左端和顶端的连通域位置,从而判断缩进情况,进而判断文本区域的排版方 向。所述步骤2中,正常投影柱为当前统计位置坐标值处对应的宽度在字符高度 0.5 1.5倍间的投影柱。所述步骤2中,异常投影柱为当前统计位置坐标值处对应的宽度小于字符高度 0. 5倍或大于字符高度1. 5倍的投影柱。所述步骤2中,统计直方图中投影柱的分布时,在水平投影直方图和竖直投影直 方图纵轴上,每隔半个字符高统计正常投影柱和异常投影柱数目,得到 < 正常投影柱数目, 异常投影柱数目,统计位置坐标值〉的三元组;然后在所得的正常投影柱最多的三元组中, 选择异常投影柱最少的三元组,并在所得结果中选取统计位置坐标值最小的三元组保存, 剩余三元组释放。所述步骤3中,既定数目为3,用来判定当前文本区域是否只有1至2行(列)。所述步骤3中,既定高度或既定宽度为4倍字符高,用来判定当前文本区域是否只 有1至2行(列)。所述步骤3之后,步骤4之前还可进行步骤31 如果两组所述三元组的异常投影 柱数目都为零,则排版方向与两组三元组中对应的统计位置坐标值小的对应方向一致,如 果两组三元组中对应的统计位置坐标值相等,则转到步骤4。如果两组所述三元组中一方向上的异常投影柱数目为零,另一方向上的异常投影 柱数目不为零,且异常投影柱数目为零对应的方向上三元组中统计位置坐标值不大于异常 投影柱数目不为零的方向上三元组中统计位置坐标值,则排版方向与异常投影柱数目为零 对应的方向一致。如果异常投影柱数目为零对应的方向上三元组中统计位置坐标值大于异常投影柱数目不为零对应的方向上三元组中统计位置坐标值,则转到步骤4。如果两组所述三元组中的异常投影柱数目都不为零,则如果一方向上三元组中统 计位置坐标值较小,且该方向上三元组的异常投影柱数目较小,则排版方向与该方向一致; 否则,转到步骤4。所述步骤4中,既定距离为字符高的0. 5 2倍,用来衡量正常投影柱间距的波动 情况。所述步骤5中,如果存在行缩进且无列缩进,则排版方向为水平方向;如果存在列 缩进且无行缩进,则排版方向为竖直方向,否则无法判断文本区域的排版方向。 本专利技术,与现有技术相比,其优点在于1、本方法综合利用了文本长宽比、投影直方图特征、字符缩进等信息,不但能够正 确判断正常文本区域的排版方向,而且能够准确判断存在小角度倾斜或轻微几何畸变的文 本区域的排版方向。2、本方法的直方图中投影柱分布情况的统计及三元组的选择方法,将投影数据进 行细致的统计,有效地对文本区域进行了描述,反应了文本的行列分布情况,进而进行文本 区域排版方向的判断。3、本方法的正常投影柱间距的一阶距对应于文本行(列)间距的一阶距,反映了 文本行(列)间距的波动情况,统计方式简捷快速,能够据此快速准确的进行文本区域排版 方向的判断。附图说明图1为本专利技术的流程图;图2为本专利技术实施例1的文本区域的二值图像;图3a为本专利技术实施例1文本区域二值图像的水平投影直方图;图3b为本专利技术实施例1文本区域二值图像的竖直投影直方图;图4a为本专利技术实施例1中的水平投影直方图的投影柱分布情况的所有统计位置 示意图;图4b为本专利技术实施例1中的竖直投影直方图的投影柱分布本文档来自技高网
...

【技术保护点】
一种判断文本区域排版方向的方法,其特征在于,包括如下步骤:步骤一:统计文本区域外接矩形内包含的字符连通域的高度,将出现频率最高的连通域高度作为字符高;步骤二:对文本区域内的二值图像进行水平方向和竖直方向的投影,分别得到水平投影直方图和竖直投影直方图;统计直方图中投影柱的分布,在选定的统计位置依次选取正常投影柱数目、异常投影柱数目和统计位置坐标值并筛选为水平投影直方图对应的三元组和竖直投影直方图对应的三元组;步骤三:如果投影直方图三元组中正常投影柱数目小于既定数目,且对于水平投影直方图来说文本区域的高度小于既定高度,或对于竖直投影直方图来说文本区域的宽度小于既定宽度,则比较文本区域的宽度和高度,宽度大于高度,则排版方向为水平,宽度小于高度,则排版方向为竖直;步骤四:分别计算三元组中统计位置坐标值处的正常投影柱间距的一阶矩;如果一方向上直方图的正常投影柱间距的一阶矩小于既定距离,且另一方向上直方图的正常投影柱间距的一阶矩大于既定距离,则排版方向与正常投影柱间距的一阶矩小于既定距离对应的方向一致;否则转到步骤五;步骤五:根据投影直方图中的正常投影柱的位置,分别得到文本区域的文本行和文本列,记录左端和顶端的连通域位置,从而判断缩进情况,进而判断文本区域的排版方向。...

【技术特征摘要】

【专利技术属性】
技术研发人员:李永彬
申请(专利权)人:汉王科技股份有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1