一种表格图像几何畸变的数字校正方法技术

技术编号：2946319 阅读：302 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及计算机信息领域的图像处理技术，具体涉及一种表格图像几何畸变的数字校正方法。为解决现有技术中只能有效的对畸变文本行进行校正，当文稿中出现畸形表格非文本区域时，无法进行后续识别的问题而发明专利技术。本发明专利技术所述的方法通过对表格图像进行分析，在二值化图像上搜索并分析有效表格线段，得到属于表格的采样表格线，分析、拟合采样表格线，并将其映射到目标位置，由采样表格线带动表格内部文字而很好地校正。本发明专利技术不但能准确地校正畸形表格，而且对于表格内部文字的矫正也达到很好的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机信息领域的图像处理技术，特别涉及一种对畸变的表格图像校正的方法。
技术介绍
畸变表格的校正是一种非常有用的图像处理技术，一般有两类校正方法一类是通过分析表格图像，得出表格倾斜角度，根据倾斜角度校正；另一类是分析表格图像，得到并拟合畸变的表格线，然后把畸变的表格线校正为直线。对于前一类，一般的做法是通过一定的方法，在图像上得到表格线的倾斜角度，作为校正的依据，比如分析得到表格线和水平直线的夹角α，然后根据tanα计算表格线上每一点的偏移量，从而进行校正。如文献“基于游程的倾斜表格图像的快速检测和校正”。对于后一类，由于对非特定畸变的表格，只通过分析表格倾斜角度来校正难度极大，所以需要分析表格畸变的特征来进行后期处理。对于将表格文稿扫描为图像而言，其目的大多是用于资料保存、文字识别(OCR)等场合。在OCR的运用中，对于扫描时已经展开的文稿或者书本，只是因放置不正而引起的表格倾斜，由于不会改变表格的直线表达，因此可以使用第一类方法解决；对于扫描时没有展开的文稿或者书本，数码相机拍摄的图像以及其它途径得到的图像，极有可能会改变表格原来的直线表达，可以用第二类方法解决这类问题。在OCR的运用中，表格区域的畸变不仅影响到美观，更会严重影响表格识别、表格内文字的行切分等图像处理的准确性，甚至使这些操作无法进行，如弯曲严重的表格基本无法进行识别，更不要说分离其内部文字并识别这些文字。因此表格校正质量的好坏，不仅影响到表格的主观质量评价，还会直接影响到对表格后续处理的环节。此外，由于在OCR运用中表格和表格内容都需要识别，因此在OCR中，不但对表格...

【技术保护点】
一种表格图像几何畸变的数字校正方法，其特征在于，包括以下步骤：（１）对表格图像进行二值化预处理，通过版面分析获得表格区域；（２）确定有效表格线段的最小长度，并根据该长度，在二值化表格图像的表格区域中进行搜索，得到Ｎ条有效表格线段，其中Ｎ为正整数；（３）根据有效表格线段的位置信息合并有效表格线段并形成表格线域；（４）根据所述表格线域中包含的有效表格线段信息，计算出与采样表格线域对应的采样表格线；（５）确定采样表格线要校正到的目标位置，将采样表格线映射到该目标位置；（６）表格内其他像素在采样表格线校正带动下校正。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘芝，康凯，杜鹏飞，
申请(专利权)人：北大方正集团有限公司，北京北大方正技术研究院有限公司，北京大学，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人