一种简捷有效的残缺表格识别及跨页拼接方法技术

技术编号:25522822 阅读:56 留言:0更新日期:2020-09-04 17:12
本发明专利技术公开了一种简捷有效的残缺表格识别及跨页拼接方法,通过直线提取检测表格矫正,采用提出的残缺表格定位识别算法,得到残缺表格的准确位置,出现上下页残缺时,对残缺表格进行跨页拼接并进行单元格分割等处理。首先采用形态学投影实现直线检测并进行表格矫正;然后使用Harris进行角点检测,预框选出感兴趣区域,判断预框选区域是否存在直线得到准确的表格区域;其次,对确定表格区域中的首尾表格进行完整状态检测并根据拼接规则进行跨页拼接;最后,将分割表格进行单元格分割并使用CRNN实现OCR识别及表格数字化复现数据库存储等操作。该方法能有效的识别特殊残缺表格,并能进行跨页拼接,使用方法简洁有效。

【技术实现步骤摘要】
一种简捷有效的残缺表格识别及跨页拼接方法
本专利技术涉及表格识别及深度学习领域,特别是一种简捷有效的残缺表格识别及跨页拼接方法。
技术介绍
随着图像处理技术和光学字符识别(OCR)技术的不断发展,表格信息自动化处理成为目前很多组织机构构建信息化系统的关键所在。表格文档作为业务数据的重要载体,研究如何实现表格文档图像的自动化提取对实现自动化数据采集而言有重要意义。目前将纸质表格存储为电子表格目前大多采用人工录入,存在工作量大、繁琐和准确率低等问题;同时对于特殊残缺不完整表格识别效果不佳、跨页表格不能完整拼接等问题。
技术实现思路
本专利技术提供一种简捷有效的残缺表格识别及跨页拼接方法,以解决现有方法对不完整表格识别准确率低、跨页表格不能完整拼接的问题。为了达到本专利技术的目的,本专利技术提出的方案如下:一种简捷有效的残缺表格识别及跨页拼接方法,包括如下步骤:步骤1、图像预处理阶段:将多分辨率的图像数据进行压缩灰度化,将OTSU二值化处理后的图像进行形态学进行预处理,得到仅含有水平横线的二值化图像,采用投影法进行水平直线增强并得到相应的直线横向坐标,最后进行表格矫正;步骤2、检测定位表格识别阶段;使用Harris进行角点检测,预框选出感兴趣表格区域,判断预框选区域是否存在直线的横向坐标,进而判定表格区域的准确性;步骤3、残缺表格的跨页拼接:对确定表格区域中的首尾表格进行完整状态检测并根据拼接规则进行跨页拼接;步骤4、将定位分割的表格进行单元格分割并进行OCR识别及表格数字化复现。与现有技术相比,本专利技术的有益效果是:1)图像预处理阶段中,现有的方案是直接进行直线检测,再进行处理,而本专利技术是先进行预直线检测,再进行准确的直线检测,这样就有效提高了直线坐标的提取准确性;2)通过形态学直线提取检测,并进行投影法进行直线重绘增强;采用Harris角点检测结合形态学投影得到的直线坐标进行文本区域与表格区域的检测分割;根据Harris确定的感兴趣区域上下界限值、第一条直线、最后一条直线之间的对应关系及拼接规则进行跨页拼接;采用形态学方法检测表格中横线与竖线的交点进而实现单元格的分割;采用投影法进行处理分割后的单元格便于CRNN更好的OCR识别。该方法可以有效的识别特殊残缺表格,并能进行跨页拼接,使用方法简洁有效。3)本方法提出的残缺表格识别及跨页拼接方法,将特殊残缺表格识别的问题转化为区域划分及水平直线检测的问题,将复杂问题分解为多个简单问题,极大的简化了复杂表格不能准确识别分割的问题,为大量库存的纸质版特殊文本表格数字化提供了理论依据,为多种复杂表格的数字化提供了可行方案。附图说明图1为本专利技术方法实现框图;图2为本专利技术整体工作流程图;图3为本专利技术形态学法水平直线检测结果与投影法增强结果;图4为本专利技术A4纸张大小表格图像样本;图5为本专利技术部分特殊表格图像角点检测及表格识别结果;图6为本专利技术跨页拼接实现规则;图7为本专利技术跨页拼接实现(a)待拼接上下页(b)跨页拼接实现图;图8为本专利技术特殊表格类型;图9为本专利技术表格单元格横竖线检测结果图;图10为本专利技术表格单元格横竖线交点显示结果图;图11为本专利技术表格单元格交点检测结果图;图12为本专利技术表格单元格边界处理流程图;图13为本专利技术CRNN网络架构图。具体实施方式通过Harris角点检测的方式确定感兴趣区域,进而根据文本区域与表格区域的特殊性进行单独分割处理。将表格区域进行单元格的分割处理,文字区域以行为标准进行划分处理,将分割划分处理后的图像数据传入卷积循环神经网络(CRNN)进行OCR文字识别,进而进行数据库存储等后续操作。参见图1和图2,本专利技术的提供的一种简捷有效的残缺表格识别及跨页拼接方法,包括如下步骤:步骤1、图像预处理阶段:步骤101、多分辨率的图像压缩灰度化,包括以下步骤:(1)输入图像彩色图像(2)转换为灰度图像步骤102、OTSU二值化处理;使用OTSU算法实现对输入灰度图像的二值化处理。步骤103、形态学处理,预提取直线;图像形态学操作时候,可以通过自定义的结构元素实现结构元素对输入图像一些对象敏感,另外一些对象不敏感,这样就会让敏感的对象改变。而不敏感的对象输出,通过使用最基本的两个形态学操作-膨胀和腐蚀,使用不同的结构元素实现对输入图像的操作、得到想要的结果。主要步骤如下所示:(1)输入OTSU二值化后的图像(2)定义水平结构元素(3)开操作(腐蚀+膨胀)提取水平直线步骤104、投影法进行水平直线增强,得到相应的直线横向坐标;针对形态学检测水平直线存在直线中的部分区域未显示及显示不连续等问题,采用投影法对形态学检测的结果进行再次检测重绘,增强线条的连续完整性。如图3所示为形态学法水平直线检测结果与投影法增强结果。投影法就是数字图像在某个方向上进行像素累加。通过水平和垂直方向的投影,可以得到表格图像投影的几个特点:(1)表格区域的水平与竖直投影分布通常出现周期性的尖峰(2)在文字投影的行与行之间或列与列之间常会出现明显的空白区因此,求图像水平以及竖直投影,根据特点分别设以阈值就可以将横线以及竖直线所在位置确定。(1)求图像的水平投影、竖直投影;(2)设定合理阈值,求取大于阈值的坐标(水平投影记录纵坐标,垂直投影记录横坐标)(3)根据记录纵坐标恢复水平线,根据记录横坐标恢复竖直线。步骤105、根据横向坐标进行表格矫正。根据得到的横向坐标,计算直线的斜率,进而实现基于直线检测的倾斜表格矫正。步骤2、检测定位表格识别阶段由于检测对象是具有一定特征的A4大小的纸张,感兴趣区域为上下页边距以及左右边距所围成的矩形区域。在感兴趣之外部分几乎不存在任何黑色像素等图像可处理对象。选用Harris进行角点检测,确定感兴趣区域。Harris角点检测的过程如下:(1)求出I(x,y)在x、y方向上的梯度Ix,Iy(2)求出在x、y方向上的梯度乘积,Ixy=Ix*Iy(3)对Ix,Iy,Ixy进行高斯加权,从而产生A,B,C三个元素,如下:(4)求出每个像素的Harris响应值R,令小于阈值(阈值一般为0.01*np.max(R))的响应值R为0(5)进行3*3邻域非极大值抑制,即如果该点的值比3*3邻域的其他角点小,则删除该角点(6)记录下角点在原图像的位置,即图像角点所在的位置如图4所示的表格图像的A4纸张大小样本,需要将感兴趣区域进行预框选:图4中,虚线区域内为本文的感兴趣区域。如图5中(c)为正常表格的识别结果,(a)和(b)为特殊残缺表格的识别结果,现有方法针对图5(c)的正常表格可以很好的进行识别,对于图5(a)和(b)识别效本文档来自技高网...

【技术保护点】
1.一种简捷有效的残缺表格识别及跨页拼接方法,其特征在于,包括如下步骤:/n步骤1、图像预处理阶段:将多分辨率的图像数据进行压缩灰度化,将OTSU二值化处理后的图像进行形态学进行预处理,得到仅含有水平横线的二值化图像,采用投影法进行水平直线增强并得到相应的直线横向坐标,最后进行表格矫正;/n步骤2、检测定位表格识别阶段;使用Harris进行角点检测,预框选出感兴趣表格区域,判断预框选区域是否存在直线的横向坐标,进而判定表格区域的准确性;/n步骤3、残缺表格的跨页拼接:对确定表格区域中的首尾表格进行完整状态检测并根据拼接规则进行跨页拼接;/n步骤4、将定位分割的表格进行单元格分割并进行OCR识别及表格数字化复现。/n

【技术特征摘要】
1.一种简捷有效的残缺表格识别及跨页拼接方法,其特征在于,包括如下步骤:
步骤1、图像预处理阶段:将多分辨率的图像数据进行压缩灰度化,将OTSU二值化处理后的图像进行形态学进行预处理,得到仅含有水平横线的二值化图像,采用投影法进行水平直线增强并得到相应的直线横向坐标,最后进行表格矫正;
步骤2、检测定位...

【专利技术属性】
技术研发人员:吕志刚李亮亮王鹏高武奇岳鑫李晓艳郭翔宇李超
申请(专利权)人:西安工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1