一种简捷有效的残缺表格识别及跨页拼接方法技术

技术编号：25522822 阅读：56 留言：0更新日期：2020-09-04 17:12

本发明专利技术公开了一种简捷有效的残缺表格识别及跨页拼接方法，通过直线提取检测表格矫正，采用提出的残缺表格定位识别算法，得到残缺表格的准确位置，出现上下页残缺时，对残缺表格进行跨页拼接并进行单元格分割等处理。首先采用形态学投影实现直线检测并进行表格矫正；然后使用Harris进行角点检测，预框选出感兴趣区域，判断预框选区域是否存在直线得到准确的表格区域；其次，对确定表格区域中的首尾表格进行完整状态检测并根据拼接规则进行跨页拼接；最后，将分割表格进行单元格分割并使用CRNN实现OCR识别及表格数字化复现数据库存储等操作。该方法能有效的识别特殊残缺表格，并能进行跨页拼接，使用方法简洁有效。

全部详细技术资料下载

【技术实现步骤摘要】
一种简捷有效的残缺表格识别及跨页拼接方法
本专利技术涉及表格识别及深度学习领域，特别是一种简捷有效的残缺表格识别及跨页拼接方法。
技术介绍
随着图像处理技术和光学字符识别(OCR)技术的不断发展，表格信息自动化处理成为目前很多组织机构构建信息化系统的关键所在。表格文档作为业务数据的重要载体，研究如何实现表格文档图像的自动化提取对实现自动化数据采集而言有重要意义。目前将纸质表格存储为电子表格目前大多采用人工录入，存在工作量大、繁琐和准确率低等问题；同时对于特殊残缺不完整表格识别效果不佳、跨页表格不能完整拼接等问题。
技术实现思路
本专利技术提供一种简捷有效的残缺表格识别及跨页拼接方法，以解决现有方法对不完整表格识别准确率低、跨页表格不能完整拼接的问题。为了达到本专利技术的目的，本专利技术提出的方案如下：一种简捷有效的残缺表格识别及跨页拼接方法，包括如下步骤：步骤1、图像预处理阶段：将多分辨率的图像数据进行压缩灰度化，将OTSU二值化处理后的图像进行形态学进行预处理，得到仅含有水平横线的二值化图像，采用投影法进行水平直线增强并得到相应的直线横向坐标，最后进行表格矫正；步骤2、检测定位表格识别阶段；使用Harris进行角点检测，预框选出感兴趣表格区域，判断预框选区域是否存在直线的横向坐标，进而判定表格区域的准确性；步骤3、残缺表格的跨页拼接：对确定表格区域中的首尾表格进行完整状态检测并根据拼接规则进行跨页拼接；步骤4、将定位分割的表格进行单元格分割...

【技术保护点】
1.一种简捷有效的残缺表格识别及跨页拼接方法，其特征在于，包括如下步骤：/n步骤1、图像预处理阶段：将多分辨率的图像数据进行压缩灰度化，将OTSU二值化处理后的图像进行形态学进行预处理，得到仅含有水平横线的二值化图像，采用投影法进行水平直线增强并得到相应的直线横向坐标，最后进行表格矫正；/n步骤2、检测定位表格识别阶段；使用Harris进行角点检测，预框选出感兴趣表格区域，判断预框选区域是否存在直线的横向坐标，进而判定表格区域的准确性；/n步骤3、残缺表格的跨页拼接：对确定表格区域中的首尾表格进行完整状态检测并根据拼接规则进行跨页拼接；/n步骤4、将定位分割的表格进行单元格分割并进行OCR识别及表格数字化复现。/n

【技术特征摘要】
1.一种简捷有效的残缺表格识别及跨页拼接方法，其特征在于，包括如下步骤：
步骤1、图像预处理阶段：将多分辨率的图像数据进行压缩灰度化，将OTSU二值化处理后的图像进行形态学进行预处理，得到仅含有水平横线的二值化图像，采用投影法进行水平直线增强并得到相应的直线横向坐标，最后进行表格矫正；
步骤2、检测定位...

【专利技术属性】
技术研发人员：吕志刚，李亮亮，王鹏，高武奇，岳鑫，李晓艳，郭翔宇，李超，
申请(专利权)人：西安工业大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人