一种表格分析编改加工方法技术

技术编号：8161525 阅读：177 留言：0更新日期：2013-01-07 19:31

本发明专利技术公开了一种表格分析编改加工方法，所述方法包括：扫描文档、并对扫描后的文档图像进行处理；对扫描处理后的图像通过表格版面分析算法生成表格版面，并对生成的表格版面进行分析调整；将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对；对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对；对纵向编改后的字进行横向编改；根据表格版面信息和文字纵横向编改信息，合成电子表格文件。本发明专利技术对正常的纸质表格文档，编改效率可提高11倍，达到50万字/8小时；同时表格版面层次错误率低于3‰，编改文字错误率降低50％以上，低于0.5‰。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及可应用于纸质表格电子化过程中表格数字化加工过程，尤其涉及。
技术介绍
在纸质表格电子化的过程中，OCR软件很难准确的直接设别出复杂表格的结构和文字，因此OCR识别前的版面调整和识别后的文字编改工作均耗费了极大的人力，它是一项人力密集性工作，劳动强度也很高。目前的应用现状是用普通OCR软件进行表格图像版面分析，对分析不准的表格结构进行调整或重画版面，经过识别后再进行一次编改校正，在保证没人4万字/8小时正常编改的速度下，编改的错误率通常也会超过1%。，而表格结构的错误率更加难以控制，通常会在1%以上。由于表格数据的加工对精度要求极高，往往一字之差谬以千里，现有的数据加工模式远不能满足对精度的要求，而且应对海量数据加工的人工成本过高，因此需要开发一套符合特定生产要求的表格数据加工系统，提供一个自动化高效的数据加工平台辅助人工处理各种文献资料中大量的表格数据，以达到提高效率和质量，降低成本的目的。
技术实现思路
为解决上述中存在的表格数字化加工过程中人工编改效率低，错误率高的问题与缺陷，本专利技术提供了，该方法可以极大地提高人工编改的效率，降低成本。所述技术方案如下，包括步骤10扫描文档、并对扫描后的文档图像进行处理；步骤20对扫描处理后的图像通过表格版面分析算法生成表格版面，并对生成的表格版面信息进行调整；步骤30将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对；步骤40对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对；步骤50对纵向编改后的字进行横向编改；步骤60根据表格版面信息和文字纵横向编改后的文字，合成电子表格文...

【技术保护点】
一种表格分析编改加工方法，其特征在于，所述方法包括：扫描文档、并对扫描后的文档图像进行处理；对扫描处理后的图像通过表格版面分析算法生成表格版面，并对生成的表格版面信息进行调整；将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对；对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对；对纵向编改后的字进行横向编改；根据表格版面信息和纵横向编改后的文字，合成电子表格文件。

【技术特征摘要】

【专利技术属性】
技术研发人员：张镔，王艳，梁洵，袁仁慧，
申请(专利权)人：同方光盘股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人