本发明专利技术公开了一种表格分析编改加工方法,所述方法包括:扫描文档、并对扫描后的文档图像进行处理;对扫描处理后的图像通过表格版面分析算法生成表格版面,并对生成的表格版面进行分析调整;将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对;对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对;对纵向编改后的字进行横向编改;根据表格版面信息和文字纵横向编改信息,合成电子表格文件。本发明专利技术对正常的纸质表格文档,编改效率可提高11倍,达到50万字/8小时;同时表格版面层次错误率低于3‰,编改文字错误率降低50%以上,低于0.5‰。
【技术实现步骤摘要】
本专利技术涉及可应用于纸质表格电子化过程中表格数字化加工过程,尤其涉及。
技术介绍
在纸质表格电子化的过程中,OCR软件很难准确的直接设别出复杂表格的结构和文字,因此OCR识别前的版面调整和识别后的文字编改工作均耗费了极大的人力,它是一项人力密集性工作,劳动强度也很高。目前的应用现状是用普通OCR软件进行表格图像版面分析,对分析不准的表格结构进行调整或重画版面,经过识别后再进行一次编改校正,在保证没人4万字/8小时正常编改的速度下,编改的错误率通常也会超过1%。,而表格结构的错误率更加难以控制,通常会在1%以上。 由于表格数据的加工对精度要求极高,往往一字之差谬以千里,现有的数据加工模式远不能满足对精度的要求,而且应对海量数据加工的人工成本过高,因此需要开发一套符合特定生产要求的表格数据加工系统,提供一个自动化高效的数据加工平台辅助人工处理各种文献资料中大量的表格数据,以达到提高效率和质量,降低成本的目的。
技术实现思路
为解决上述中存在的表格数字化加工过程中人工编改效率低,错误率高的问题与缺陷,本专利技术提供了,该方法可以极大地提高人工编改的效率,降低成本。所述技术方案如下,包括步骤10扫描文档、并对扫描后的文档图像进行处理;步骤20对扫描处理后的图像通过表格版面分析算法生成表格版面,并对生成的表格版面信息进行调整;步骤30将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对;步骤40对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对;步骤50对纵向编改后的字进行横向编改;步骤60根据表格版面信息和文字纵横向编改后的文字,合成电子表格文件。本专利技术提供的技术方案的有益效果是对正常的纸质表格文档,编改效率可提高11倍,达到50万字/8小时;同时表格版面层次错误率低于3%。,编改文字错误率降低50%以上,低于O. 5%。。附图说明图I是表格分析编改加工方法流程图;图2是基于网络和数据库的表格分析编改加工流程系统图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进ー步地详细描述本实施例提供了,所述方法包括 扫描文档、并对扫描后的文档图像进行处理;对扫描处理后的图像通过表格版面分析算法生成表格版面,并对生成的表格版面信息进行调整;将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对;对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对;对纵向编改后的字进行横向编改;根据表格版面信息和文字纵横向编改信息,合成电子表格文件。为提高OCR识别软件识别正确率,对文档统ー采用300DPI精度进行扫描,随后对图像进行矫正、去污、去噪等处理。上述表格版面信息包括表格版面的単元格位置、语种、行列表头及数据区属性。上述对扫描后的图像通过表格版面分析算法生成表格版面,检查版面分析結果,纠正错误结果,检查后,对图像缺陷进行必要的修补,保证表格结构分析正确。上述表格版面分析算法包含以下内容表格线调整算法经过初始行列扫描获得初始表格线存在较多干扰由于表格图像页眉页脚线及文字粘连及加粗而错识的非表格线;由于图像质量造成的文字断线;由于表格样式规定省略的外围框线或者数据区的表格线等;因此要将这些初始表格线进行整理规则。非表格线剔除利用页眉页脚线与表格线的位置及行列交叉交叉属性去除页眉页脚线,文字线周围联通区域特征性去除文字线。根据表格线的规则及数据排列特性实现数据区域表格线添加,表格断线处理。单元格生成算法运用基于表格知识的单元格生成算法,不只考虑单元格矩形的封闭特性,综合考虑直线包围棉结的大小等特征。単元格生成算法的主要内容将检索处理后的横向表格线与纵向表格线分别按从上到下、从左到右排序。嵌套单元格处理针对统计年鉴中出现较多的嵌套表格,运用置虚边的方式将包含単元格分裂为两个具有虚边特征的单元格,在表格还原时利用虚边重构为包含特征的単元格。単元格虚边处理根据表格行表头区域単元格结构复杂但数据区多为通行同列的特性,分别采用基于单元格和基于表格整行整列线的分析方法包括行表头根据每个单元格的边界局部特征分析虚边;对于数据区分析整个数据区表格线位置附近的像素特征,根据有效像素长度判断表格线的虚实情況,实现较好的效果。単元格文字矩形分析分析每个单元格内文字框易受到表格线的影响,采用先擦除表格线然后再利用算法跳过表格线以找到准确文字框。无线、通栏及三线表格识别通过选中单元格区域分析或者默认单个表格分析此类单元格。表头表尾块的自动识别根据表头表尾与表格的位置关系特征确定表头表尾块的起始終止位置,并根据文字的行列添加表格的表头表尾块信息。列表头层次自动分析 从图像中的列表头每行的文字起始位置自动分析出其层次递进关系。上述扫描图像和调整后的版面信息分别传入“FineReader”和“汉王” OCR识别软件进行双路识别。“FineReader”和“汉王”是国内外对中文和英文都具有较高识别率的OCR系统,它们对清晰印刷体汉字图像识别率都在98%以上。通过对比测试,“FineReader”和“汉王”识别软件具有很强的互补性,我们利用它们的识别结果并进行逐个单元格逐字对比,过滤出具有相同的识别结果的文字,不进行人工编改;将识别不同字进行编改校对。实际应用统计说明,对正常印刷体中英文字为主体的表格,无需编改的文字抛出率可达到95%,这部分文字的错误率达到O. 3%。以下。在双路比对前,针对应用需求,还对ー些字符做了必要的全角字符转半角字符的归ー化处理。这些字符包括A-Z、a-z、0-9、“ ! ”、“ ”等,共计80个字符。上述对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对,所谓纵向编改,是将需要改的常见字汇集到一起集中批量修改,所有需要纵编的字都在段落中标红,编过的字标蓝,且图文对照。按40万字ー批形成任务批次,可在一天内完成。正常情况下,上述过程的编改量只占全部应编改工作量的5%。纵编有效的提高了编改的效率,减轻了编改的劳动强度。为了提闻系统整体的正确率,王动加入了一些易混字和易错字,并对易混字和易错字全部进行纵編。如“人、入、一、ニ、卜、白、儿等字。对上述纵向编改后的字进行横向编改。横向编改即和图片对照逐个修改识别后的文字,所有需横编的字都在段落中标红,已纵编的字在段落中标绿,编过的字标蓝,且图文对照。以上所述仅为本专利技术的较佳实施例,并不用以限制本专利技术,凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。权利要求1.,其特征在于,所述方法包括 扫描文档、并对扫描后的文档图像进行处理; 对扫描处理后的图像通过表格版面分析算法生成表格版面,并对生成的表格版面信息进行调整; 将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对; 对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对; 对纵向编改后的字进行横向编改; 根据表格版面信息和纵横向编改后的文字,合成电子表格文件。2.根据权利要求I所述的表格分析编改加工方法,其特征在于,所述对扫描后的文档图像进行处理包括矫正、去污、去噪。3.根据权利要求I所述的表格分析编改加工方法,其特征在于,所述表格版面分析算法包括表格线调整算法、単元格生成算法、嵌套单元格处本文档来自技高网...
【技术保护点】
一种表格分析编改加工方法,其特征在于,所述方法包括:扫描文档、并对扫描后的文档图像进行处理;对扫描处理后的图像通过表格版面分析算法生成表格版面,并对生成的表格版面信息进行调整;将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对;对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对;对纵向编改后的字进行横向编改;根据表格版面信息和纵横向编改后的文字,合成电子表格文件。
【技术特征摘要】
【专利技术属性】
技术研发人员:张镔,王艳,梁洵,袁仁慧,
申请(专利权)人:同方光盘股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。