一种文档图像的版式识别方法技术

技术编号：12178918 阅读：85 留言：0更新日期：2015-10-08 17:04

本发明专利技术公开了一种文档图像的版式识别方法，首先设计了一个版式入库功能，库中会保存版式内容，以及由版式内容相对字高、对齐方式生成的版式序列号，如果一张未知图片经过版式分析，得到的版式序列号与库中的某个版式序列号一样，那么将通过库中的提示信息去提取该未知图片的版式信息。本发明专利技术通过高效以及准确的版面分析方法来识别文档图片，尤其适用于中文公文文档图像的版式识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于模式识别领域，是一种针对文档扫描图像提出的版式识别方法。
技术介绍
近年来，随着中国经济快速发展，政府部门指导和制定的政策越来越多，国家以及地方政策以公文的形式下发，随着科技的发展，越来越多的公文等文档以图像的格式保存。面对数量巨大、版式各异的公文，我们需要能够对其自动区分出公文的版式，而非人力。公文即党政机关公文。公文的种类简称文种，国务院办公厅发布的《国家行政机关公文处理暂行办法》将国家行政机关的公文归纳为九类十三种，命令、决定、公告、通知、通报、议案、报告、请示、批复、意见、函、会议纪要。公文中包含份号、密级和保密期限、紧急程度、发文机关标志、发文字号、签发人、版头中的分割线、标题、主送机关、正文等属性。在具体执行过程中，一份公文不一定包含上述所有属性，随着公文数量的增加，扫描仪等电子设备的广泛应用，公文得以以扫描图像的格式保存，因此如何有效对公文等图片进行版式识别是十分必要的。如何从大量图片中检测出特定文档图片，以及正确提取文档图片相应的信息，迄今为止，依然没有什么好办法。目前，版面分析技术已经发展到了针对不同的文档使用不同的技术。马壮，赵国权，任占鹏等人提出了基于OCR识别技术的自动阅卷系统研宄。这是一种自顶向下的分析方法，是指从页面的整体出发，重视全局信息，把整体图像划分为若干个区域，再根据文本图像的层次化结构信息，对主区域继续划分。武玉坤提出了基于OCR的名片系统研宄，该研宄中用到了版面分析的自底向上的分析方法，从图像的像素出发，重视局部信息，将图像小区域逐步合成大区域，字一一词一一文本行一一段落等，直至覆盖整个图像。...

【技术保护点】
一种文档图像的版式识别方法，包括以下步骤：1)根据不同文档样本的版式图片，生成版式特征库；2)扫描待识别的文档，得到扫描图像；3)对扫描图像进行文本行分割，确定待识别文档的正文；4)对待识别文档正文以上的部分进行区域划分，并获取每个区域的版式信息；5)将步骤4)得到的版式信息与版式特征库中的版式信息进行匹配，如果匹配上，则从版式特征库中提取对应的版式信息；如果未匹配上，则将每个区域的版式信息与预先设定的版式字集匹配，获得版式识别结果信息。

【技术特征摘要】

【专利技术属性】
技术研发人员：时金桥，范晓鹏，陈小军，郭莉，蒲以国，文新，邹亚劼，王洋，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人