本发明专利技术公开了一种文档图像的版式识别方法,首先设计了一个版式入库功能,库中会保存版式内容,以及由版式内容相对字高、对齐方式生成的版式序列号,如果一张未知图片经过版式分析,得到的版式序列号与库中的某个版式序列号一样,那么将通过库中的提示信息去提取该未知图片的版式信息。本发明专利技术通过高效以及准确的版面分析方法来识别文档图片,尤其适用于中文公文文档图像的版式识别。
【技术实现步骤摘要】
本专利技术属于模式识别领域,是一种针对文档扫描图像提出的版式识别方法。
技术介绍
近年来,随着中国经济快速发展,政府部门指导和制定的政策越来越多,国家以及地方政策以公文的形式下发,随着科技的发展,越来越多的公文等文档以图像的格式保存。面对数量巨大、版式各异的公文,我们需要能够对其自动区分出公文的版式,而非人力。公文即党政机关公文。公文的种类简称文种,国务院办公厅发布的《国家行政机关公文处理暂行办法》将国家行政机关的公文归纳为九类十三种,命令、决定、公告、通知、通报、议案、报告、请示、批复、意见、函、会议纪要。公文中包含份号、密级和保密期限、紧急程度、发文机关标志、发文字号、签发人、版头中的分割线、标题、主送机关、正文等属性。在具体执行过程中,一份公文不一定包含上述所有属性,随着公文数量的增加,扫描仪等电子设备的广泛应用,公文得以以扫描图像的格式保存,因此如何有效对公文等图片进行版式识别是十分必要的。如何从大量图片中检测出特定文档图片,以及正确提取文档图片相应的信息,迄今为止,依然没有什么好办法。目前,版面分析技术已经发展到了针对不同的文档使用不同的技术。马壮,赵国权,任占鹏等人提出了基于OCR识别技术的自动阅卷系统研宄。这是一种自顶向下的分析方法,是指从页面的整体出发,重视全局信息,把整体图像划分为若干个区域,再根据文本图像的层次化结构信息,对主区域继续划分。武玉坤提出了基于OCR的名片系统研宄,该研宄中用到了版面分析的自底向上的分析方法,从图像的像素出发,重视局部信息,将图像小区域逐步合成大区域,字一一词一一文本行一一段落等,直至覆盖整个图像。这些方法都是针对字体差不多大小的版式,采用的算法是模板匹配算法,连通域算法等,其缺点是运算量大,速度慢。目前现有文本行、字符切分方法在中文、数字混排环境以及不同字号文字混排情况下不能准确的进行切分,公文识别系统中,关于发文代字、以及发文部门、标题等都是字体大小不一的。因此,需要一个高效以及准确的版面分析方法来识别文档图片。
技术实现思路
针对上述问题,本专利技术的目的是提供,通过高效以及准确的版面分析方法来识别文档图片,尤其适用于中文公文文档图像的版式识别。为了实现上述目的,本专利技术采用以下技术方案:—种文档图像的版式识别方法,包括以下步骤:I)根据不同文档样本的版式图片,生成版式特征库。进一步地,所述版式特征库中保存不同文档样本的版式内容及由版式内容相对字高、对齐方式生成的版式序列号。为了更加准确的提取版式信息,本专利技术首先设计了一个版式入库功能,就是通过用户界面,对输入的版式图片,由用户画矩形框去标明哪块是标题,哪块是发文部门、哪块是发文代字等,然后入库,库中会保存版式内容,以及由版式内容相对字高、对齐方式生成的版式序列号,该版式序列号在版式信息提取中非常重要。它是通过排序的序号,以及对齐方式产生的数字序列号生成的。如版式内容有3块,排序结果后产生的第一个序列为001221,第一个O表不第一块,第二个O表不第一块为最大,I表不第二块,2表不第二块为第三大,以此类推。对齐方式产生的第二个序列为212,其中2表示居中对齐,I表示右对齐。那么它的序列号为001221212。在版式分析阶段只有一个序列号,如果一张未知图片经过版式分析,得到的版式序列号与库中的某个版式序列号一样,那么将通过库中的提示信息去提取该未知图片的版式信息。生成的这个版式特征库可以提高版式信息提取的准确性。2)扫描待识别的文档,得到扫描图像。本步骤还可以包括对扫描图像进行预处理,所述预处理包括去噪(去油墨、去印章)、倾斜矫正等。有些文档在打印过程中可能会产生打印油墨,在扫描过程中可能会产生其他噪声,尤其是椒盐噪声。其次,一些文档图片加盖了一些印章,它会对正常的版式区域产生干扰,这也导致了后续的OCR (Optical Character Recognit1n,光学字符识别)识别反馈结果是一片乱码。再次,文档图片的倾斜会对文本行分割产生干扰。因此需要该专利技术系统提供图片的去噪处理功能,以增强该项专利技术的鲁棒性与准确性。3)对扫描图像进行区域划分,确定待识别文档的正文。根据投影信息对扫描图像进行文本行分割,主要通过黑白像素点的纹理特征来确定切割位置。找出文本行的最小字号,自底向上找到正文的文本结束行,然后自顶向下寻找能与结束行匹配的文本起始行。如果找不到正文起始行或者正文结束行,将正文起始行标记为0,正文结束行标记为文本行的结尾。正文起始行和正文结束行之间是文档的正文。4)对待识别文档正文以上的部分进行区域划分,并获取每个区域的版式信息。对正文以上的部分,把具有相同的字高、行间距、对齐方式的行放到同一个区域。以及在同一个区域内部如果左侧有多个文本行,右侧只有一个文本行,需要对区域再次划分,把右侧的一个文本行作为该区域的子区域。划分好的区域将产生一个版式序列号,该版式序列号是由对齐方式,相对字高生成的。所述版式信息包括:区域内字号大小、排序、区域相对于整个扫描图像的对齐方式。5)将步骤4)得到的版式信息与版式特征库中的版式信息进行匹配,如果匹配上,则从版式特征库中提取对应的版式信息;如果未匹配上,则将每个区域的版式信息与预先设定的版式字集(当文档为公文文档时,该版式字集包括标题字集,部门字集及发文代字字集)匹配,获得版式识别结果信息。具体来说,步骤4)得到的版式信息主要是针对待识别文档图片,主要是版式序列号,及每个区域的OCR结果。版式特征库中的版式信息主要是:每一个入库图片对应的规贝1J,也即:1)版式序列号;2)信息标签(即所属信息对应的区域号),比如标题是第几块,发文部门是第几块,发文代字是第几块。如果某个待处理的图片匹配到了序列号,按信息标签对应对待处理图片提取信息,如标题的序列号:1,I表示第一个区域是标题。通过以上步骤,可以完成对图片版式的分析,最终正确提取相应的版式信息。其中寻找文档图像的正文、以及确定正文以上部分的版式区域是本专利技术的核心。本专利技术的有益效果在于:与现有技术相比,本专利技术提供的版式识别方法具有较高的识别准确率、精度和效率,且具有较大的实用性和应用价值。【附图说明】图1是本专利技术版式识别方法的整体流程图。图2是本专利技术实施例1中公文示意图。图3是本专利技术实施例1中提取的版式信息示意图。图4是本专利技术实施例2中公文示意图。图5是本专利技术实施例2中提取的版式信息示意图。【具体实施方式】以下将以中文公文文档为例,结合附图对本专利技术的实施方式做详细说明。本专利技术版式识别方法的整体流程如图1所示,具体包括五个步骤:1.对公文扫描图像进行预处理,对图像进行尺寸调整、去除模糊、倾斜校正等操作,以利于公文的版式识别。具体处理过程如下:(I)对于去除椒盐噪声,根据开关滤波思想,本专利技术准备使用max-min算子作为椒盐噪声检测器,利用自适应邻域窗口对图像进行从左到右的逐行扫描,同时对位于窗口中心的像素点进行噪声判别。如果该点的灰度值处于极大值和极小值之间,则认为该点为被噪声污染;若该点的灰度值等于极值,则认为该点可能被椒盐噪声污染,然后再利用改进的方法进行判别,并将运算结果作为该点的替代值。(2)去除标题上部分的印章,利用canny边缘检测,寻找轮廓,根据一些样本的训练值,当边缘的轮廓面积大于某一阈值本文档来自技高网...
【技术保护点】
一种文档图像的版式识别方法,包括以下步骤:1)根据不同文档样本的版式图片,生成版式特征库;2)扫描待识别的文档,得到扫描图像;3)对扫描图像进行文本行分割,确定待识别文档的正文;4)对待识别文档正文以上的部分进行区域划分,并获取每个区域的版式信息;5)将步骤4)得到的版式信息与版式特征库中的版式信息进行匹配,如果匹配上,则从版式特征库中提取对应的版式信息;如果未匹配上,则将每个区域的版式信息与预先设定的版式字集匹配,获得版式识别结果信息。
【技术特征摘要】
【专利技术属性】
技术研发人员:时金桥,范晓鹏,陈小军,郭莉,蒲以国,文新,邹亚劼,王洋,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。