一种版式识别模板方法及系统技术方案

技术编号:5505972 阅读:354 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种版式识别模板方法及系统,属于文字识别技术领域,包括如下步骤:对于扫描页面进行轮廓分析,查找出与页面连通域重合率达到设定阀值的版式模板;将所述版式模板中的标记块与扫描页面中的信息进行匹配,提取并识别已匹配标记块的页眉页角信息;切去已识别的所述标记块,提交给后续识别流程。本发明专利技术通过采用区域识别模板对版面固定格式区域版面进行识别,并将其从识别目标中剥离,提升了页面区域内识别的效率,采用本发明专利技术所述的方法,简化了一般扫描页面识别的内容,并且基于此模板能够方便的通过人工进行识别管理。

【技术实现步骤摘要】

本专利技术属于OCR文字识别
,具体涉及一种版式识别模板方法及系统
技术介绍
页眉页脚处在文档中每个页面的顶部和底部区域,常用于显示文档的附加信息, 可以插入页码,图形,公司logo,文档标题,文件名及作者姓名等,这些信息对于文档的管理非常重要。在OCR文字识别
中,页眉页脚信息简单,但是对于整个文档识别的管理 非常重要。但同时,页眉页脚的信息有时又相对重复,例如公司logo,文档标题,文件名及作 者姓名等信息,在每个页面中无论是位置还是内容,都是相同的,对于现有的页面识别方法 或系统,如果对多个页面的这些相同内容进行重复识别,会浪费大量时间,同时大大降低页 面区域内识别的效率。而对于页眉页脚的有些非常重要的信息,例如页码信息,如果某个页 面中的页码信息被污点遮盖,造成无法识别或者无法准确识别,那么对于整个文档的后续 管理会有很大影响。
技术实现思路
本专利技术的目的在于针对现有OCR文字识别技术中存在的问题,提供一种对文档扫 描件进行识别的版式识别模板方法及系统,以提高页面区域内识别的效率。本专利技术的技术方案如下一种版式识别模板方法,包括如下步骤(Si)对扫描页面进行轮廓分析,查找出与页面连通域重合率达到设定阀值的版式 模板;(S2)将所述版式模板中的标记块与扫描页面中的信息进行匹配,提取并识别已匹 配标记块的页眉页角信息;(S3)切去扫描页面中已识别的标记块所对应的信息,将处理后的扫描页面提交给 后续识别流程。进一步,如上所述的版式识别模板方法,步骤(Si)中还包括对扫描页面进行归一 化处理的操作。更进一步,如上所述的版式识别模板方法,所述归一化处理是指将扫描中造成的 页面变形进行矫正,归一化处理包括a)根据识别的行列的拟合曲线,计算出页面的倾斜曲率;b)对页面按照所述的倾斜曲率进行矫正。进一步,如上所述的版式识别模板方法,该方法还包括,对已识别的标记块中的信 息,与其他页面同样标记块中识别出的信息进行对比分析,并自动矫正标记块的内容。进一步,如上所述的版式识别模板方法,在步骤(Si)之前,还包括模板库的构建, 或者向模板库中添加新版式模板的操作。进一步,如上所述的版式识别模板方法,所述的版式模板是由定义与页面近似大小的矩形框以及用于标记页面中页眉页脚的大小和分布的标记块组成,所述的标记块为一 个矩形区域,以及记录该区域文字类型的版面块。进一步,如上所述的版式识别模板方法,步骤(S》中,将版式模板中的标记块与 页面信息连通域按照位置匹配,当两个区域矩形重合率达到设定阀值即认为该信息连通域 与该标记块匹配。更进一步,如上所述的版式识别模板方法,步骤(S》中,提取与页面中页眉页角 信息匹配的标记块,对提取的标记块内文字信息进行识别,并记录在标记块内。一种版式识别模板系统,包括模板库,用于保存页面识别的版式模板;识别模块,用于将版式模板中标记块与页面信息连通域按照位置匹配,并将标记 块内文字进行识别; 评价模块,用于对多页中识别的同标记块内容进行准确度评价及自动矫正;切分模块,用于将已识别的标记块对应的页面信息连通区域擦除。进一步,如上所述的一种版式识别模板系统,系统可带有多个模板库。进一步,如上所述的一种版式识别模板系统,系统中版式模板与页面按照指定顺 序匹配。本专利技术的有益效果如下本专利技术通过采用区域识别模板对版面固定格式区域进行 识别,并将其从识别目标中剥离,提升了页面区域内识别的效率,采用本专利技术所述的方法, 简化了一般扫描页面识别的内容,并且基于此模板能够方便的通过人工进行识别管理。另 外,本专利技术可以依据相同位置识别的页眉页角信息进行对比分析,自动矫正其内容。附图说明图1为本专利技术实施例中一种版式识别模板系统结构图;图2为本专利技术实施例中一个版式识别模板方法流程图;图3为本专利技术实施例中一个原始扫描页面;图4为实施例中图3经过归一化处理后的效果;图5为实施例中的最适合图3的版式模板图样;图6为实施例中切去标记块后的页面图样。具体实施例方式下面结合说明书附图对本专利技术的具体实施方式进行详细说明。如图1所示,本专利技术提供了一种版式识别模板系统,包括模板库11,用于保存页面识别的版式模板;识别模块12,用于将版式模板中标记块与页面连通域按照位置匹配,并将标记块 内文字进行OCR识别;评价模块13,用于对多页中识别的同标记块内容进行准确度评价及自动矫正;切分模块14,用于将已识别的标记块对应的页面连通区域擦除。版式识别模板系统中可以带有多个模板库,模板库的构建是本专利技术所实现的版式 识别模板方法的前提。在不存在模板库的情况下,应该先进行模板库的构建,并向模板库中添加版式模板。同时,模板库又是随时动态更新的,在有新型结构的扫描页面出现时,首先 应该构建相应的版式模板,保存在模板库中,以供页面识别时调用。系统模板库中的版式模板与具体文档的页面是按照指定顺序进行匹配的,如先匹 配左页,再匹配右页。上述系统所实现的一种版式识别模板方法如图2所示,该方法包括如下步骤Sl 对于扫描页面进行轮廓分析,在模板库中查找最适合的版式模板。本专利技术实施例中,版式模板是由定义与页面近似大小的矩形框以及手工标记的标 记块组成,标记块用于标记页面中页眉页脚的大小和分布,标记块是一定大小的矩形区域, 及记录该区域文字类型的版面块。本专利技术实施例中,还包括,根据查找的最适合的版式模板,对扫描页面进行归一化 处理。归一化处理是指,将扫描中造成的页面变形进行矫正,典型如页面弯曲,大小有轻微 变化。扫描页面的归一化处理所采用的都是一些公知的图像处理技术。S2:将所述版式模板中的标记块与扫描页面中的信息进行匹配,提取并识别已匹 配标记块的页眉页角信息。本专利技术实施例中,版式模板中标记块与页面连通域按照位置匹配,即两个区域矩 形重合率达到设定阀值即认为该信息连通域与该标记块匹配。本专利技术实施例中,提取与页面中页眉页角信息匹配的标记块,对提取的标记块内 文字信息进行识别,并记录在标记块内。本专利技术实施例中,还包括,对已识别的标记块中的信息,与其他页面同样标记块中 识别出的信息进行对比分析,并自动矫正标记块的内容。对于同一个文档当中的不同页面 的同样标记块所对应的信息,一般是相同的,或者是呈现规律性变化的(如页码),对这些 信息进行对比分析,可实现系统的准确度评价以及自动矫正,通过编程来实现这一功能对 于本领域的技术人员来说是很容易实现的技术手段。S3:切去扫描页面中已识别的标记块所对应的信息,将处理后的扫描页面提交给 后续识别流程。下面为本专利技术具体的实施例描述,以详细说明版式识别模板方法的具体技术细节。图3为本专利技术实施例中一个原始扫描页面。由图中可以看出,该原始扫描页面有 些倾斜,整个页面内容由三部分组成,页眉、主页面及页脚。页眉分为三部分,左边部分是公 司的logo和简称,中间部分是所属章节编号,右边部分是所属章节名称。页脚分为两个部 分,左边是公司的全称及联系方式,右边页码及公司的logo。图4为实施例中图3经过归一化处理后的效果。由图中可以看出,经过归一化处 理,原始扫描页面的倾斜问题有了很大改善。本专利技术中,所述归一化处理是指,将扫描中造 成的页面变形进行矫正。现有技术中对页面进行归一化处理的方法有很多,本实施例中,对页面倾斜进行 归一化处理,包括本文档来自技高网...

【技术保护点】
一种版式识别模板方法,包括如下步骤:(S1)对扫描页面进行轮廓分析,查找出与页面连通域重合率达到设定阀值的版式模板;(S2)将所述版式模板中的标记块与扫描页面中的信息进行匹配,提取并识别已匹配标记块的页眉页角信息;(S3)切去扫描页面中已识别的标记块所对应的信息,将处理后的扫描页面提交给后续识别流程。

【技术特征摘要】

【专利技术属性】
技术研发人员:周长岭赵海涛
申请(专利权)人:方正国际软件有限公司方正国际软件北京有限公司
类型:发明
国别省市:32[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1