一种版式识别模板方法及系统技术方案

技术编号：5505972 阅读：361 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种版式识别模板方法及系统，属于文字识别技术领域，包括如下步骤：对于扫描页面进行轮廓分析，查找出与页面连通域重合率达到设定阀值的版式模板；将所述版式模板中的标记块与扫描页面中的信息进行匹配，提取并识别已匹配标记块的页眉页角信息；切去已识别的所述标记块，提交给后续识别流程。本发明专利技术通过采用区域识别模板对版面固定格式区域版面进行识别，并将其从识别目标中剥离，提升了页面区域内识别的效率，采用本发明专利技术所述的方法，简化了一般扫描页面识别的内容，并且基于此模板能够方便的通过人工进行识别管理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于OCR文字识别
，具体涉及一种版式识别模板方法及系统。
技术介绍
页眉页脚处在文档中每个页面的顶部和底部区域，常用于显示文档的附加信息，可以插入页码，图形，公司logo，文档标题，文件名及作者姓名等，这些信息对于文档的管理非常重要。在OCR文字识别
中，页眉页脚信息简单，但是对于整个文档识别的管理非常重要。但同时，页眉页脚的信息有时又相对重复，例如公司logo，文档标题，文件名及作者姓名等信息，在每个页面中无论是位置还是内容，都是相同的，对于现有的页面识别方法或系统，如果对多个页面的这些相同内容进行重复识别，会浪费大量时间，同时大大降低页面区域内识别的效率。而对于页眉页脚的有些非常重要的信息，例如页码信息，如果某个页面中的页码信息被污点遮盖，造成无法识别或者无法准确识别，那么对于整个文档的后续管理会有很大影响。
技术实现思路
本专利技术的目的在于针对现有OCR文字识别技术中存在的问题，提供一种对文档扫描件进行识别的版式识别模板方法及系统，以提高页面区域内识别的效率。本专利技术的技术方案如下一种版式识别模板方法，包括如下步骤(Si)对扫描页面进行轮廓分析，查找出与页面连通域重合率达到设定阀值的版式模板；(S2)将所述版式模板中的标记块与扫描页面中的信息进行匹配，提取并识别已匹配标记块的页眉页角信息；(S3)切去扫描页面中已识别的标记块所对应的信息，将处理后的扫描页面提交给后续识别流程。进一步，如上所述的版式识别模板方法，步骤(Si)中还包括对扫描页面进行归一化处理的操作。更进一步，如上所述的版式识别模板方法，...

【技术保护点】
一种版式识别模板方法，包括如下步骤：（Ｓ１）对扫描页面进行轮廓分析，查找出与页面连通域重合率达到设定阀值的版式模板；（Ｓ２）将所述版式模板中的标记块与扫描页面中的信息进行匹配，提取并识别已匹配标记块的页眉页角信息；（Ｓ３）切去扫描页面中已识别的标记块所对应的信息，将处理后的扫描页面提交给后续识别流程。

【技术特征摘要】

【专利技术属性】
技术研发人员：周长岭，赵海涛，
申请(专利权)人：方正国际软件有限公司，方正国际软件北京有限公司，
类型：发明
国别省市：32[]

全部详细技术资料下载我是这个专利的主人