一种版面分析方法及装置制造方法及图纸

技术编号：14551892 阅读：185 留言：0更新日期：2017-02-05 01:02

本发明专利技术提供的版面分析方法及装置，获得版式文档的逻辑参考信息；对当前版面内的逻辑参考信息中的段落依次进行识别，获得识别结果，将识别后的段落从逻辑参考信息中删除；判断当前版面是否识别完成，若识别完成则对下一版面进行识别。该方案中，对版面的逻辑参考信息进行顺次识别，识别完成则切换至下一页，无需获取版面的静态图元的收集，因此对逻辑参考信息的依赖性小，可以使用简单的逻辑参考信息进行版面分析。

Layout analysis method and device

Layout analysis method and device provided by the invention, obtain a logical reference information format document; in order to identify the logical reference information in the layout of the paragraph, obtain recognition results, will be deleted after identification of passages from the logical reference information; judging whether the current page recognition, if the identification is completed to identify under a layout. In this scheme, in order to identify the logical reference information page, complete the identification of the switch to the next page, without obtaining the static graphic layout of the collection, so the logical reference information dependence, can use logical layout analysis simple reference information.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字资源处理领域，具体涉及一种版面分析方法及装置。
技术介绍
版式文档格式是版面呈现效果固定的电子文档格式，版式文档的呈现与设备无关，在各种设备上阅读、打印或印刷时，其版面的呈现结果都是一致的。随着计算机技术的发展以及电子阅读设备的广泛使用，版式文件的数量也呈现出爆炸性增长。由于一般的版式文档的显示型式固定，不利于在多种不同大小的显示屏幕上完整显示，因此需要版式文档可以根据显示设备的大小对文档的内容进行重新排版。对版式文档重新排版的前提是对版式文档的内容进行分析和识别，版式文档的图像内容可以分为文本、表格、图像、图形、分隔符等，由同一种内容构成的区域成为同质区域。版面分析就是将文档图像中的同质区域进行分割、标注的一种方法，是进行文档图像分析和文字识别的首要过程。现有的版式文档版面分析方法在进行版面分析时，其主要使用的输入数据的是通过版式文档引擎从版式文档中获得的基本图元(如字符，图像，图形等)数据信息。如在中国专利文献CN中公开了一种版面分析方法，包括提取过程、静态区域对象图元收集过程、分析次序确定过程以及逻辑段落分析过程，所述逻辑段落分析过程包括字符分析过程、逻辑连接边生成过程、成行分析过程、成段分析过程、段落结果筛选过程、动态区域对象图元收集过程以及移除过程。采用逻辑参考信息与基本图元数据信息结合的方式，并在版面分析过程中充分利用这部分逻辑参考消息，从而得到版面分...

【技术保护点】
一种版面分析方法，其特征在于，包括如下步骤：获得版式文档的逻辑参考信息；对当前版面内的逻辑参考信息中的段落依次进行识别，获得识别结果，将识别后的段落从逻辑参考信息中删除；判断当前版面是否识别完成，若识别完成则对下一版面进行识别。

【技术特征摘要】
1.一种版面分析方法，其特征在于，包括如下步骤：
获得版式文档的逻辑参考信息；
对当前版面内的逻辑参考信息中的段落依次进行识别，获得识别
结果，将识别后的段落从逻辑参考信息中删除；
判断当前版面是否识别完成，若识别完成则对下一版面进行识别。
2.根据权利要求1所述的方法，其特征在于，还包括若当前版面
识别完成，判断所述当前版面上是否存在未识别的图片，若存在则根
据其坐标位置判断其逻辑位置，加入识别结果中。
3.根据权利要求1或2所述的方法，其特征在于，还包括若当前
版面识别完成，遍历该版面识别结果中已识别的段落，判断每个段落
中是否存在连续的英文字母，若存在则将连续的英文字母作为一个整
体，重新加入到识别结果中。
4.根据权利要求1-3任一所述的方法，其特征在于，还包括若当
前版面识别完成，遍历该版面识别结果中已识别的段落，判断每个段
落中是否存在数学符号，若存在则以该数学符号为中心，收集两侧的
数字或英文或数学符号，直到遇到中文或标点为止，将收集后的内容
作为一个整体，重新加入到识别结果中。
5.根据权利要求1-4任一所述的方法，其特征在于，所述判断当
前版面是否识别完成的步骤，包括
判断所述当前版面内是否存在图元，若不存在则当前版面完成识
别；
若当前版面内存在图元，判断所述图元是否少于预设阈值，若是
则判断所述图元坐标是否分散，若是则判断所述图元坐标是否在最后
识别端之上，若是则当前版面完成识别。
6.根据权利要求1-4任一所述的方法，其特征在于，所述判断当
前版面是否识别完成的步骤，包括
尝试识别下一版面...

【专利技术属性】
技术研发人员：赵军，林欣欣，
申请(专利权)人：北京大学，北大方正集团有限公司，北京方正阿帕比技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人