当前位置: 首页 > 专利查询>北京大学专利>正文

一种版面分析方法及装置制造方法及图纸

技术编号:14551892 阅读:180 留言:0更新日期:2017-02-05 01:02
本发明专利技术提供的版面分析方法及装置,获得版式文档的逻辑参考信息;对当前版面内的逻辑参考信息中的段落依次进行识别,获得识别结果,将识别后的段落从逻辑参考信息中删除;判断当前版面是否识别完成,若识别完成则对下一版面进行识别。该方案中,对版面的逻辑参考信息进行顺次识别,识别完成则切换至下一页,无需获取版面的静态图元的收集,因此对逻辑参考信息的依赖性小,可以使用简单的逻辑参考信息进行版面分析。

Layout analysis method and device

Layout analysis method and device provided by the invention, obtain a logical reference information format document; in order to identify the logical reference information in the layout of the paragraph, obtain recognition results, will be deleted after identification of passages from the logical reference information; judging whether the current page recognition, if the identification is completed to identify under a layout. In this scheme, in order to identify the logical reference information page, complete the identification of the switch to the next page, without obtaining the static graphic layout of the collection, so the logical reference information dependence, can use logical layout analysis simple reference information.

【技术实现步骤摘要】

本专利技术涉及数字资源处理领域,具体涉及一种版面分析方法及装置
技术介绍
版式文档格式是版面呈现效果固定的电子文档格式,版式文档的呈现与设备无关,在各种设备上阅读、打印或印刷时,其版面的呈现结果都是一致的。随着计算机技术的发展以及电子阅读设备的广泛使用,版式文件的数量也呈现出爆炸性增长。由于一般的版式文档的显示型式固定,不利于在多种不同大小的显示屏幕上完整显示,因此需要版式文档可以根据显示设备的大小对文档的内容进行重新排版。对版式文档重新排版的前提是对版式文档的内容进行分析和识别,版式文档的图像内容可以分为文本、表格、图像、图形、分隔符等,由同一种内容构成的区域成为同质区域。版面分析就是将文档图像中的同质区域进行分割、标注的一种方法,是进行文档图像分析和文字识别的首要过程。现有的版式文档版面分析方法在进行版面分析时,其主要使用的输入数据的是通过版式文档引擎从版式文档中获得的基本图元(如字符,图像,图形等)数据信息。如在中国专利文献CN中公开了一种版面分析方法,包括提取过程、静态区域对象图元收集过程、分析次序确定过程以及逻辑段落分析过程,所述逻辑段落分析过程包括字符分析过程、逻辑连接边生成过程、成行分析过程、成段分析过程、段落结果筛选过程、动态区域对象图元收集过程以及移除过程。采用逻辑参考信息与基本图元数据信息结合的方式,并在版面分析过程中充分利用这部分逻辑参考消息,从而得到版面分析结果。由于该方案中需要进行静态区域对象图元收集,因此需要获取段落信息、图片表格的坐标信息等,对逻辑参考信息过于依赖,当逻辑参考信息提供的内容不全时,版面识别的效果不理想。此外,在实际的数字文档生产过程当中,即从源素材到最终目标版式文档的中间加工步骤中,常常可以以较小的代价从源素材获取到一部分逻辑结构参考信息,这部分的逻辑结构信息如果也能够作为输入数据结合到现有的版面分析方法当中,则可以有效的改进版式文档的版面分析结果。
技术实现思路
因此,本专利技术要解决的技术问题在于克服现有技术中的版面识别方法对逻辑参考信息要求高、识别效果不理想的缺陷。本专利技术提供一种版面分析方法,包括如下步骤:获得版式文档的逻辑参考信息;对当前版面内的逻辑参考信息中的段落依次进行识别,获得识别结果,将识别后的段落从逻辑参考信息中删除;判断当前版面是否识别完成,若识别完成则对下一版面进行识别。优选地,还包括若当前版面识别完成,判断所述当前版面上是否存在未识别的图片,若存在则根据其坐标位置判断其逻辑位置,加入识别结果中。优选地,还包括若当前版面识别完成,遍历该版面识别结果中已识别的段落,判断每个段落中是否存在连续的英文字母,若存在则将连续的英文字母作为一个整体,重新加入到识别结果中。优选地,还包括若当前版面识别完成,遍历该版面识别结果中已识别的段落,判断每个段落中是否存在数学符号,若存在则以该数学符号为中心,收集两侧的数字或英文或数学符号,直到遇到中文或标点为止,将收集后的内容作为一个整体,重新加入到识别结果中。优选地,所述判断当前版面是否识别完成的步骤,包括判断所述当前版面内是否存在图元,若不存在则当前版面完成识别;若当前版面内存在图元,判断所述图元是否少于预设阈值,若是则判断所述图元坐标是否分散,若是则判断所述图元坐标是否在最后识别端之上,若是则当前版面完成识别。优选地,所述判断当前版面是否识别完成的步骤,包括尝试识别下一版面的逻辑参考信息,若当前版面与下一版面的逻辑信息匹配,则当前版面识别完成,否则当前版面识别未完成。优选地,所述判断当前版面是否识别完成的步骤,包括判断当前版面的逻辑参考信息中成段分析是否失败,如果失败则跳过该段落,对该段落之后的段落进行成段分析,若均失败则当前版面识别完成。本专利技术还提供一种版面分析装置,包括:逻辑参考信息获取单元,用于获得版式文档的逻辑参考信息;版面识别单元,用于对当前版面内的逻辑参考信息中的段落依次进行识别,获得识别结果,将识别后的段落从逻辑参考信息中删除;版面切换单元,用于判断当前版面是否识别完成,若识别完成则对下一版面进行识别。优选地,还包括未识别图片处理单元,用于若当前版面识别完成,判断所述当前版面上是否存在未识别的图片,若存在则根据其坐标位置判断其逻辑位置,加入识别结果中。优选地,还包括英文效果优化单元,用于若当前版面识别完成,遍历该版面识别结果中已识别的段落,判断每个段落中是否存在连续的英文字母,若存在则将连续的英文字母作为一个整体,重新加入到识别结果中。优选地,还包括公式效果优化单元,用于若当前版面识别完成,遍历该版面识别结果中已识别的段落,判断每个段落中是否存在数学符号,若存在则以该数学符号为中心,收集两侧的数字或英文或数学符号,直到遇到中文或标点为止,将收集后的内容作为一个整体,重新加入到识别结果中。本专利技术技术方案,具有如下优点:1.本专利技术提供的版面分析方法及装置,获得版式文档的逻辑参考信息;对当前版面内的逻辑参考信息中的段落依次进行识别,获得识别结果,将识别后的段落从逻辑参考信息中删除;判断当前版面是否识别完成,若识别完成则对下一版面进行识别。该方案中,对版面的逻辑参考信息进行顺次识别,识别完成则切换至下一页,无需获取版面的静态图元的收集,因此对逻辑参考信息的依赖性小,可以使用简单的逻辑参考信息进行版面分析。2.本专利技术提供的版面分析方法及装置,若当前版面识别完成,判断所述当前版面上是否存在未识别的图片,若存在则根据其坐标位置判断其逻辑位置,加入识别结果中。针对版面内的图片进行单独处理,使得对图片的识别效果更好。3.本专利技术提供的版面分析方法及装置,若当前版面识别完成,遍历该版面识别结果中已识别的段落,判断每个段落中是否存在连续的英文字母或数学符号,通过重新整合的方式,使得英文单词和数学公式显示效果更好,提高了识别精度。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例1中的版面分析方法的流程图;图2为本专利技术实施例2中的版面分析装置的结构框图;具体实施方式下面本文档来自技高网
...

【技术保护点】
一种版面分析方法,其特征在于,包括如下步骤:获得版式文档的逻辑参考信息;对当前版面内的逻辑参考信息中的段落依次进行识别,获得识别结果,将识别后的段落从逻辑参考信息中删除;判断当前版面是否识别完成,若识别完成则对下一版面进行识别。

【技术特征摘要】
1.一种版面分析方法,其特征在于,包括如下步骤:
获得版式文档的逻辑参考信息;
对当前版面内的逻辑参考信息中的段落依次进行识别,获得识别
结果,将识别后的段落从逻辑参考信息中删除;
判断当前版面是否识别完成,若识别完成则对下一版面进行识别。
2.根据权利要求1所述的方法,其特征在于,还包括若当前版面
识别完成,判断所述当前版面上是否存在未识别的图片,若存在则根
据其坐标位置判断其逻辑位置,加入识别结果中。
3.根据权利要求1或2所述的方法,其特征在于,还包括若当前
版面识别完成,遍历该版面识别结果中已识别的段落,判断每个段落
中是否存在连续的英文字母,若存在则将连续的英文字母作为一个整
体,重新加入到识别结果中。
4.根据权利要求1-3任一所述的方法,其特征在于,还包括若当
前版面识别完成,遍历该版面识别结果中已识别的段落,判断每个段
落中是否存在数学符号,若存在则以该数学符号为中心,收集两侧的
数字或英文或数学符号,直到遇到中文或标点为止,将收集后的内容
作为一个整体,重新加入到识别结果中。
5.根据权利要求1-4任一所述的方法,其特征在于,所述判断当
前版面是否识别完成的步骤,包括
判断所述当前版面内是否存在图元,若不存在则当前版面完成识
别;
若当前版面内存在图元,判断所述图元是否少于预设阈值,若是
则判断所述图元坐标是否分散,若是则判断所述图元坐标是否在最后
识别端之上,若是则当前版面完成识别。
6.根据权利要求1-4任一所述的方法,其特征在于,所述判断当
前版面是否识别完成的步骤,包括
尝试识别下一版面...

【专利技术属性】
技术研发人员:赵军林欣欣
申请(专利权)人:北京大学北大方正集团有限公司北京方正阿帕比技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1