版式文档注脚的自动识别及转换为流式文档注释的方法技术

技术编号：14342280 阅读：94 留言：0更新日期：2017-01-04 14:06

本发明专利技术提供一种版式文档注脚的自动识别方法，包括下列步骤：1)识别出版式文档中的注脚区和正文区；2)根据注脚区内容提取出注脚区注脚序列；3)根据正文区内容提取出正文区注脚序列；4)对步骤2)和步骤3)中得到的注脚区注脚序列和正文区注脚序列进行互相匹配，得到相匹配的注脚区注脚序列和正文区注脚序列。本发明专利技术还提供了相应的版式文档注脚的转换为流式文档注释的方法。本发明专利技术能够适用于多种形式的版式文件到流式文件的转化，如pdf转为epub等。本发明专利技术可以自动的识别版式文件中的注脚，进行注脚的关联，大大解放了人力，增加了处理的速度。本发明专利技术的识别方法识别率高、错误率低。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及版式识别
，具体地说，本专利技术涉及一种版式文档注脚的自动识别方法及将其转换为流式文档注释的方法。
技术介绍
传统的出版书籍、各种报刊、杂志等阅读媒介都主要由版式文档组成，版式文档版面是固定的，阅读过程中始终以原始编辑版式显示，缩放后不会自动根据页宽进行重新排版。例如利用扫描得到的初始图片稿件制成的PDF文档，固定版式制作的PDF图文与纯文本文档均属于版式文档。而另一方面，当前移动互联网处于高速发展时期，手机已经极大的普及了，人们正越来越多的从纸质阅读转移到手机电子阅读。传统的版式文档已经不能满足不同尺寸的移动设备对阅读体验的需求。为满足上述需求，人们提出了流式文档的概念，流式文档中对文档包含的文字、数字、表格和图形图像进行特定的排版方式处理，保存后的内容是原始的编辑元素，用户通过阅读软件能查看到编辑后的排版风格，并且可以在不同的缩放比率间自适应版面大小显示。在小屏幕的电子书阅读器上则最好的表现是放大后能够对初始版面自动重排，根据屏幕宽度调整段落的换行以适应单页的视野范围。可以看出，如果版式文档转化为流式文档，就能够将传统的版式阅读体验转移到最新的移动阅读体验上来。然而，版式文档中通常存在大量的注脚，这些注脚可能导致所转换的流式文档的版面错乱。因此，现有的将版式文档转换为流式文档的方案中，往往都需要人工识别出版式文档的注脚，并对注脚内容进行关联，再将其转化为符合流式文档规范的注释。显然这种转换方案效率低下。因此，当前迫切需要一种能够自动识别版式文档注脚并将其转换为流式文档的注释的解决方案。
技术实现思路
因此，本专利技术的任务是克服上述现...
<a href="http://www.xjishu.com/zhuanli/55/201510293857.html" title="版式文档注脚的自动识别及转换为流式文档注释的方法原文来自X技术">版式文档注脚的自动识别及转换为流式文档注释的方法</a>

【技术保护点】
一种版式文档注脚的自动识别方法，其特征在于，包括下列步骤：1)识别出版式文档中的注脚区和正文区；2)根据注脚区内容提取出注脚区注脚序列；3)根据正文区内容提取出正文区注脚序列；4)对步骤2)和步骤3)中得到的注脚区注脚序列和正文区注脚序列进行互相匹配，得到相匹配的注脚区注脚序列和正文区注脚序列。

【技术特征摘要】
1.一种版式文档注脚的自动识别方法，其特征在于，包括下列步骤：1)识别出版式文档中的注脚区和正文区；2)根据注脚区内容提取出注脚区注脚序列；3)根据正文区内容提取出正文区注脚序列；4)对步骤2)和步骤3)中得到的注脚区注脚序列和正文区注脚序列进行互相匹配，得到相匹配的注脚区注脚序列和正文区注脚序列。2.根据权利要求1所述的版式文档注脚的自动识别方法，其特征在于，所述步骤1)中，识别版式文档中的分隔线，根据所识别出的分隔线识别出版式文档中的注脚区和正文区。3.根据权利要求2所述的版式文档注脚的自动识别方法，其特征在于，所述步骤1)包括下列子步骤：11)识别出版式文档中的所有分隔线；12)排除非注脚区分隔线。4.根据权利要求3所述的版式文档注脚的自动识别方法，其特征在于，所述步骤12)中，所述非注脚区分隔线包括：为纵线的分隔线；小于页面宽度的四分之一方向的分隔线；上下两个段落有相同的字体的分隔线；以及上方或下方没有段落的分隔线。5.根据权利要求4所述的版式文档注脚的自动识别方法，其特征在于，所述步骤12)还包括：在排除非注脚区分隔线后，当页面中还有多条分隔线时，取最下方的分隔线作为注脚区分隔线。6.根据权利要求1所述的版式文档注脚的自动识别方法，其特征在于，所述步骤1)还包括：对版式文档进行文字信息行识别，生成文本行和文本段落并进行排序。7.根据权利要求1所述的版式文档注脚的自动识别方法，其特征在于，所述步骤2)还包括：根据注脚区内容中的数字和序号标点来提取所述注脚区注脚序列。8.根据权利要求1所述的版式文档注脚的自动识别方法，其特征在于，所述步骤2)还包括：基于正则表达式来提取所述注脚区注脚序列；所述正则表达式是利用各种可能的数字和序号标点以各种形式组成序号，再基于这些序号所构建出的各种可能的正则表达式。9.根据权利要求1所述的版式文档注脚的自动识别方法，其特征在于，所述步骤3)包括下列子步骤：31)对页面进行聚类，将相同字体的字体块聚类在一起；32)对聚类后的内容，根据数字和序号标点提取出正文区注脚序列。10.根据权利要求9所述的版式文档注脚的自动识别方法，其特征在于，所述步骤4)中，对注脚区注脚序列和正文区注脚序列进行互相匹配包括：对于对提取出的注脚区注脚序列和正文区注脚序列，如果序列...

【专利技术属性】
技术研发人员：孙上斌，胡元琪，
申请(专利权)人：掌阅科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人