本发明专利技术提供一种版式文档注脚的自动识别方法,包括下列步骤:1)识别出版式文档中的注脚区和正文区;2)根据注脚区内容提取出注脚区注脚序列;3)根据正文区内容提取出正文区注脚序列;4)对步骤2)和步骤3)中得到的注脚区注脚序列和正文区注脚序列进行互相匹配,得到相匹配的注脚区注脚序列和正文区注脚序列。本发明专利技术还提供了相应的版式文档注脚的转换为流式文档注释的方法。本发明专利技术能够适用于多种形式的版式文件到流式文件的转化,如pdf转为epub等。本发明专利技术可以自动的识别版式文件中的注脚,进行注脚的关联,大大解放了人力,增加了处理的速度。本发明专利技术的识别方法识别率高、错误率低。
【技术实现步骤摘要】
本专利技术涉及版式识别
,具体地说,本专利技术涉及一种版式文档注脚的自动识别方法及将其转换为流式文档注释的方法。
技术介绍
传统的出版书籍、各种报刊、杂志等阅读媒介都主要由版式文档组成,版式文档版面是固定的,阅读过程中始终以原始编辑版式显示,缩放后不会自动根据页宽进行重新排版。例如利用扫描得到的初始图片稿件制成的PDF文档,固定版式制作的PDF图文与纯文本文档均属于版式文档。而另一方面,当前移动互联网处于高速发展时期,手机已经极大的普及了,人们正越来越多的从纸质阅读转移到手机电子阅读。传统的版式文档已经不能满足不同尺寸的移动设备对阅读体验的需求。为满足上述需求,人们提出了流式文档的概念,流式文档中对文档包含的文字、数字、表格和图形图像进行特定的排版方式处理,保存后的内容是原始的编辑元素,用户通过阅读软件能查看到编辑后的排版风格,并且可以在不同的缩放比率间自适应版面大小显示。在小屏幕的电子书阅读器上则最好的表现是放大后能够对初始版面自动重排,根据屏幕宽度调整段落的换行以适应单页的视野范围。可以看出,如果版式文档转化为流式文档,就能够将传统的版式阅读体验转移到最新的移动阅读体验上来。然而,版式文档中通常存在大量的注脚,这些注脚可能导致所转换的流式文档的版面错乱。因此,现有的将版式文档转换为流式文档的方案中,往往都需要人工识别出版式文档的注脚,并对注脚内容进行关联,再将其转化为符合流式文档规范的注释。显然这种转换方案效率低下。因此,当前迫切需要一种能够自动识别版式文档注脚并将其转换为流式文档的注释的解决方案。
技术实现思路
因此,本专利技术的任务是克服上述现有技术的缺陷,提供一种版式文档注脚的识别和将其转换为流式文档注释的解决方案。根据本专利技术的一个方面,提供了一种版式文档注脚的自动识别方法,其特征在于,包括下列步骤:1)识别出版式文档中的注脚区和正文区;2)根据注脚区内容提取出注脚区注脚序列;3)根据正文区内容提取出正文区注脚序列;4)对步骤2)和步骤3)中得到的注脚区注脚序列和正文区注脚序列进行互相匹配,得到相匹配的注脚区注脚序列和正文区注脚序列。其中,所述步骤1)中,识别版式文档中的分隔线,根据所识别出的分隔线识别出版式文档中的注脚区和正文区。其中,所述步骤1)包括下列子步骤:11)识别出版式文档中的所有分隔线;12)排除非注脚区分隔线。其中,所述步骤12)中,所述非注脚区分隔线包括:为纵线的分隔线;小于页面宽度的四分之一方向的分隔线;上下两个段落有相同的字体的分隔线;以及上方或下方没有段落的分隔线。其中,所述步骤12)还包括:在排除非注脚区分隔线后,当页面中还有多条分隔线时,取最下方的分隔线作为注脚区分隔线。其中,所述步骤1)还包括:对版式文档进行文字信息行识别,生成文本行和文本段落并进行排序。其中,所述步骤2)还包括:根据注脚区内容中的数字和序号标点来提取所述注脚区注脚序列。其中,所述步骤2)还包括:基于正则表达式来提取所述注脚区注脚序列;所述正则表达式是利用各种可能的数字和序号标点以各种形式组成序号,再基于这些序号所构建出的各种可能的正则表达式。其中,所述步骤3)包括下列子步骤:31)对页面进行聚类,将相同字体的字体块聚类在一起;32)对聚类后的内容,根据数字和序号标点提取出正文区注脚序列。其中,所述步骤4)中,对注脚区注脚序列和正文区注脚序列进行互相匹配包括:对于对提取出的注脚区注脚序列和正文区注脚序列,如果序列不是连续的,或者序列中的序号有重复,则该序列无效。其中,所述步骤4)中,对注脚区注脚序列和正文区注脚序列进行互相匹配方法还包括:如果正文区注脚序列和注脚区注脚序列不是一一对应的,则判断该正文区注脚序列和该注脚区注脚序列不匹配。其中,所述步骤4)中,对注脚区注脚序列和正文区注脚序列进行互相匹配还包括:如果注脚区注脚序列不是开始在第一行,则该注脚区注脚序列无效。其中,所述步骤4)中,对注脚区注脚序列和正文区注脚序列进行互相匹配还包括:如果正文区注脚序列与注脚区注脚序列的序号类型不是相同或相似的,则判断该正文区注脚序列和该注脚区注脚序列不匹配。其中,所述步骤3)还包括,当提取出了至少两组正文区注脚序列时,检查各正文区注脚序列是否能够合并。根据本专利技术的另一个方面,还提供了一种版式文档注脚的转换为流式文档注释的方法,其特征在于,包括下列步骤:a)利用前文所述的版式文档注脚的自动识别方法,识别出版式文档中的注脚区注脚序列和正文区注脚序列;b)将所提取的注脚内容转化为流式文档的注释。其中,所述步骤b)中,流式文档的注释的表现方式为:注释直接插入到文中。其中,所述步骤b)中,流式文档的注释的表现方式为:将所有的注释放在当前章节后,在文中注释的位置与章节后相应的注释内容处设有双向链接。其中,所述步骤b)还包括:删除各个页面的注脚区。其中,在删除每个页面的注脚区时,将连续的去除注脚区内容以后的当前页面的最后一个段落与下一个页面的第一个段落合并。与现有技术相比,本专利技术具有下列技术效果:1、本专利技术能够适用于多种形式的版式文件到流式文件的转化,如pdf转为epub等。2、本专利技术可以自动的识别版式文件中的注脚,进行注脚的关联,大大解放了人力,增加了处理的速度。3、本专利技术的识别方法具有很高的识别率。4、本专利技术的识别方法错误率低。附图说明以下,结合附图来详细说明本专利技术的实施例,其中:图1示出了本专利技术一个实施例中版式文档注脚的自动识别及转换方法的流程图;图2示出了本专利技术一个实施例中的含有注脚的版式文档的页面示例;图3示出了本专利技术一个实施例中的将含有注脚的版式文档转换为流式文档后的页面示例;图4示出了本专利技术一个实施例中版式文档注脚的自动识别及转换方法中步骤7的注脚区删除子流程的流程图。具体实施方式图1示出了本专利技术一个实施例中版式文档注脚的自动识别及转换方法的流程图,参考图1,该版式文档注脚的自动识别及转换方法包括下列步骤:步骤1:文档页面内容的准备。版式文档和流式文档一个主要的区别是没有顺序信息,也就是所有的文字的信息只包括纯粹的位置信息,所以想要对文档进行注脚的识别,首先需要处理的是将基本的文字信息行识别,生成最基本的文本行,文本段落等文本单元,并对文本单元进行排序。对版式文档进行文字信息行识别,生成文本单元的具体方法属于公知技术,本文中不再赘述。步骤2:识别注脚间隔。标准的文档处理中,为了区分注脚区和正文区,所以都会有间隔进行分离,用于区分的间隔一般是一条长横线,本文中称其为注脚分隔线。本实施例中,首先识别出版式文档中的所有分隔线,然后再根据一些判定条件来去除其中的非注脚分隔线,从而正确的找到注脚分隔线,进而增加识别的准确率。去除非注脚分隔线的判定条件包括:a)如果分隔线方向为纵线,排除;b)如果分隔线的长度太短,例如小于页面的四分之一,排除;c)如果一个页面有多条分隔线,取最下方的分隔线;d)如果一条分隔线上下两个段落有相同的字体,排除;e)如果一条分隔线上方或下方没有段落,排除。步骤3:识别注脚区的注脚序列。当找到注脚分隔线以后,那么一个页面很自然的被分为两个区域:正文区和注脚区。接下来对注脚区进行分析,识别出注脚的内容。在注脚的识别过程中,主要是以行为单位。由于注脚通常都具有序号,因此可以通本文档来自技高网...
【技术保护点】
一种版式文档注脚的自动识别方法,其特征在于,包括下列步骤:1)识别出版式文档中的注脚区和正文区;2)根据注脚区内容提取出注脚区注脚序列;3)根据正文区内容提取出正文区注脚序列;4)对步骤2)和步骤3)中得到的注脚区注脚序列和正文区注脚序列进行互相匹配,得到相匹配的注脚区注脚序列和正文区注脚序列。
【技术特征摘要】
1.一种版式文档注脚的自动识别方法,其特征在于,包括下列步骤:1)识别出版式文档中的注脚区和正文区;2)根据注脚区内容提取出注脚区注脚序列;3)根据正文区内容提取出正文区注脚序列;4)对步骤2)和步骤3)中得到的注脚区注脚序列和正文区注脚序列进行互相匹配,得到相匹配的注脚区注脚序列和正文区注脚序列。2.根据权利要求1所述的版式文档注脚的自动识别方法,其特征在于,所述步骤1)中,识别版式文档中的分隔线,根据所识别出的分隔线识别出版式文档中的注脚区和正文区。3.根据权利要求2所述的版式文档注脚的自动识别方法,其特征在于,所述步骤1)包括下列子步骤:11)识别出版式文档中的所有分隔线;12)排除非注脚区分隔线。4.根据权利要求3所述的版式文档注脚的自动识别方法,其特征在于,所述步骤12)中,所述非注脚区分隔线包括:为纵线的分隔线;小于页面宽度的四分之一方向的分隔线;上下两个段落有相同的字体的分隔线;以及上方或下方没有段落的分隔线。5.根据权利要求4所述的版式文档注脚的自动识别方法,其特征在于,所述步骤12)还包括:在排除非注脚区分隔线后,当页面中还有多条分隔线时,取最下方的分隔线作为注脚区分隔线。6.根据权利要求1所述的版式文档注脚的自动识别方法,其特征在于,所述步骤1)还包括:对版式文档进行文字信息行识别,生成文本行和文本段落并进行排序。7.根据权利要求1所述的版式文档注脚的自动识别方法,其特征在于,所述步骤2)还包括:根据注脚区内容中的数字和序号标点来提取所述注脚区注脚序列。8.根据权利要求1所述的版式文档注脚的自动识别方法,其特征在于,所述步骤2)还包括:基于正则表达式来提取所述注脚区注脚序列;所述正则表达式是利用各种可能的数字和序号标点以各种形式组成序号,再基于这些序号所构建出的各种可能的正则表达式。9.根据权利要求1所述的版式文档注脚的自动识别方法,其特征在于,所述步骤3)包括下列子步骤:31)对页面进行聚类,将相同字体的字体块聚类在一起;32)对聚类后的内容,根据数字和序号标点提取出正文区注脚序列。10.根据权利要求9所述的版式文档注脚的自动识别方法,其特征在于,所述步骤4)中,对注脚区注脚序列和正文区注脚序列进行互相匹配包括:对于对提取出的注脚区注脚序列和正文区注脚序列,如果序列...
【专利技术属性】
技术研发人员:孙上斌,胡元琪,
申请(专利权)人:掌阅科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。