一种连续页版式文档结构化信息提取方法技术

技术编号:23149212 阅读:33 留言:0更新日期:2020-01-18 13:31
本发明专利技术涉及本发明专利技术涉及一种连续页版式文档的结构化方法,本发明专利技术所述的方法,通过逐页提取连续页版式文档中的文字、字体、字号、位置等信息,通过预处理识别并去除页眉页脚,识别并切分脚注,再把剩下的多页正文内容及脚注内容分别合并成一个虚拟页,再对虚拟页进行版面分析,合并文本块,进行分栏及表格处理,生成文本块表,再利用文本块表的编号、字体字号、对齐等特性按规则进行大纲提取,从而还原整个文件的逻辑结构。采用本发明专利技术所述的方法,可以有效去除页眉页脚、脚注等干扰文本,保证分栏的阅读顺序,极大提高文本的结构化正确性,降低人工纠正的工作量,提高效率。

A method of extracting structured information from continuous page layout documents

【技术实现步骤摘要】
一种连续页版式文档结构化信息提取方法
本专利技术涉及版式文档信息提取领域,尤其涉及一种连续页版式文档结构化信息提取方法。
技术介绍
版式文档格式是版面呈现效果固定的电子文档格式,版式文档的呈现与设备无关,在各种设备上阅读、打印或印刷时,其版面的呈现结果都是一致的。版式文档主要应用于成文后文件的发布、传播和存档。常见的版式文档格式有PDF、CEBX、OFD等。版式文档格式定义了多个页面的版面呈现数据、各个页面内部对象(文字、图像、图形等)在版面内的呈现位置、颜色、字体字号等信息,从而使得解析器、阅读器能够逐页按版式来呈现文档内容,便于人的阅读。版式文档中存储的是非结构化的数据,没有记录文档的逻辑结构,没有段落、大纲、表格等元素,不利于信息再利用。因此需要对版式文档进行结构化处理,解析、提取文章的大纲信息、形成段落、提取表格和各种元数据信息等,便于信息的进一步利用。现实中,不同应用领域和应用目标的文档,其排版是不同的。如报纸,因为其版面较大,一个页面往往存在多篇文章,而文章也可能被分层多栏、多块,存在标题、图片绕排等情况,单篇文章往往很少跨越多个版面,每个版面排版较为复杂。而图书的排版,往往页面数量较多,版面较小,规则性较强。现实中存在大量的多页文档,但其长度远小于图书,页面之间的差异性高于图书,但低于报刊,其文档的结构与图书类型,存在章节及大纲,但比图书更加多样化,而比报纸中的文章结构要复杂。对于不同类型的版式文档,需要有不同的结构化处理方法。现有技术中:专利文献“一种基于PDF的复杂版面的标引方法(申请号CN200710179938)”描述了一种对复杂版面的文档结构化方法,主要适用于报刊版面的复杂情况,从单一复杂版面提取多篇新闻文章及构建文章的逻辑结构,但并不适用于多页文档中。专利文献“用于实现文档结构化的方法和装置(申请号CN201110461670)”描述了一种通过预定义规则来匹配大纲实现文档结构化的方法。这种方法比较适用于图书这样全文规则性较强的多页文档。但这种方法需要预先定义不同的章节等规则,而现实中不同多页文档的规则差异很大,需要针对不同文档分别定义大量的规则,难度较大,效率较低。专利文献“一种PDF文档结构化信息提取方法及装置(申请号CN201710576556)”描述了一种适用于多页文档的结构化提取方法,但其对页面的处理是逐页处理的,没有考虑到页面之间的关联性,如不同页面的对齐问题,页面存在脚注的问题,在文章的段落、分栏表格等出现跨页时并不能有效处理,正确率低。因此,要自动对连续页版式文档进行结构化,去除干扰文字,生成正确阅读顺序的文本,提取文章大纲,并保证高的正确率,这是本领域技术人员亟待解决的问题。。
技术实现思路
为了解决现有技术存在的问题,为达到以上目的,本专利技术提供一种连续页版式文档结构化信息提取方法。本专利技术采用的技术方案是:本专利技术采用的技术方案是:一种连续页版式文档的结构化方法,包括以下步骤:步骤一、解析版式文档,逐页获取其页面信息及页面中文字块信息;步骤二、对文档进行版面切分;步骤三、为切分后的各个页面中的内容生成虚拟页;步骤四、对生成的虚拟页进行版面分析;步骤五、结构化分析。优选步骤二的具体步骤如下:识别页眉页脚并进行过滤,逐页计算页面的文本行line的位置信息,计算行高、行距等排版信息;根据据页眉页脚在不同页面的重复性,及位置、行高等特性识别出页眉、页脚的文本块,并从页面中去除,逐页识别脚注,并从页面内容中分离,形成正文短语块集合记为content_spans,及脚注短语块集合记为footnote_spans。优选述步骤四的具体步骤如下:对虚拟页中的短语块(span)进行排序;把虚拟页面进行分栏处理;提交当前表格;分析完成的结果集为一个列表blocks_list,其中包括文本块block及表格块table_block。优选步骤五的具体步骤如下:识别目录,并从目录中提取标题;通过版式、字体字号、标号规则,识别标题;利用编号规则同级别编号连续、字体字号、位置相似性,提取大纲信息;利用目录对提取的大纲进行纠错;利用编号连续性进行纠错;提取大纲目录下的子目录;对大纲子目录的甄别。本专利技术的有益效果通过自动对连续页版式文档进行结构化,对版式文档进行结构化时,可以有效去除页眉页脚、脚注等干扰文本,保证分栏的阅读顺序,避免跨页带来的干扰,提取文章大纲极大提高文本的结构化正确性,降低人工纠正的工作量,提高效率,并保证高的正确率。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1为一种连续页版式文档结构化信息提取方法步骤的示意图。图2为提取大纲目录下子目录的流程图。具体实施方式以下结合附图对本专利技术的示范性实施方式做出说明,其中包括本专利技术实施方式的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施方式做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述一种连续页版式文档的结构化方法,包括以下步骤:1、解析版式文档,逐页获取其页面信息及页面中文字块信息,其中:a)页面信息包括页面大小信息b)文字块信息包括支字符内码、颜色、位置(用包围矩形)、字体字号、斜体加粗等信息,文字块集合记为raw_objsc)文字块在版式文档的原始输出顺序号(记为idx)d)对文档内容进行预处理,具体包括:i.过滤非法字符,过滤页面区域外的文字块,过滤视觉上不可见文本信息(或白色文字信息)ii.对文本块进行同行临近合并操作,合并同行具有相同属性(字体、字号、加粗)的短语块,合并后的短语块集合记为spans。2、对文档进行版面切分,具体包括:a)识别页眉页脚并进行过滤i.逐页计算页面的文本行(line)的位置信息,计算行高、行距等排版信息ii.根据页眉页脚在不同页面的重复性,及位置、行高等特性识别出页眉、页脚的文本块,并从页面中去除b)识别并分离脚注i.逐页识别脚注,并从页面内容中分离,形成正文短语块集合(记为content_spans),及脚注短语块集合(记为footnote_spans)3、为切分后的各个页面中的内容生成虚拟页a)把各页面的正文合并生成一个虚拟页面,把各页面的脚注合并生成另一个虚拟页面。生成虚拟页的好处是整篇文档的正文(及脚注)分别位于独立的一个页面,后续的版面分析等处理流程,不再需要考虑跨页问题,极大简化了处理流程,提高了准确度b)生成虚拟页的步骤包括:i.统计各页面内文本的行距信息ii.对拼接前的逐页获取其版心位置,计算各页的版心的水平偏离值(x_off)。(版面存在奇偶页不对齐的情况,引入偏离量来使得对齐后的不同页面的内容左右位置一致)iii.构建一个虚拟页,逐个遍历拼接前的页面,保证上一页的尾部与下一页的顶部相连,中间相隔一个本文档来自技高网
...

【技术保护点】
1.一种连续页版式文档的结构化方法,其特征是,包括以下步骤:步骤一、解析版式文档,逐页获取其页面信息及页面中文字块信息;步骤二、对文档进行版面切分;步骤三、为切分后的各个页面中的内容生成虚拟页;步骤四、对生成的虚拟页进行版面分析;步骤五、结构化分析。/n

【技术特征摘要】
1.一种连续页版式文档的结构化方法,其特征是,包括以下步骤:步骤一、解析版式文档,逐页获取其页面信息及页面中文字块信息;步骤二、对文档进行版面切分;步骤三、为切分后的各个页面中的内容生成虚拟页;步骤四、对生成的虚拟页进行版面分析;步骤五、结构化分析。


2.根据权利要求1所述一种连续页版式文档的结构化方法,其特征是;所述步骤二的具体步骤如下:识别页眉页脚并进行过滤,逐页计算页面的文本行line的位置信息,计算行高、行距等排版信息;根据据页眉页脚在不同页面的重复性,及位置、行高等特性识别出页眉、页脚的文本块,并从页面中去除,逐页识别脚注,并从页面内容中分离,形成正文短语块集合记为content_spans,及脚注短语块集合记为footnote_spans。


3.根据权利要求1所述一种连续页版式文档的结构化方法,其特征是;所述步骤四的具体步骤如下:对虚拟页中的短语块span进行排序;把虚拟页面进行分栏处理;提交当前表格;分析完成的结果集为一个列表blocks_list,其中包括文本块block及表格块table_block。


4.根据权利要求1所述一种连续页版式文档的结构化方法,其...

【专利技术属性】
技术研发人员:徐剑波张诗玉王磊赵东岩
申请(专利权)人:北京众信博雅科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1