一种连续页版式文档结构化信息提取方法技术

技术编号：23149212 阅读：33 留言：0更新日期：2020-01-18 13:31

本发明专利技术涉及本发明专利技术涉及一种连续页版式文档的结构化方法，本发明专利技术所述的方法，通过逐页提取连续页版式文档中的文字、字体、字号、位置等信息，通过预处理识别并去除页眉页脚，识别并切分脚注，再把剩下的多页正文内容及脚注内容分别合并成一个虚拟页，再对虚拟页进行版面分析，合并文本块，进行分栏及表格处理，生成文本块表，再利用文本块表的编号、字体字号、对齐等特性按规则进行大纲提取，从而还原整个文件的逻辑结构。采用本发明专利技术所述的方法，可以有效去除页眉页脚、脚注等干扰文本，保证分栏的阅读顺序，极大提高文本的结构化正确性，降低人工纠正的工作量，提高效率。

A method of extracting structured information from continuous page layout documents

全部详细技术资料下载

【技术实现步骤摘要】
一种连续页版式文档结构化信息提取方法
本专利技术涉及版式文档信息提取领域，尤其涉及一种连续页版式文档结构化信息提取方法。
技术介绍
版式文档格式是版面呈现效果固定的电子文档格式，版式文档的呈现与设备无关，在各种设备上阅读、打印或印刷时，其版面的呈现结果都是一致的。版式文档主要应用于成文后文件的发布、传播和存档。常见的版式文档格式有PDF、CEBX、OFD等。版式文档格式定义了多个页面的版面呈现数据、各个页面内部对象(文字、图像、图形等)在版面内的呈现位置、颜色、字体字号等信息，从而使得解析器、阅读器能够逐页按版式来呈现文档内容，便于人的阅读。版式文档中存储的是非结构化的数据，没有记录文档的逻辑结构，没有段落、大纲、表格等元素，不利于信息再利用。因此需要对版式文档进行结构化处理，解析、提取文章的大纲信息、形成段落、提取表格和各种元数据信息等，便于信息的进一步利用。现实中，不同应用领域和应用目标的文档，其排版是不同的。如报纸，因为其版面较大，一个页面往往存在多篇文章，而文章也可能被分层多栏、多块，存在标题、图片绕排等情况，单篇文章往往很少跨越多个版面，每个版面排版较为复杂。而图书的排版，往往页面数量较多，版面较小，规则性较强。现实中存在大量的多页文档，但其长度远小于图书，页面之间的差异性高于图书，但低于报刊，其文档的结构与图书类型，存在章节及大纲，但比图书更加多样化，而比报纸中的文章结构要复杂。对于不同类型的版式文档,需要有不同的结构化处理方法。现有技术中：专利文献“一种基于PDF的复杂版面的标引方法(申请号CN2007...

【技术保护点】
1.一种连续页版式文档的结构化方法，其特征是，包括以下步骤：步骤一、解析版式文档，逐页获取其页面信息及页面中文字块信息；步骤二、对文档进行版面切分；步骤三、为切分后的各个页面中的内容生成虚拟页；步骤四、对生成的虚拟页进行版面分析；步骤五、结构化分析。/n

【技术特征摘要】
1.一种连续页版式文档的结构化方法，其特征是，包括以下步骤：步骤一、解析版式文档，逐页获取其页面信息及页面中文字块信息；步骤二、对文档进行版面切分；步骤三、为切分后的各个页面中的内容生成虚拟页；步骤四、对生成的虚拟页进行版面分析；步骤五、结构化分析。

2.根据权利要求1所述一种连续页版式文档的结构化方法，其特征是；所述步骤二的具体步骤如下：识别页眉页脚并进行过滤，逐页计算页面的文本行line的位置信息，计算行高、行距等排版信息；根据据页眉页脚在不同页面的重复性，及位置、行高等特性识别出页眉、页脚的文本块，并从页面中去除，逐页识别脚注，并从页面内容中分离，形成正文短语块集合记为content_spans，及脚注短语块集合记为footnote_spans。

3.根据权利要求1所述一种连续页版式文档的结构化方法，其特征是；所述步骤四的具体步骤如下：对虚拟页中的短语块span进行排序；把虚拟页面进行分栏处理；提交当前表格；分析完成的结果集为一个列表blocks_list，其中包括文本块block及表格块table_block。

4.根据权利要求1所述一种连续页版式文档的结构化方法，其...

【专利技术属性】
技术研发人员：徐剑波，张诗玉，王磊，赵东岩，
申请(专利权)人：北京众信博雅科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人