当前位置: 首页 > 专利查询>广西大学专利>正文

一种基于文本状态特征的期刊文献表格抽取方法技术

技术编号:23704857 阅读:37 留言:0更新日期:2020-04-08 11:10
本发明专利技术公开了一种基于文本状态特征的期刊文献表格抽取方法,属于PDF文件信息抽取技术领域,所述方法包括根据期刊文献中表格的特征构建表格模型,表格模型由表格标题和表格内容两部分组成,建立文本行集合,表格检测,表格数据定位,表格重构,建立单元格数据集合,还原合并格数据,核查单元格数据集合,输出表格数据。该方法特别针对PDF期刊文献中广泛存在的三线表等表格的特点而设计,不但可以实现PDF期刊文献中特定表格的准确、正确提取,尤其是保证三线表的逻辑关系,整个过程无需人工干预与交互,无需进行表格选取,能实现提取全过程的自动化。由于采用本体来帮助过滤表格,使该方法也具有广泛的适用性。

【技术实现步骤摘要】
一种基于文本状态特征的期刊文献表格抽取方法
本专利技术涉及PDF文件信息抽取
,尤其涉及一种基于文本状态特征的期刊文献表格抽取方法。
技术介绍
PDF(PortableDocumentFormat,即便携式文档格式)具有固定的版面呈现效果和强大的跨平台原稿再现能力,是期刊文献进行传输和存储的国际通用文件格式。而期刊文献作为科学知识和数据传播的主要载体之一,其数量逐年累积上升,但文献中大量的有效数据并没有得到充分利用。科学数据是国家科技创新发展和经济社会发展的重要基础性战略资源,尤其是大数据时代的科学研究与科技创新越来越依赖于大量、系统、高可信度的科学数据。表格作为一种可视化的知识表达模型,能够简单明了地描述复杂数据之间的逻辑关系,是最常见的以高信息密度构造和表示数据的方法之一。在学术文献中随处可见以表格形式呈现的数据。因此,设法从PDF中自动获得表格数据(即表格抽取)是科学数据提取任务中必不可少的一环,也是数据深度挖掘和分析的基础工作,研究PDF期刊文献中的表格抽取对科学数据库的构建和共享具有重要意义。PDF中表格是由框线和具体内容两大部分通过坐标拼接组合在一起,并不是以一个完整的对象存储。目前的PDF表格抽取技术绝大部分依赖于表格框线的识别,从而实现表格区域的定位与数据提取,但该类技术对框线较少的(尤其是三线表)还原程度不高,无法准确重构表格逻辑结构,对有单元格合并的情况也不能较好的实现数据间的对应关系。因此,特别针对期刊文献中的表格进行研究,设计了一种基于文本状态特征的PDF表格抽取方法,对PDF中多样性的表格布局进行提取,并且还原单元格之间的行列逻辑关系。
技术实现思路
本专利技术的目的在于提供一种基于文本状态特征的期刊文献表格抽取方法,解决现有PDF文件的表格抽取还原程度不高,无法准确重构表格逻辑结构的技术问题。一种基于文本状态特征的期刊文献表格抽取方法,所述方法包括如下步骤:步骤1:根据期刊文献中表格的特征构建表格模型,表格模型由表格标题和表格内容两部分组成;步骤2:建立文本行集合,使用工具以页为单位解码PDF的页面内容流,获得与文本相关的所有参数信息,包括字符字体、字号、字符宽度和高度、字符间距、横纵坐标及其比例因子,定义文本行聚类规则将属于同一行字符聚类为文本行;步骤3:表格检测,定义表格标题的正则表达式,遍历文本行集合Line,标记所有满足正则表达式的文本行,构成候选标题文本行,利用语义本体模型对所有候选标题文本行进行语义筛选,标记满足语义的标题文本行,建立标题行集合Title,通过构建表格标题的语义本体模型来过滤与需求无关的表格;步骤4:表格数据定位,根据文本的行间距变化和字符状态参数的变化,划分表格内容和其他内容,判断表格内容的边界,标记表格数据直到表格的边界或本页字符结束;步骤5:表格重构,建立单元格数据集合,还原合并格数据,核查单元格数据集合,输出表格数据。进一步地,所述步骤1中,表格标题包括英文标题和中文标题,中文标题的格式为表+表序+空格+表题,英文标题的格式为Tab(le)+表序+空格+表题,表格内容的信息设置为一个行列完全填充的二维数组。进一步地,所述步骤2中,PDF的页面内容由单个字符分别构成正文文本、表格内容和图片内容,正文文本包括了章节的标题内容,根据字符坐标的变化将页面上所有的单个字符聚类,建立文本行集合Line,并存储每行文本对应的文本状态参数。进一步地,所述步骤2中,参数信息中的横纵坐标的比例因子与字符的字号大小成正比,即字号大的字符其横纵坐标的比例因子较大,相邻两行的行间距较大的,对应的纵坐标差值也较大,且差值一定大于字符高度,同一行字符的横坐标从左到右依次增大,上标与正文字符的纵坐标相差3~5个单位,上标与正文字符的纵坐标差值不超过1.5个单位,故同一行字符的纵坐标差值不会超过6个单位。进一步地,所述步骤3中,正则表达式为(^表{0,}[1-9]+{0,}(.*)和(^Tab(le)[.]{0,}[1-9]+{0,}(.*))。进一步地,所述步骤3中,语义本体模型为根据表格提取需求,即当期刊文献有多种数据类型的表格时,可获取其中某种表格或者若干种表格,总结表格标题所涉及的关键词和对应的英文表达的概念构成。进一步地,所述步骤4的具体过程为:标记表格数据,以标题行集合Title中的每一个文本行为起点开始标记表格数据,首先获得标题行的文本状态参数,然后从标题行的下一文本行开始查询,若文本行的字符字号和横坐标比例因子同时小于或等于标题行的对应参数,且纵坐标值大于表格标题行的纵坐标,则将该行文本标记为表格数据行,继续判断下一文本行,直到文本行的字号参数和坐标参数不满足限定条件,或检索到下一文本行是已标记的表格标题行,或本页文本行结束,则停止标记表格数据;表格数据筛选,已标记的表格数据行存在与表格无关的内容,需要对标记的表格数据行进行筛选过滤,查询已标记的数据行,判断对应的坐标参数,对行间距异常增大的和横、纵坐标发生突变的数据行进行剔除,最后得到表格数据行集合,记为Data。进一步地,所述步骤5中建立单元格数据集合的具体过程为:分割文本行,给定单元格数据列之间的间隔下限值为2.5,计算相邻字符的横坐标,通过公式①将表格数据行集合Data中的文本行逐一分割,建立单元格数据集合Cell,|xi+1-xi|-width>2.5①式中,xi为文本行的第i个字符的横坐标,xi+1为第i+1个字符的横坐标,width为字符宽度;根据分割结果,计算该行所有的单元格尾字符与下一个单元格首字符之间的横坐标差值,取其最小值为单元格的列间距估计值Col;合并换行文本,计算单元格数据集合Cell中所有相邻两行的纵坐标差值DY,获得出现次数最多的纵坐标差值DYm和与DYm相差不超过5的纵坐标差值,计算其平均数视为表格的基本行间距DY0;若存在纵坐标差值DY小于基本行间距DY0,则获得DY所对应的相邻行的两个单元格数据的首、尾字符横坐标,判断其范围是否有重叠,若满足条件则合并两个单元格文本,并更新单元格数据集合Cell。进一步地,所述步骤5中还原合并格数据和核查单元格数据集合的具体过程为:还原合并格数据,判断被合并的单元格,还原数据结构,并更新单元格数据集合Cell;利用公式②判断是否存在单元格列合并的情况,若满足条件则将其还原为数据相同的两个单元格,其横坐标分别与单元格B2、C2的相等,B2、C2表示单元格代号,纵坐标与合并格B的相等,重复该过程依次还原所有列合并的单元格数据;其中,表示单元格B的前端的X轴坐标,表示单元格B2的前端的X轴坐标,表示单元格B的末尾的X轴坐标,表示单元格C2的末端的X轴坐标;利用公式③判断是否存在单元格行合并的情况,若满足条件则将其还原为数据相同的两个单元格,其横坐标与合并格F的相等,纵坐标分别与单元格E1、E2相等,E1、E2表示单元格代号。重复该过程依次还原所有行合并的单元格本文档来自技高网
...

【技术保护点】
1.一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述方法包括如下步骤:/n步骤1:根据期刊文献中表格的特征构建表格模型,表格模型由表格标题和表格内容两部分组成;/n步骤2:建立文本行集合,使用工具以页为单位解码PDF的页面内容流,获得与文本相关的所有参数信息,包括字符字体、字号、字符宽度和高度、字符间距、横纵坐标及其比例因子,定义文本行聚类规则将属于同一行字符聚类为文本行;/n步骤3:表格检测,定义表格标题的正则表达式,遍历文本行集合Line,标记所有满足正则表达式的文本行,构成候选标题文本行,利用语义本体模型对所有候选标题文本行进行语义筛选,标记满足语义的标题文本行,建立标题行集合Title,通过构建表格标题的语义本体模型来过滤与需求无关的表格;/n步骤4:表格数据定位,根据文本的行间距变化和字符状态参数的变化,划分表格内容和其他内容,判断表格内容的边界,标记表格数据直到表格的边界或本页字符结束;/n步骤5:表格重构,建立单元格数据集合,还原合并格数据,核查单元格数据集合,输出表格数据。/n

【技术特征摘要】
1.一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述方法包括如下步骤:
步骤1:根据期刊文献中表格的特征构建表格模型,表格模型由表格标题和表格内容两部分组成;
步骤2:建立文本行集合,使用工具以页为单位解码PDF的页面内容流,获得与文本相关的所有参数信息,包括字符字体、字号、字符宽度和高度、字符间距、横纵坐标及其比例因子,定义文本行聚类规则将属于同一行字符聚类为文本行;
步骤3:表格检测,定义表格标题的正则表达式,遍历文本行集合Line,标记所有满足正则表达式的文本行,构成候选标题文本行,利用语义本体模型对所有候选标题文本行进行语义筛选,标记满足语义的标题文本行,建立标题行集合Title,通过构建表格标题的语义本体模型来过滤与需求无关的表格;
步骤4:表格数据定位,根据文本的行间距变化和字符状态参数的变化,划分表格内容和其他内容,判断表格内容的边界,标记表格数据直到表格的边界或本页字符结束;
步骤5:表格重构,建立单元格数据集合,还原合并格数据,核查单元格数据集合,输出表格数据。


2.根据权利要求1所述的一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述步骤1中,表格标题包括英文标题和中文标题,中文标题的格式为表+表序+空格+表题,英文标题的格式为Tab(le)+表序+空格+表题,表格内容的信息设置为一个行列完全填充的二维数组。


3.根据权利要求1所述的一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述步骤2中,PDF的页面内容由单个字符分别构成正文文本、表格内容和图片内容,根据字符坐标的变化将页面上所有的单个字符聚类,建立文本行集合Line,并存储每行文本对应的文本状态参数。


4.根据权利要求1所述的一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述步骤2中,参数信息中的横纵坐标的比例因子与字符的字号大小成正比,即字号大的字符其横纵坐标的比例因子较大,相邻两行的行间距较大的,对应的纵坐标差值也较大,且差值一定大于字符高度,同一行字符的横坐标从左到右依次增大,上标与正文字符的纵坐标相差3~5个单位,上标与正文字符的纵坐标差值不超过1.5个单位,故同一行字符的纵坐标差值不会超过6个单位。


5.根据权利要求1所述的一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述步骤3中,正则表达式为(^表{0,}[1-9]+{0,}(.*)和(^Tab(le)[.]{0,}[1-9]+{0,}(.*))。


6.根据权利要求5所述的一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述步骤3中,语义本体模型为根据表格提取需求,即当期刊文献有多种数据类型的表格时,可获取其中某种表格或者若干种表格,总结表格标题所涉及的关键词和对应的英文表达的概念构成。


7.根据权利要求1所述的一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述步骤4的具体过程为:标记表格数据,以标题行集合Title中的每一个文本行为起点开始标记表格数据,首先获得标题行的文本状态参数,然后从标题行的下一文本行开始查询,若文本行的字符字号和横...

【专利技术属性】
技术研发人员:邓建新唐锐叶志兴贺德强谢彬曾向明李先旺
申请(专利权)人:广西大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1