【技术实现步骤摘要】
一种基于文本状态特征的期刊文献表格抽取方法
本专利技术涉及PDF文件信息抽取
,尤其涉及一种基于文本状态特征的期刊文献表格抽取方法。
技术介绍
PDF(PortableDocumentFormat,即便携式文档格式)具有固定的版面呈现效果和强大的跨平台原稿再现能力,是期刊文献进行传输和存储的国际通用文件格式。而期刊文献作为科学知识和数据传播的主要载体之一,其数量逐年累积上升,但文献中大量的有效数据并没有得到充分利用。科学数据是国家科技创新发展和经济社会发展的重要基础性战略资源,尤其是大数据时代的科学研究与科技创新越来越依赖于大量、系统、高可信度的科学数据。表格作为一种可视化的知识表达模型,能够简单明了地描述复杂数据之间的逻辑关系,是最常见的以高信息密度构造和表示数据的方法之一。在学术文献中随处可见以表格形式呈现的数据。因此,设法从PDF中自动获得表格数据(即表格抽取)是科学数据提取任务中必不可少的一环,也是数据深度挖掘和分析的基础工作,研究PDF期刊文献中的表格抽取对科学数据库的构建和共享具有重要意义。PDF中表格是由框线和具体内容两大部分通过坐标拼接组合在一起,并不是以一个完整的对象存储。目前的PDF表格抽取技术绝大部分依赖于表格框线的识别,从而实现表格区域的定位与数据提取,但该类技术对框线较少的(尤其是三线表)还原程度不高,无法准确重构表格逻辑结构,对有单元格合并的情况也不能较好的实现数据间的对应关系。因此,特别针对期刊文献中的表格进行研究,设计了一种基于文本状态特征的PDF表格抽取 ...
【技术保护点】
1.一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述方法包括如下步骤:/n步骤1:根据期刊文献中表格的特征构建表格模型,表格模型由表格标题和表格内容两部分组成;/n步骤2:建立文本行集合,使用工具以页为单位解码PDF的页面内容流,获得与文本相关的所有参数信息,包括字符字体、字号、字符宽度和高度、字符间距、横纵坐标及其比例因子,定义文本行聚类规则将属于同一行字符聚类为文本行;/n步骤3:表格检测,定义表格标题的正则表达式,遍历文本行集合Line,标记所有满足正则表达式的文本行,构成候选标题文本行,利用语义本体模型对所有候选标题文本行进行语义筛选,标记满足语义的标题文本行,建立标题行集合Title,通过构建表格标题的语义本体模型来过滤与需求无关的表格;/n步骤4:表格数据定位,根据文本的行间距变化和字符状态参数的变化,划分表格内容和其他内容,判断表格内容的边界,标记表格数据直到表格的边界或本页字符结束;/n步骤5:表格重构,建立单元格数据集合,还原合并格数据,核查单元格数据集合,输出表格数据。/n
【技术特征摘要】
1.一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述方法包括如下步骤:
步骤1:根据期刊文献中表格的特征构建表格模型,表格模型由表格标题和表格内容两部分组成;
步骤2:建立文本行集合,使用工具以页为单位解码PDF的页面内容流,获得与文本相关的所有参数信息,包括字符字体、字号、字符宽度和高度、字符间距、横纵坐标及其比例因子,定义文本行聚类规则将属于同一行字符聚类为文本行;
步骤3:表格检测,定义表格标题的正则表达式,遍历文本行集合Line,标记所有满足正则表达式的文本行,构成候选标题文本行,利用语义本体模型对所有候选标题文本行进行语义筛选,标记满足语义的标题文本行,建立标题行集合Title,通过构建表格标题的语义本体模型来过滤与需求无关的表格;
步骤4:表格数据定位,根据文本的行间距变化和字符状态参数的变化,划分表格内容和其他内容,判断表格内容的边界,标记表格数据直到表格的边界或本页字符结束;
步骤5:表格重构,建立单元格数据集合,还原合并格数据,核查单元格数据集合,输出表格数据。
2.根据权利要求1所述的一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述步骤1中,表格标题包括英文标题和中文标题,中文标题的格式为表+表序+空格+表题,英文标题的格式为Tab(le)+表序+空格+表题,表格内容的信息设置为一个行列完全填充的二维数组。
3.根据权利要求1所述的一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述步骤2中,PDF的页面内容由单个字符分别构成正文文本、表格内容和图片内容,根据字符坐标的变化将页面上所有的单个字符聚类,建立文本行集合Line,并存储每行文本对应的文本状态参数。
4.根据权利要求1所述的一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述步骤2中,参数信息中的横纵坐标的比例因子与字符的字号大小成正比,即字号大的字符其横纵坐标的比例因子较大,相邻两行的行间距较大的,对应的纵坐标差值也较大,且差值一定大于字符高度,同一行字符的横坐标从左到右依次增大,上标与正文字符的纵坐标相差3~5个单位,上标与正文字符的纵坐标差值不超过1.5个单位,故同一行字符的纵坐标差值不会超过6个单位。
5.根据权利要求1所述的一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述步骤3中,正则表达式为(^表{0,}[1-9]+{0,}(.*)和(^Tab(le)[.]{0,}[1-9]+{0,}(.*))。
6.根据权利要求5所述的一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述步骤3中,语义本体模型为根据表格提取需求,即当期刊文献有多种数据类型的表格时,可获取其中某种表格或者若干种表格,总结表格标题所涉及的关键词和对应的英文表达的概念构成。
7.根据权利要求1所述的一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述步骤4的具体过程为:标记表格数据,以标题行集合Title中的每一个文本行为起点开始标记表格数据,首先获得标题行的文本状态参数,然后从标题行的下一文本行开始查询,若文本行的字符字号和横...
【专利技术属性】
技术研发人员:邓建新,唐锐,叶志兴,贺德强,谢彬,曾向明,李先旺,
申请(专利权)人:广西大学,
类型:发明
国别省市:广西;45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。