一种基于PDF的论文解析方法及装置制造方法及图纸

技术编号：42761318 阅读：28 留言：0更新日期：2024-09-18 13:47

本发明专利技术公开了一种基于PDF的论文解析方法及装置，该生成方法包括：基于待分析论文进行文字识别和语种识别，得到顺序排列的多个初始文字块及对应信息；统计得到待分析论文中每一栏的顶点坐标；基于多个初始文字块进行段落合并，得到顺序排列的多个基础文字块；依次对每个基础文字块的文字内容进行判断分析，确定每个基础文字块的元素类型；针对所有图片标题文字块和表格标题文字块，确定第一图表边界框集合；基于目标检测算法检测待分析论文中的图表，得到第二图表边界框集合；将第一图表边界框集合和第二图表边界框集合中每个第一图表边界框和第二图表边界框依次进行比较，确定最优图表边界框集合。该方法能更完整全面的解析论文中的文字和图表。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于pdf的论文解析方法及装置。

技术介绍

1、随着科技的迅速发展和信息传播速度的不断加快，全球发表和出版的科技论文数量不断攀升，这些科技论文多以pdf(portable documentformat，便携文档格式)格式进行存储和传输，虽然能够忠实保存原文的版式，但是也给文档的解析和结构化存储带来了很大的困难，进而影响到信息检索的准确率以及文献共享的利用率。因此，采用人工智能等计算机技术对pdf格式的论文进行自动解析具有重要意义。

2、现有的pdf格式论文解析方法往往针对某一特定语种如中文或英文进行设计，并且着重于抽取论文的局部信息，例如仅针对文本或仅针对图表，较少研究获取论文的完整信息。其中，针对文本的解析方法一般采用ocr(optical characterrecognition，光学字符识别)或pdfminer等pdf文本识别工具提取pdf中的文本信息，而针对图表的解析方法一般采用yolo(you only look once)、rcnn(region-based convolutionalneuralnetwork)等目标检测算法对pdf论文中的图表位置进行定位，再根据需要采用ocr等技术对图表中的文字进行识别。

技术实现思路

1、为了更好的解析pdf格式的论文，本专利技术实施例中提供了一种基于pdf的论文解析方法及装置。

2、第一方面，本专利技术实施例提供了一种基于pdf的论文解析方法，可以包括：

3、基于获取的待分析

4、根据所述每个初始文字块的顶点坐标，统计得到所述待分析论文中每一栏的顶点坐标；

5、基于每一栏的顶点坐标、所述语种识别结果、所述每个初始文字块的文字内容和顶点坐标，将所述顺序排列的多个初始文字块进行段落合并，得到顺序排列的多个基础文字块以及每个基础文字块的文字内容和顶点坐标；

6、基于所述语种识别结果，依次对每个所述基础文字块的文字内容进行判断分析，确定每个基础文字块的元素类型；所述元素类型包括图片标题和表格标题；

7、基于所述每一栏的顶点坐标、所述顺序排列的多个基础文字块以及每个基础文字块的顶点坐标，针对所有图片标题文字块和表格标题文字块，确定第一图表边界框集合；

8、基于目标检测算法检测所述待分析论文中的图表，得到第二图表边界框集合；

9、将所述第一图表边界框集合和所述第二图表边界框集合中每个第一图表边界框和第二图表边界框依次进行比较，确定最优图表边界框集合。

10、第二方面，本专利技术实施例提供了一种基于pdf的论文解析装置，可以包括：

11、第一识别模块，用于基于获取的待分析论文进行文字识别和语种识别，得到语种识别结果、顺序排列的多个初始文字块以及每个初始文字块的文字内容和顶点坐标；

12、第一计算模块，用于根据所述每个初始文字块的顶点坐标，统计得到所述待分析论文中每一栏的顶点坐标；

13、第一合并模块，用于基于每一栏的顶点坐标、所述语种识别结果、所述每个初始文字块的文字内容和顶点坐标，将所述顺序排列的多个初始文字块进行段落合并，得到顺序排列的多个基础文字块以及每个基础文字块的文字内容和顶点坐标；

14、第一分析模块，用于基于所述语种识别结果，依次对每个所述基础文字块的文字内容进行判断分析，确定每个基础文字块的元素类型；所述元素类型包括图片标题和表格标题；

15、第二计算模块，用于基于所述每一栏的顶点坐标、所述顺序排列的多个基础文字块以及每个基础文字块的顶点坐标，针对所有图片标题文字块和表格标题文字块，确定第一图表边界框集合；

16、第二识别模块，用于基于目标检测算法检测所述待分析论文中的图表，得到第二图表边界框集合；

17、第一比较模块，用于将所述第一图表边界框集合和所述第二图表边界框集合中每个第一图表边界框和第二图表边界框依次进行比较，确定最优图表边界框集合。

18、第三方面，本专利技术实施例提供一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现如上述的基于pdf的论文解析方法。

19、第四方面，本专利技术实施例提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如上述的基于pdf的论文解析方法。

20、第五方面，本专利技术实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行所述计算机程序时实现如上述的基于pdf的论文解析方法。

21、本专利技术实施例提供的上述技术方案的有益效果至少包括：

22、本专利技术实施例提供了一种基于pdf的论文解析方法，该方法通过基于获取的待分析论文进行文字识别和语种识别，得到每个初始文字块的文字内容和顶点坐标，并对所有初始文字块进行段落合并，得到基础文字块，对基础文字块进行分析，确定每个基础文字块的元素类型，完成文本的解析，然后基于基础文字块根据规则确定第一图表边界框集合，同时，基于目标检测算法确定第二图表边界框集合，综合确定最优图表边界框集合，完成图表的解析。本方法基于规则和目标检测算法实现了pdf格式论文的解析，解决了现有技术中pdf格式论文解析功能单一的问题，能更加完整全面的解析出不同语种的论文中的文字和图表信息。

23、本专利技术的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

24、下面通过附图和实施例，对本专利技术的技术方案做进一步的详细描述。

本文档来自技高网...

【技术保护点】

1.一种基于PDF的论文解析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述图片标题文字块表示元素类型为图片标题的基础文字块；所述表格标题文字块表示元素类型为表格标题的基础文字块；

3.根据权利要求2所述的方法，其特征在于，所述针对每一所述图片标题文字块，根据所述每一栏的顶点坐标、所述顺序排列的多个基础文字块以及每个基础文字块的顶点坐标，计算得到图片边界框，包括：

4.根据权利要求1所述的方法，其特征在于，所述第二图表边界框集合中的每个第二图表边界框包括类别概率；

5.根据权利要求1所述的方法，其特征在于，所述根据所述每个初始文字块的顶点坐标，统计得到所述待分析论文中每一栏的顶点坐标，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于每一栏的顶点坐标、所述语种识别结果、所述每个初始文字块的文字内容和顶点坐标，将所述顺序排列的多个初始文字块进行段落合并，得到顺序排列的多个基础文字块以及每个基础文字块的文字内容和顶点坐标，包括：

7.根据权利要求6所述的方法，其特征在于，所述针对所

8.根据权利要求1所述的方法，其特征在于，所述基于所述语种识别结果，依次对每个所述基础文字块的文字内容进行判断分析，确定每个基础文字块的元素类型，包括：

9.根据权利要求1所述的方法，其特征在于，所述基于获取的待分析论文进行文字识别和语种识别，得到语种识别结果，包括：

10.一种基于PDF的论文解析装置，其特征在于，包括：

11.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-9任一项所述的基于PDF的论文解析方法。

12.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-9任一项所述的基于PDF的论文解析方法。

13.一种计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-9任一项所述的基于PDF的论文解析方法。

...

【技术特征摘要】

1.一种基于pdf的论文解析方法，其特征在于，包括：

4.根据权利要求1所述的方法，其特征在于，所述第二图表边界框集合中的每个第二图表边界框包括类别概率；

5.根据权利要求1所述的方法，其特征在于，所述根据所述每个初始文字块的顶点坐标，统计得到所述待分析论文中每一栏的顶点坐标，包括：

7.根据权利要求6所述的方法，其特征在于，所述针对所述待分析文档中所有所述作者姓名文字块、标题文字块和特殊文...

【专利技术属性】
技术研发人员：刘健博，陶慧，李明，刘璐，王立帆，周汶龙，
申请(专利权)人：武汉数博科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人