数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:33123003 阅读:16 留言:0更新日期:2022-04-17 00:28
本公开提供一种数据处理方法、装置、设备及存储介质,涉及计算机技术领域。该方法包括:获取待处理可携带文档格式PDF文件的待处理图像格式页,待处理图像格式页通过将待处理PDF文件中的待处理页格式转换为图像获得;利用图表检测模型对待处理图像格式页进行图表检测,获得待处理图像格式页的目标图表区域的信息;利用图表分类模型对目标图表区域进行分类,获得目标图表区域的图表类别标签,图表类别标签包括数据图类、非数据图类和表格类;根据目标图表区域的图表类别标签,获得待处理PDF文件的待处理图像格式页的目标图表区域的相关内容。该方法提高了提取PDF文件中的图表信息的准确性。准确性。准确性。

【技术实现步骤摘要】
数据处理方法、装置、设备及存储介质


[0001]本公开涉及计算机
,具体而言,涉及一种数据处理方法、装置、设备及可读存储介质。

技术介绍

[0002]可携带文档格式(Portable Document Format,PDF)是一种用于与应用程序、操作系统、硬件等无关的方式进行文件交换的文件格式。用于专用领域研究的研究报告通常为PDF文件,而研究报告中的图表通常包含研究人员需要的重要信息。相关技术中采用基于图片或表格的图形特征来提取PDF文件中的图表,缺乏针对性,获得的图表信息的准确性较低。
[0003]如上所述,如何提高提取PDF文件中的图表信息的准确性成为亟待解决的问题。
[0004]在所述
技术介绍
部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开的目的在于提供一种数据处理方法、装置、设备及可读存储介质,可一定程度上提高提取PDF文件中的图表信息的准确性。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开的一方面,提供一种数据处理方法,包括:获取待处理可携带文档格式PDF文件的待处理图像格式页,所述待处理图像格式页通过将所述待处理PDF文件中的待处理页格式转换为图像获得;利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息;利用图表分类模型对所述目标图表区域进行分类,获得所述目标图表区域的图表类别标签,所述图表类别标签包括数据图类、非数据图类和表格类;根据所述目标图表区域的图表类别标签,获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容。
[0008]根据本公开的一实施例,根据所述目标图表区域的图表类别标签,获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容,包括:在所述目标图表区域的图表类别标签为数据图类的情况下,利用文本检测模型对所述目标图表区域进行文本检测,获得所述目标图表区域中的目标文本区域;通过光学字符识别方法对所述目标文本区域进行字符识别,获得光学字符识别结果;基于对所述待处理PDF文件进行底层解析获得的图表基本信息,对所述光学字符识别结果进行修正,获得所述目标文本区域中的文本信息。
[0009]根据本公开的一实施例,基于对所述待处理PDF文件进行底层解析获得的图表基本信息,对所述光学字符识别结果进行修正,包括:获得所述光学字符识别结果中的第一字符串与所述图表基本信息中的第二字符串的相似度;在所述第一字符串与所述第二字符串的相似度大于预设相似度阈值的情况下,将所述光学字符识别结果中的第一字符串修改为
所述第二字符串。
[0010]根据本公开的一实施例,所述目标图表区域的信息包括所述目标图表区域的尺寸信息;所述方法还包括:根据所述目标图表区域的尺寸信息判断所述目标图表区域是否尺寸正常;利用图表分类模型对所述目标图表区域进行分类,获得所述目标图表区域的图表类别标签,包括:在判定所述目标图表区域尺寸正常的情况下,利用图表分类模型对所述目标图表区域进行分类,获得所述目标图表区域的图表类别标签。
[0011]根据本公开的一实施例,所述目标图表区域的信息包括所述目标图表区域的位置信息;所述方法还包括:根据所述目标图表区域的位置信息,获得所述待处理图像格式页中所述目标图表区域上方和/或下方预设距离内的目标文本行;利用图表标题模型获得所述目标文本行是所述目标图表区域中的目标图表的标题的概率;在所述目标文本行是所述目标图表的标题的概率大于预设概率阈值时,获得所述目标图表的标题为所述目标文本行。
[0012]根据本公开的一实施例,利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息,包括:利用所述图表检测模型对所述待处理图像格式页进行图表检测,获得预测图表区域的信息,所述预测图表区域的信息包括至少一个预测图表区域的位置信息、尺寸信息和页码信息;在根据预测图表区域的位置信息确定两个预测图表区域的位置有重叠的情况下,根据所述两个预测图表区域的位置信息和尺寸信息,确定将所述两个预测图表区域合并为一个目标图表区域,或调整所述两个预测图表区域以获得两个位置没有重叠的目标图表区域;和/或在根据所述预测图表区域的位置信息和页码信息判定存在跨页表格的情况下,将所述跨页表格对应的两个预测图表区域进行合并,获得所述跨页表格对应的目标图表区域。
[0013]根据本公开的一实施例,利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息,包括:
[0014]利用所述图表检测模型对所述待处理图像格式页进行图表检测,获得预测图表区域的信息,所述预测图表区域的信息包括至少一个预测图表区域的位置信息、尺寸信息和页码信息;根据预测图表区域的页码信息,从对所述待处理PDF文件进行底层解析获得的图表基本信息中,获得所述待处理图像格式页中的解析图表区域的位置信息和尺寸信息;根据所述预测图表区域的位置信息和尺寸信息、以及所述解析图表区域的位置信息和尺寸信息,在判定存在与所述预测图表区域对应的解析图表区域的情况下,将所述预测图表区域作为所述目标图表区域,获得所述目标图表区域的信息;和/或根据所述解析图表区域的位置信息和尺寸信息,在判定所述预测图表区域中是否包含多个图表的情况下,将所述预测图表区域进行拆分,获得所述目标图表区域的信息;和/或根据所述解析图表区域的位置信息和尺寸信息,在判定两个相邻的预测图表区域属于同一个图表的情况下,将所述两个相邻的预测图表区域进行合并,获得所述目标图表区域的信息。
[0015]根据本公开的一实施例,所述目标图表区域的信息包括所述目标图表区域的位置信息和尺寸信息;利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息,包括:利用所述图表检测模型对所述待处理图像格式页进行图表检测,获得预测图表区域的信息,所述预测图表区域的信息包括预测图表区域的位置信息、尺寸信息和页码信息;根据预测图表区域的页码信息,从对所述待处理PDF文件进行底层解析获得的图表基本信息中,获得所述待处理图像格式页中与所述预测
图表区域对应的解析图表区域的位置信息和尺寸信息;根据所述解析图表区域的位置信息和尺寸信息,对所述预测图表区域的位置和尺寸进行调整,获得所述目标图表区域的位置信息和尺寸信息。
[0016]根据本公开的一实施例,根据所述目标图表区域的图表类别标签,获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容,包括:在所述目标图表区域的图表类别标签为表格类的情况下,从对所述待处理PDF文件进行底层解析获得的图表基本信息中,获得所述待处理图像格式页中与所述目标图表区域对应的文本内容。
[0017]根据本公开的一实施例,根据所述目标图表区域的图表类别标签,获得所述待处理PD本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待处理可携带文档格式PDF文件的待处理图像格式页,所述待处理图像格式页通过将所述待处理PDF文件中的待处理页格式转换为图像获得;利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息;利用图表分类模型对所述目标图表区域进行分类,获得所述目标图表区域的图表类别标签,所述图表类别标签包括数据图类、非数据图类和表格类;根据所述目标图表区域的图表类别标签,获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容。2.根据权利要求1所述的方法,其特征在于,根据所述目标图表区域的图表类别标签,获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容,包括:在所述目标图表区域的图表类别标签为数据图类的情况下,利用文本检测模型对所述目标图表区域进行文本检测,获得所述目标图表区域中的目标文本区域;通过光学字符识别方法对所述目标文本区域进行字符识别,获得光学字符识别结果;基于对所述待处理PDF文件进行底层解析获得的图表基本信息,对所述光学字符识别结果进行修正,获得所述目标文本区域中的文本信息。3.根据权利要求2所述的方法,其特征在于,基于对所述待处理PDF文件进行底层解析获得的图表基本信息,对所述光学字符识别结果进行修正,包括:获得所述光学字符识别结果中的第一字符串与所述图表基本信息中的第二字符串的相似度;在所述第一字符串与所述第二字符串的相似度大于预设相似度阈值的情况下,将所述光学字符识别结果中的第一字符串修改为所述第二字符串。4.根据权利要求1所述的方法,其特征在于,所述目标图表区域的信息包括所述目标图表区域的尺寸信息;所述方法还包括:根据所述目标图表区域的尺寸信息判断所述目标图表区域是否尺寸正常;利用图表分类模型对所述目标图表区域进行分类,获得所述目标图表区域的图表类别标签,包括:在判定所述目标图表区域尺寸正常的情况下,利用图表分类模型对所述目标图表区域进行分类,获得所述目标图表区域的图表类别标签。5.根据权利要求1所述的方法,其特征在于,所述目标图表区域的信息包括所述目标图表区域的位置信息;所述方法还包括:根据所述目标图表区域的位置信息,获得所述待处理图像格式页中所述目标图表区域上方和/或下方预设距离内的目标文本行;利用图表标题模型获得所述目标文本行是所述目标图表区域中的目标图表的标题的概率;在所述目标文本行是所述目标图表的标题的概率大于预设概率阈值时,获得所述目标图表的标题为所述目标文本行。
6.根据权利要求1所述的方法,其特征在于,利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息,包括:利用所述图表检测模型对所述待处理图像格式页进行图表检测,获得预测图表区域的信息,所述预测图表区域的信息包括至少一个预测图表区域的位置信息、尺寸信息和页码信息;在根据预测图表区域的位置信息确定两个预测图表区域的位置有重叠的情况下,根据所述两个预测图表区域的位置信息和尺寸信息,确定将所述两个预测图表区域合并为一个目标图表区域,或调整所述两个预测图表区域以获得两个位置没有重叠的目标图表区域;和/或在根据所述预测图表区域的位置信息和页码信息判定存在跨页表格的情况下,将所述跨页表格对应的两个预测图表区域进行合并,获得所述跨页表格对应的目标图表区域。7.根据权利要求1所述的方法,其特征在于,利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息,包括:利用所述图表检测模型对所述待处理图像格式页进行图表检测,获得预测图表区域的信息,所述预测图表区域的信息包括至少一个预测图表区域的位置信息、尺寸信息和页码信息;根据预测图表区域的页码信息,从对所述待处理PDF文件进行底层解析获得的图表基本信息中,获得所述待处理图像格式页中的解析图表区域的位置信息和尺寸信息;根据所述预测图表区域的位置信息和尺寸信息、以及所述解析图表区域的位置信息和尺寸信息,在判定存在与所述预测图表区域对应的解析图表区域的情况下,将所述预测图表区域作为所述目标图表区域,获得所述目标图表区域的信息;和/或根据所述解析图表区域的位置信息和尺寸信息,在判定所述预测图表区域中是否包含多个图表的情况下...

【专利技术属性】
技术研发人员:许鑫邵溪濛何立汉任桂军
申请(专利权)人:泰康资产管理有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1