System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 表格数据提取方法、装置、终端设备以及存储介质制造方法及图纸_技高网

表格数据提取方法、装置、终端设备以及存储介质制造方法及图纸

技术编号:40164089 阅读:8 留言:0更新日期:2024-01-26 23:36
本申请公开了一种表格数据提取方法、装置、终端设备以及存储介质,属于文档处理技术领域。本申请通过获取待提取表格数据的多个目标文档;通过所述多个目标文档的后缀名和/或文件头魔术数识别所述多个目标文档的类型;根据所述多个目标文档的类型对所述目标文档的表格数据进行提取处理。该方案通过识别多种文档类型,从而帮助工作人员快速提取各种文档中的表格数据,提高工作效率。

【技术实现步骤摘要】

本专利技术涉及文档处理领域,尤其涉及表格数据提取方法、装置、终端设备以及存储介质


技术介绍

1、随着数字化时代的到来,各行各业纷纷加入数字化、电子化的浪潮,企业和组织对数字化信息和处理需求也在不断增加,因此自动化的文档表格提取变得越来越重要。

2、目前,文档中表格数据的提取技术主要通过对图片类型的表格进行深度学习、图像处理来提取表格数据;针对非图片类型的表格主要通过文字提取,将提取的文字转换为图片类来进行提取表格数据。

3、但在上述相关技术方案中,提取文档中的表格数据的方法通常只适用于特定类型的文件,而无法满足用户同时对文本、表格和图片等多种文档类型的表格提取需要。


技术实现思路

1、本申请的主要目的在于提供一种表格提取方法、装置、终端设备以及存储介质,旨在解决现有技术提取文档中的表格数据的方法通常只适用于特定类型的文件的技术问题。

2、为实现上述目的,本申请提供一种表格提取方法,所述表格提取方法包括:

3、获取待提取表格数据的多个目标文档;

4、通过所述多个目标文档的后缀名和/或文件头魔术数识别所述多个目标文档的类型;

5、根据所述多个目标文档的类型对所述多个目标文档的表格数据进行提取处理。

6、可选地,所述根据所述目标文档的类型对所述目标文档的表格数据进行提取处理的步骤包括:

7、若所述多个目标文档的类型为所述电子表格,则通过电子表格处理工具库对所述电子表格的表格数据进行提取;p>

8、若所述多个目标文档的类型为所述电子文档,则通过电子文档处理工具库对所述电子文档的表格数据进行提取;

9、若所述多个目标文档的类型为所述幻灯片文档,则通过幻灯片文档处理工具库对所述幻灯片文档的表格数据进行提取;

10、若所述多个目标文档的类型为所述pdf文档,则通过pdf文档处理工具库对所述pdf文档的表格数据进行提取;

11、若所述目标文件类型为所述图片,则通过训练模型对所述图片的表格数据进行提取。

12、可选地,所述若所述多个目标文档的类型为所述pdf文档,则通过pdf文档处理工具库对所述pdf文档的表格数据进行提取的步骤包括:

13、通过所述pdf文档处理工具库识别所述pdf文档中是否存在表格;

14、若识别到存在表格,则提取所述表格中的信息;

15、若识别到未存在表格,则读取所述pdf文档的页码;

16、根据所述pdf文档的页码将所述pdf文档转换成图片;

17、根据所述图片进行表格数据提取操作。

18、可选地,所述根据所述图片进行表格数据提取操作的步骤包括:

19、通过预先基于神经网络训练好的四分类模型对图片进行识别,根据识别结果对图片进行旋转,以得到图片中的文字方向为正向的图片;

20、通过提取所述文字方向为正向的图片的红绿蓝rgb通道,获取红色通道的灰度值统计直方图;

21、根据所述统计直方图确定待消除的颜色阈值范围;

22、根据所述待消除的颜色阈值范围对所述文字方向为正向的图片中的红色进行消除;

23、通过预先训练好的边缘检测模型,识别所述文字方向为正向的图片的内容范围框;

24、计算所述内容范围框的坐标值范围,并根据所述坐标值范围形成所述文字方向为正向的图片的内容矩形范围框;

25、根据所述内容矩形范围框对所述文字方向为正向的图片进行放大操作,并对放大处理后的文字方向为正向的图片进行二值化处理,得到结果图片;

26、对所述结果图片进行表格定位,以得到所述结果图片的表格数据。

27、可选地,所述对所述结果图片进行表格定位,以提取所述结果图片的表格数据的步骤包括:

28、通过预先训练好的目标检测模型识别所述结果图片中的表格位置;

29、根据所述表格位置,通过预先训练好的表格检测模型读取表格四角坐标围成的图片区域,得到单元格检测数据;

30、通过预先训练好的光学字符识别ocr模型对所述图片区域的文字进行识别,得到文字识别数据;

31、通过所述单元格检测数据和所述文字识别数据,生成所述结果图片的表格数据。

32、可选地,所述通过预先训练好的目标检测模型识别所述结果图片中的表格位置的步骤包括:

33、将所述结果图片输入到所述预先训练好的目标检测模型中;

34、通过所述预先训练好的目标检测模型的输出得到所述结果图片中表格的四个角的坐标值;

35、通过所述结果图片中表格的四个角的坐标值对所述结果图片进行表格位置识别。

36、可选地,所述通过所述单元格检测数据和所述文字识别数据,生成所述结果图片的表格数据的步骤之后还包括:

37、对所述表格数据进行二维结构化处理,生成二维结构化数据;

38、对所述二维结构化数据进行存储、传输和展示。

39、本申请实施例还提出一种表格数据提取装置,所述表格数据提取装置包括:

40、获取模块,用于获取待提取表格数据的多个目标文档;

41、识别模块,用于通过所述多个目标文档的后缀名和/或文件头魔术数识别所述多个目标文档的类型;

42、提取模块,用于根据所述多个目标文档的类型对所述多个目标文档的表格数据进行提取处理。

43、本申请实施例还提出一种表格数据提取终端设备,所述表格数据提取终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的表格数据提取程序,所述表格数据提取程序配置为实现如上所述的表格数据提取方法的步骤。

44、本申请实施例还提出一种存储介质,所述存储介质上存储有表格数据提取程序,所述表格数据提取程序被处理器执行时实现如上所述的表格数据提取方法的步骤。

45、本申请实施例提出的表格数据提取方法、装置、终端设备以及存储介质,获取待提取表格数据的多个目标文档;通过所述多个目标文档的后缀名和/或文件头魔术数识别所述目标文档的类型;根据所述目标文档的类型对所述目标文档的表格数据进行提取处理。该方案通过识别多种文档类型,提取多种类型文档中的表格数据,从而提高表格数据处理的效率、准确性和自动化程度,适应不同类型的表格数据,降低人工成本,增强应用的适用性。

本文档来自技高网...

【技术保护点】

1.一种表格数据提取方法,其特征在于,所述表格数据提取方法包括以下步骤:

2.如权利要求1所述的表格数据提取方法,其特征在于,所述根据所述多个目标文档的类型对所述多个目标文档的表格数据进行提取处理的步骤包括:

3.如权利要求2所述的表格数据提取方法,其特征在于,所述若所述多个目标文档的类型为PDF文档,则通过PDF文档处理工具库对所述PDF文档的表格数据进行提取的步骤包括:

4.如权利要求3所述的表格数据提取方法,其特征在于,所述根据所述图片进行表格数据提取操作的步骤包括:

5.如权利要求4所述的表格数据提取方法,其特征在于,所述对所述结果图片进行表格定位,以提取所述结果图片的表格数据的步骤包括:

6.如权利要求5所述的表格数据提取方法,其特征在于,所述通过预先训练好的目标检测模型识别所述结果图片中的表格位置的步骤包括:

7.如权利要求5所述的表格数据提取方法,其特征在于,所述通过所述单元格检测数据和所述文字识别数据,生成所述结果图片的表格数据的步骤之后还包括:

8.一种表格数据提取装置,其特征在于,所述表格数据提取装置包括:

9.一种表格数据提取设备,其特征在于,所述表格数据提取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的表格数据提取程序,所述表格数据提取程序配置为实现如权利要求1至7中任一项所述的表格数据提取方法的步骤。

10.一种存储介质,其特征在于,所述存储介质上存储有表格数据提取程序,所述表格数据提取程序被处理器执行时实现如权利要求1至7中任一项所述的表格数据提取方法的步骤。

...

【技术特征摘要】

1.一种表格数据提取方法,其特征在于,所述表格数据提取方法包括以下步骤:

2.如权利要求1所述的表格数据提取方法,其特征在于,所述根据所述多个目标文档的类型对所述多个目标文档的表格数据进行提取处理的步骤包括:

3.如权利要求2所述的表格数据提取方法,其特征在于,所述若所述多个目标文档的类型为pdf文档,则通过pdf文档处理工具库对所述pdf文档的表格数据进行提取的步骤包括:

4.如权利要求3所述的表格数据提取方法,其特征在于,所述根据所述图片进行表格数据提取操作的步骤包括:

5.如权利要求4所述的表格数据提取方法,其特征在于,所述对所述结果图片进行表格定位,以提取所述结果图片的表格数据的步骤包括:

6.如权利要求5所述的表格数据提取方法,其特征在于,所...

【专利技术属性】
技术研发人员:雷云鹏
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1