System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文档处理领域,尤其涉及表格数据提取方法、装置、终端设备以及存储介质。
技术介绍
1、随着数字化时代的到来,各行各业纷纷加入数字化、电子化的浪潮,企业和组织对数字化信息和处理需求也在不断增加,因此自动化的文档表格提取变得越来越重要。
2、目前,文档中表格数据的提取技术主要通过对图片类型的表格进行深度学习、图像处理来提取表格数据;针对非图片类型的表格主要通过文字提取,将提取的文字转换为图片类来进行提取表格数据。
3、但在上述相关技术方案中,提取文档中的表格数据的方法通常只适用于特定类型的文件,而无法满足用户同时对文本、表格和图片等多种文档类型的表格提取需要。
技术实现思路
1、本申请的主要目的在于提供一种表格提取方法、装置、终端设备以及存储介质,旨在解决现有技术提取文档中的表格数据的方法通常只适用于特定类型的文件的技术问题。
2、为实现上述目的,本申请提供一种表格提取方法,所述表格提取方法包括:
3、获取待提取表格数据的多个目标文档;
4、通过所述多个目标文档的后缀名和/或文件头魔术数识别所述多个目标文档的类型;
5、根据所述多个目标文档的类型对所述多个目标文档的表格数据进行提取处理。
6、可选地,所述根据所述目标文档的类型对所述目标文档的表格数据进行提取处理的步骤包括:
7、若所述多个目标文档的类型为所述电子表格,则通过电子表格处理工具库对所述电子表格的表格数据进行提取;
...【技术保护点】
1.一种表格数据提取方法,其特征在于,所述表格数据提取方法包括以下步骤:
2.如权利要求1所述的表格数据提取方法,其特征在于,所述根据所述多个目标文档的类型对所述多个目标文档的表格数据进行提取处理的步骤包括:
3.如权利要求2所述的表格数据提取方法,其特征在于,所述若所述多个目标文档的类型为PDF文档,则通过PDF文档处理工具库对所述PDF文档的表格数据进行提取的步骤包括:
4.如权利要求3所述的表格数据提取方法,其特征在于,所述根据所述图片进行表格数据提取操作的步骤包括:
5.如权利要求4所述的表格数据提取方法,其特征在于,所述对所述结果图片进行表格定位,以提取所述结果图片的表格数据的步骤包括:
6.如权利要求5所述的表格数据提取方法,其特征在于,所述通过预先训练好的目标检测模型识别所述结果图片中的表格位置的步骤包括:
7.如权利要求5所述的表格数据提取方法,其特征在于,所述通过所述单元格检测数据和所述文字识别数据,生成所述结果图片的表格数据的步骤之后还包括:
8.一种表格数据提取装置,其特征在
9.一种表格数据提取设备,其特征在于,所述表格数据提取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的表格数据提取程序,所述表格数据提取程序配置为实现如权利要求1至7中任一项所述的表格数据提取方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有表格数据提取程序,所述表格数据提取程序被处理器执行时实现如权利要求1至7中任一项所述的表格数据提取方法的步骤。
...【技术特征摘要】
1.一种表格数据提取方法,其特征在于,所述表格数据提取方法包括以下步骤:
2.如权利要求1所述的表格数据提取方法,其特征在于,所述根据所述多个目标文档的类型对所述多个目标文档的表格数据进行提取处理的步骤包括:
3.如权利要求2所述的表格数据提取方法,其特征在于,所述若所述多个目标文档的类型为pdf文档,则通过pdf文档处理工具库对所述pdf文档的表格数据进行提取的步骤包括:
4.如权利要求3所述的表格数据提取方法,其特征在于,所述根据所述图片进行表格数据提取操作的步骤包括:
5.如权利要求4所述的表格数据提取方法,其特征在于,所述对所述结果图片进行表格定位,以提取所述结果图片的表格数据的步骤包括:
6.如权利要求5所述的表格数据提取方法,其特征在于,所...
【专利技术属性】
技术研发人员:雷云鹏,
申请(专利权)人:招商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。