一种表格数据提取方法、装置和存储介质制造方法及图纸

技术编号:36436058 阅读:13 留言:0更新日期:2023-01-20 22:49
本申请提供一种表格数据提取方法、装置和存储介质,属于数据处理的技术领域。所述方法包括获取待提取的数据表,所述待提取的数据表中包括表头与数据内容;通过分别分析所述待提取的数据表的所有列,拆分所述待提取的数据表的表头与数据内容;根据待提取的字段信息,在拆分后的所述表头中匹配对应的表头单元格;将与所述待提取的字段信息匹配的表头单元格所在列的数据内容进行提取。本申请旨在提高对表格数据进行提取时的效率。格数据进行提取时的效率。格数据进行提取时的效率。

【技术实现步骤摘要】
一种表格数据提取方法、装置和存储介质


[0001]本申请实施例涉及数据处理的
,具体而言,涉及一种表格数据提取方法、装置和存储介质。

技术介绍

[0002]电子数据表格作为一种记录与统计数据的方式,已经得到了广泛的应用,为了清楚地对不同类型的数据进行记录,一般的数据表格会包括数据表头与数据内容,表头可以分为简单表头与复杂表头,简单表头指的是使用一个数据单元格,复杂表头包括多维表头、斜线表头以及合并多个单元格的表头等。
[0003]在对电子表格数据的数据内容进行提取的过程中,对于简单表头,可以应用提供的模板格式进行提取,但是提供的模板格式难以应用于复杂表头的提取过程。
[0004]在对复杂表头进行提取时,需要对复杂表头的结构进行分析,从而给出数据表头和内容的定位,但现有的复杂表头提取方法需要处理的逻辑和关系复杂,难以通过形式化的表述给出准确的转换逻辑,通常需要手动处理和定制开发复杂表头的处理逻辑,过程复杂并且提取效率较差。

技术实现思路

[0005]本申请实施例提供一种表格数据提取方法、装置和存储介质,旨在提高对表格数据进行提取时的效率。
[0006]第一方面,本申请实施例提供一种表格数据提取方法,所述方法包括:
[0007]获取待提取的数据表,其中,所述待提取的数据表中包括表头与数据内容,所述表头包括复杂表头与简单表头;
[0008]通过分别分析所述待提取的数据表的所有列,拆分所述待提取的数据表的表头与数据内容;
[0009]根据待提取的字段信息,在拆分后的所述表头中匹配对应的表头单元格;
[0010]将与所述待提取的字段信息匹配的表头单元格所在列的数据内容进行提取。
[0011]可选地,通过分别分析所述待提取的数据表的所有列,拆分所述待提取的数据表的表头与数据内容,包括:
[0012]分别对每个列进行搜索,确定每个列中数据类型与下一行的单元格不一致的单元格所在的行,作为该列的表头行;
[0013]结合对所述每个列的搜索结果,确定所述待提取的数据表中所有列的表头行的最大行作为拆分行;
[0014]根据所述拆分行,将所述待提取的数据表拆分为表头与数据内容。
[0015]可选地,根据待提取的字段信息,在拆分后的所述表头中匹配对应的表头单元格,包括:
[0016]对所述表头中的每个表头单元格进行文本识别;
[0017]根据所述待提取的字段信息,确定与所述待提取的字段信息表述内容一致的表头单元格。
[0018]可选地,将与所述待提取的字段信息匹配的表头单元格所在列的数据内容进行提取,包括:
[0019]在任一所述待提取的字段信息匹配一个表头单元格时,提取该表头单元格所在列的数据内容,并创建新的数据表,所述新的数据表中包括与所述待提取的字段信息匹配的表头单元格以及该表头单元格所在列的数据内容。
[0020]可选地,将与所述待提取的字段信息匹配的表头单元格所在列的数据内容进行提取,包括:
[0021]在任一所述待提取的字段信息匹配多个表头单元格时,弹窗显示匹配到的多个表头单元格;
[0022]响应于针对弹窗的选择操作,确定目标表头单元格;
[0023]提取所述目标表头单元格所在列的数据内容,并创建新的数据表,所述新的数据表中包括所述目标表头单元格以及所述目标表头单元格所在列的数据内容。
[0024]第二方面,本申请实施例提供一种表格数据提取装置,所述装置包括:
[0025]获取模块,用于获取待提取的数据表,其中,所述待提取的数据表中包括表头与数据内容,所述表头包括复杂表头与简单表头;
[0026]拆分模块,用于通过分别分析所述待提取的数据表的所有列,拆分所述待提取的数据表的表头与数据内容;
[0027]匹配模块,用于根据待提取的字段信息,在拆分后的所述表头中匹配对应的表头单元格;
[0028]提取模块,用于将与所述待提取的字段信息匹配的表头单元格所在列的数据内容进行提取。
[0029]可选地,所述拆分模块包括:
[0030]搜索单元,用于分别对每个列进行搜索,确定每个列中数据类型与下一行的单元格不一致的单元格所在的行,作为该列的表头行;
[0031]确定拆分行单元,用于结合对所述每个列的搜索结果,确定所述待提取的数据表中所有列的表头行的最大行作为拆分行;
[0032]拆分单元,用于根据所述拆分行,将所述待提取的数据表拆分为表头与数据内容。
[0033]可选地,所述提取模块包括:
[0034]第一提取单元,用于在任一所述待提取的字段信息匹配一个表头单元格时,提取该表头单元格所在列的数据内容,并创建新的数据表,所述新的数据表中包括与所述待提取的字段信息匹配的表头单元格以及该表头单元格所在列的数据内容。
[0035]可选地,所述提取模块包括:
[0036]弹窗单元,用于在任一所述待提取的字段信息匹配多个表头单元格时,弹窗显示匹配到的多个表头单元格,并响应于针对弹窗的选择操作,确定目标表头单元格;
[0037]第二提取单元,用于提取所述目标表头单元格所在列的数据内容,并创建新的数据表,所述新的数据表中包括所述目标表头单元格以及所述目标表头单元格所在列的数据内容。
[0038]第三方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如实施例第一方面所述的表格数据提取方法。
[0039]有益效果:
[0040]首先获取本次待提取的数据表,待提取的数据表中包括表头与数据内容;通过分别分析待提取的数据表的所有列,然后拆分待提取的数据表的表头与数据内容;根据待提取的字段信息,在拆分后的表头中匹配对应的表头单元格;将与待提取的字段信息匹配的表头单元格所在列的数据内容进行提取。
[0041]相比于人为对每个数据表进行数据提取,或者对一类数据表预先设置复杂的转换逻辑来确定这类数据表中复杂表头的定位,然后再进行数据提取的方法而言,本方法通过首先将待提取的数据表中的表头和数据内容根据单元格内记载的内容进行拆分,然后再匹配与待提取的字段信息一致的表头单元格,将该表头单元格以及其所在列的数据内容一并进行提取,对复杂表头和简单表头均可以根据内容拆分,可以有效提高对数据表进行提取的效率,特别是对提高了对包含有复杂表头的数据表的提取效率,并且适应性较高,从而不用针对某一类复杂表头分别预设处理逻辑。
附图说明
[0042]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0043]图1是本申请一实施例提出的表格数据提取方法的步骤流程图;
[0044]图2是本申请一实施例提出的拆分表头和数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格数据提取方法,其特征在于,所述方法包括:获取待提取的数据表,其中,所述待提取的数据表中包括表头与数据内容,所述表头包括复杂表头与简单表头;通过分别分析所述待提取的数据表的所有列,拆分所述待提取的数据表的表头与数据内容;根据待提取的字段信息,在拆分后的所述表头中匹配对应的表头单元格;将与所述待提取的字段信息匹配的表头单元格所在列的数据内容进行提取。2.根据权利要求1所述的方法,其特征在于,通过分别分析所述待提取的数据表的所有列,拆分所述待提取的数据表的表头与数据内容,包括:分别对每个列进行搜索,确定每个列中数据类型与下一行的单元格不一致的单元格所在的行,作为该列的表头行;结合对所述每个列的搜索结果,确定所述待提取的数据表中所有列的表头行的最大行作为拆分行;根据所述拆分行,将所述待提取的数据表拆分为表头与数据内容。3.根据权利要求1或2所述的方法,其特征在于,根据待提取的字段信息,在拆分后的所述表头中匹配对应的表头单元格,包括:对所述表头中的每个表头单元格进行文本识别;根据所述待提取的字段信息,确定与所述待提取的字段信息表述内容一致的表头单元格。4.根据权利要求1或2所述的方法,其特征在于,将与所述待提取的字段信息匹配的表头单元格所在列的数据内容进行提取,包括:在任一所述待提取的字段信息匹配一个表头单元格时,提取该表头单元格所在列的数据内容,并创建新的数据表,所述新的数据表中包括与所述待提取的字段信息匹配的表头单元格以及该表头单元格所在列的数据内容。5.根据权利要求1或2所述的方法,其特征在于,将与所述待提取的字段信息匹配的表头单元格所在列的数据内容进行提取,包括:在任一所述待提取的字段信息匹配多个表头单元格时,弹窗显示匹配到的多个表头单元格;响应于针对弹窗的选择操作,确定目标表头单元格;提取所述目标表头单元格所在列的数据内容,并创建新的数据表,所述新的数据表中包括所述目标表头单元格以及所...

【专利技术属性】
技术研发人员:林琳滕腾张爱国盛铭轩
申请(专利权)人:深圳市数瑞数据智能技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1