System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及图像处理,尤其涉及一种图像中表格内容的提取方法、装置和电子设备。
技术介绍
1、在众多场景中,例如财务、办公、医疗、银行等,表格形式的数据越来越多,对于这些表格中内容进行提取,是对表格数据进行数字化归档以及检索的重要手段。
2、常见情况下,提取表格中的内容相比一般的文档数据提取更加困难,因此,如何提取表格中的内容,是本领域技术人员需要解决的技术问题。
技术实现思路
1、本申请提供一种图像中表格内容的提取方法、装置和电子设备,可以较好地提取表格中的内容。
2、本申请提供一种图像中表格内容的提取方法,所述图像中表格内容的提取方法可以包括:
3、获取待提取图像,所述待提取图像中包括目标表格;
4、基于所述待提取图像和关键词,从所述目标表格中提取所述关键词对应的目标内容;
5、其中,所述目标内容包括表头内容、项目列内容或者行内容中的至少一种,所述表头内容中的表头项通过行方向单元格分隔符分隔、所述项目列内容中的项目列通过列方向单元格分隔符分隔,所述行内容中的内容通过所述行方向单元格分隔符分隔。
6、根据本申请提供的一种图像中表格内容的提取方法,所述基于所述待提取图像和关键词,从所述目标表格中提取所述关键词对应的目标内容,包括:
7、将所述待提取图像和所述关键词输入至预设的表格行列识别模型中,得到所述目标内容;
8、其中,所述表格行列识别模型是基于多个样本图像、各所述样本图像对应的样本关键
9、根据本申请提供的一种图像中表格内容的提取方法,所述表格行列识别模型包括编码器和解码器,所述将所述待提取图像和所述关键词输入至预设的表格行列识别模型中,得到所述目标内容,包括:
10、将所述待提取图像输入至所述编码器中,得到图像编码特征;
11、将所述图像编码特征和所述关键词输入至所述解码器中,得到所述目标内容。
12、根据本申请提供的一种图像中表格内容的提取方法,在所述目标内容包括所述表头内容、所述项目列内容和所述行内容的情况下,所述方法还包括:
13、基于所述行方向单元格分隔符,确定所述表头内容中包括的多个表头项;并基于所述列方向单元格分隔符,确定所述项目列内容中包括的多个项目列;
14、将所述多个表头项中的任一表头项,和所述多个项目列中的任一项目列进行两两组合,生成多个键;
15、基于所述多个键和所述行方向单元格分隔符,从所述行内容中确定所述多个键各自对应的值,所述目标表格中的全结构化要素包括多个键值对。
16、根据本申请提供的一种图像中表格内容的提取方法,在所述目标内容包括所述表头内容、所述项目列内容和所述行内容的情况下,所述方法还包括:
17、基于所述表头内容中的所述行方向单元格分隔符,确定待生成的可编辑表格的列数;
18、基于所述项目列内容中的所述列方向单元格分隔符,确定所述可编辑表格的行数;
19、基于所述列数、所述行数和所述行内容,生成所述可编辑表格,所述可编辑表格中的内容与所述目标表格中的内容相同。
20、根据本申请提供的一种图像中表格内容的提取方法,在所述表头内容中包括跨列单元格连接符的情况下,所述基于所述表头内容中的所述行方向单元格分隔符,确定待生成的可编辑表格的列数,包括:
21、基于所述跨列单元格连接符,确定所述表头内容中跨列的表头项的数量;
22、基于所述表头项的数量和所述行方向单元格分隔符,确定所述可编辑表格的列数。
23、根据本申请提供的一种图像中表格内容的提取方法,在所述项目列内容中包括跨行单元格连接符的情况下,所述基于所述项目列内容中的所述列方向单元格分隔符,确定所述可编辑表格的行数,包括:
24、基于所述跨行单元格连接符,确定所述项目列内容中跨行的项目列的数量;
25、基于所述项目列的数量和所述列方向单元格分隔符,确定所述可编辑表格的行数。
26、本申请还提供一种图像中表格内容的提取装置,所述图像中表格内容的提取装置包括:
27、获取单元,用于获取待提取图像,所述待提取图像中包括目标表格;
28、第一处理单元,用于基于所述待提取图像和关键词,从所述目标表格中提取所述关键词对应的目标内容;其中,所述目标内容包括表头内容、项目列内容或者行内容中的至少一种,所述表头内容中的表头项通过行方向单元格分隔符分隔、所述项目列内容中的项目列通过列方向单元格分隔符分隔,所述行内容中的内容通过所述行方向单元格分隔符分隔。
29、本申请还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一项所述的图像中表格内容的提取方法。
30、本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的图像中表格内容的提取方法。
31、本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的图像中表格内容的提取方法。
32、本申请提供的图像中表格内容的提取方法、装置和电子设备,在提取表格中的内容时,可以先获取待提取图像,待提取图像中包括目标表格,并基于待提取图像和关键词,从目标表格中提取关键词对应的目标内容;其中,目标内容包括表头内容、项目列内容或者行内容中的至少一种,表头内容中的表头项通过行方向单元格分隔符分隔、项目列内容中的项目列通过列方向单元格分隔符分隔,行内容中的内容通过行方向单元格分隔符分隔,这样基于分隔符可以较好地从目标表格中,提取出关键词对应的目标内容。
本文档来自技高网...【技术保护点】
1.一种图像中表格内容的提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述待提取图像和关键词,从所述目标表格中提取所述关键词对应的目标内容,包括:
3.根据权利要求2所述的方法,其特征在于,所述表格行列识别模型包括编码器和解码器,所述将所述待提取图像和所述关键词输入至预设的表格行列识别模型中,得到所述目标内容,包括:
4.根据权利要求1-3任一项所述的方法,其特征在于,在所述目标内容包括所述表头内容、所述项目列内容和所述行内容的情况下,所述方法还包括:
5.根据权利要求1-3任一项所述的方法,其特征在于,在所述目标内容包括所述表头内容、所述项目列内容和所述行内容的情况下,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,在所述表头内容中包括跨列单元格连接符的情况下,所述基于所述表头内容中的所述行方向单元格分隔符,确定待生成的可编辑表格的列数,包括:
7.根据权利要求5所述的方法,其特征在于,在所述项目列内容中包括跨行单元格连接符的情况下,所述基于所述项目列内容中的所
8.一种图像中表格内容的提取装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的图像中表格内容的提取方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的图像中表格内容的提取方法。
...【技术特征摘要】
1.一种图像中表格内容的提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述待提取图像和关键词,从所述目标表格中提取所述关键词对应的目标内容,包括:
3.根据权利要求2所述的方法,其特征在于,所述表格行列识别模型包括编码器和解码器,所述将所述待提取图像和所述关键词输入至预设的表格行列识别模型中,得到所述目标内容,包括:
4.根据权利要求1-3任一项所述的方法,其特征在于,在所述目标内容包括所述表头内容、所述项目列内容和所述行内容的情况下,所述方法还包括:
5.根据权利要求1-3任一项所述的方法,其特征在于,在所述目标内容包括所述表头内容、所述项目列内容和所述行内容的情况下,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,在所述表头...
【专利技术属性】
技术研发人员:崔瑞莲,张银田,张建树,殷保才,殷兵,刘聪,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。