图像识别方法和系统、数据处理方法技术方案

技术编号:30424014 阅读:19 留言:0更新日期:2021-10-24 16:53
本申请公开了一种图像识别方法和系统、数据处理方法。其中,该图像识别方法包括:获取表格图像;对表格图像进行处理,得到表格图像对应的表格数据,其中,表格数据包括:表格图像中单元格内的文本信息和单元格之间的结构关系;利用表格识别模型对表格数据进行处理,得到表格图像中的关键字和关键字的结构类型,其中,表格识别模型用于获取表格数据,将表格数据输入至编码网络,得到表格数据对应的向量,将向量输入至特征提取网络,得到表格数据的特征,将表格数据的特征输入到分类网络,得到关键字和关键字的结构类型。本申请解决了相关技术中对表格图像中的关键字的识别准确度较低的技术问题。术问题。术问题。

【技术实现步骤摘要】
图像识别方法和系统、数据处理方法


[0001]本申请涉及图像识别领域,具体而言,涉及一种图像识别方法和系统、数据处理方法。

技术介绍

[0002]表格是一种数据可视化方法,能够直观展现数据组织方式。目前常用OCR(Optical Character Recognition,光学字符识别)来识别表格图像,但是,该方法输出的文字块缺失了原始数据结构信息,导致识别准确度较低。
[0003]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本申请实施例提供了一种图像识别方法和系统、数据处理方法,以至少解决相关技术中对表格图像中的关键字的识别准确度较低的技术问题。
[0005]根据本申请实施例的一个方面,提供了一种图像识别方法,包括:获取表格图像;对表格图像进行处理,得到表格图像对应的表格数据,其中,表格数据包括:表格图像中单元格内的文本信息和单元格之间的结构关系;利用表格识别模型对表格数据进行处理,得到表格图像中的关键字和关键字的结构类型,其中,表格识别模型用于获取表格数据,将表格数据输入至编码网络,得到表格数据对应的向量,将向量输入至特征提取网络,得到表格数据的特征,将表格数据的特征输入到分类网络,得到关键字和关键字的结构类型。
[0006]根据本申请实施例的另一方面,还提供了一种图像识别装置,包括:获取模块,用于获取表格图像;第一处理模块,用于对表格图像进行处理,得到表格图像对应的表格数据,其中,表格数据包括:表格图像中单元格内的文本信息和单元格之间的结构关系;第二处理模块,用于利用表格识别模型对表格数据进行处理,得到表格图像中的关键字和关键字的结构类型,其中,表格识别模型用于获取表格数据,将表格数据输入至编码网络,得到表格数据对应的向量,将向量输入至特征提取网络,得到表格数据的特征,将表格数据的特征输入到分类网络,得到关键字和关键字的结构类型。
[0007]根据本申请实施例的一个方面,提供了一种数据处理方法,包括:获取待处理图像,其中,待处理图像包括文字数据和格式数据;生成待处理图像对应的目标图,其中,目标图包含多个节点,节点间通过边相连,节点用于表征文字数据,边用于表征格式数据;展示目标图。
[0008]根据本申请实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述的图像识别方法和数据处理方法。
[0009]根据本申请实施例的另一方面,还提供了一种计算设备,包括:存储器和处理器,存储器用于存储程序,处理器用于运行程序,其中,程序运行时执行上述的图像识别方法和数据处理方法。
[0010]根据本申请实施例的另一方面,还提供了一种图像识别系统,包括:处理器;以及
存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取表格图像;对表格图像进行处理,得到表格图像对应的表格数据,其中,表格数据包括:表格图像中单元格内的文本信息和单元格之间的结构关系;利用表格识别模型对表格数据进行处理,得到表格图像中的关键字和关键字的结构类型,其中,表格识别模型用于获取表格数据,将表格数据输入至编码网络,得到表格数据对应的向量,将向量输入至特征提取网络,得到表格数据的特征,将表格数据的特征输入到分类网络,得到关键字和关键字的结构类型。
[0011]在本申请实施例中,在获取到表格图像之后,首先对表格图像进行处理,得到相应的表格数据,进一步利用表格识别模型对表格数据进行处理,可以得到关键字和关键字的结构类型,从而实现表格图像识别的目的。容易注意到的是,可以利用表格识别模型对表格数据进行处理,从而得到表格中关键字的结构类型,使得表格图像中文字块的识别包含有原始数据结构信息,达到了提高关键字识别准确度,提高表格图像识别的鲁棒性的技术效果,进而解决了相关技术中对表格图像中的关键字的识别准确度较低的技术问题。
附图说明
[0012]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0013]图1是根据本申请实施例的一种用于实现图像识别方法的计算机终端(或移动设备)的硬件结构框图;
[0014]图2是根据本申请实施例的图像识别方法的流程图;
[0015]图3是根据本申请实施例的一种可选的表格图像的示意图;
[0016]图4是根据本申请实施例的一种可选的表格识别模型的示意图;
[0017]图5是根据本申请实施例的图像识别装置的示意图;
[0018]图6是根据本申请实施例的数据处理方法的流程图;
[0019]图7是根据本申请实施例的一种可选的交互界面的示意图;以及
[0020]图8是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
[0021]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0022]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0023]首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
[0024]OCR:可以是指通过图像处理和模式识别技术对光学的字符进行识别。
[0025]关键字(Key)关系分析:分析Key是简单Key、列表Key还是复合Key。
[0026]表格理解:分析表格中数据的组织方式。
[0027]图(Graph):用于描述不具备规则的空间结构的数据,可以是节点集合,节点通过一系列边连接,其中,节点可以用圆圈表示,边可以用圆圈键之间的连线表示。
[0028]图卷积层:可以是指适用于图数据的卷积层。
[0029]图注意力层:可以用注意力机制代替图卷积中固定的标准化操作。
[0030]多层感知器:Multi-Layer Perceptron,MLP,可以是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上。
[0031]目前,常用OCR来识别表格图像,但是,该方法输出的文字块缺失了原始数据结构信息。针对上述问题,现有技术中提出了多种方案来分析Key本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待处理图像,其中,所述待处理图像包括文字数据和格式数据;生成所述待处理图像对应的目标图,其中,所述目标图包含多个节点,节点间通过边相连,所述节点用于表征所述文字数据,所述边用于表征所述格式数据;展示所述目标图。2.根据权利要求1所述的方法,还包括:接收用户的输入,调整所述目标图中的节点之间的关系。3.根据权利要求1所述的方法,还包括:基于所述目标图,对所述待处理图像进行识别,得到识别结果,其中,所述识别结果包括:所述待处理图像中的关键字,和所述关键字的结构类型。4.根据权利要求3所述的方法,其中,基于所述目标图,对所述待处理图像进行识别,得到识别结果包括:将所述目标图中的节点和边输入至表格识别模型的编码层中,得到所述节点的第一向量和所述边的第二向量;将所述第一向量和所述第二向量输入至所述表格识别模型的图卷积层和图注意力层中,得到节点特征和边特征;将所述节点特征和所述边特征输入至所述表格识别模型的输出层,得到所述识别结果。5.根据权利要求4所述的方法,其中,所述方法还包括:生成训练数据;利用所述训练数据对初始模型进行训练,得到所述表格识别模型。6.根据权利要求5所述的方法,其中,生成训练数据包括:将表格切分为多个区域;确定每个区域对应的基础逻辑结构,其中,所述基础逻辑结构包括如下之一:键值对,列表键值和复合键值;基于所述每个区域对应的基础逻辑结构,生成所述训练数据。7.一种图像识别方法,包括:获取表格图像;对所述表格图像进行处理,得到所述表格图像对应的表格数据,其中,所述表格数据包括:所述表格图像中单元格内的文本信息和单元格之间的结构关系;利用表格识别模型对所述表格数据进行处理,得到所述表格图像中的关键字和关键字的结构类型,其中,所述表格识别模型用于获取所述表格数据,将所述表格数据输入至编码网络,得到所述表格数据对应的向量,将所述向量输入至特征提取网络,得到所述表格数据的特征,将所述表格数据的特征输入到分类网络,得到所述关键字和所述关键字的结构类型。8.根据权利要求7所述的方法,其中,利用表格识别模型对所述表格数据进行处理,得到所述表格图像中的关键字和关键字的结构类型包括:基于所述表格数据,生成目标图,其中,所述目标图包含多个节点,任意两个节点通过边相连,所述节点用于表征所述单元格内的文本信息,所述边用于表征所述单元格之间的
结构关系;将所述目标图中的节点和边输入至所述表格识别模型的编码层中,得到所述节点的第一向量和所述边的第二向量;将所述第一向量和所述第二向量输入至所述表格识别模型的图卷积层和图注意力层中,得到节点特征和边特征;将所述节点特征和所述边特征输入至所述表格识别模型的输出层中,得到所述关键字和所述关键字的结构...

【专利技术属性】
技术研发人员:张诗禹高飞宇王永攀郑琪罗楚威
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1