提供一种图像识别方法及装置、电子设备和存储介质。该图像识别方法包括:获取待处理图像;对该待处理图像进行文本检测,以获得一个或多个文本框以及该一个或多个文本框的第一位置信息;对该一个或多个文本框进行文本识别,以获得该一个或多个文本框包含的一个或多个文本信息;基于该一个或多个文本信息,确定待处理图像中是否存在表格区域;以及响应于确定该待处理图像中存在表格区域:基于该一个或多个文本框中位于表格区域内的至少一个第一文本框的第一位置信息,确定该至少一个第一文本框中的每个第一文本框的表格行列信息;并且基于每个第一文本框的表格行列信息和每个第一文本框包含的文本信息,输出与待处理图像的表格区域对应的结构化数据。表格区域对应的结构化数据。表格区域对应的结构化数据。
【技术实现步骤摘要】
图像识别方法及装置、电子设备和存储介质
[0001]本公开涉及图像识别领域,特别涉及一种图像识别方法及装置、电子设备、计算机机可读存储介质以及计算机程序产品。
技术介绍
[0002]在许多应用场景中,通常需要获取图像中所包含的文本信息。一种较为常见的方式是经由人工对图像中所包含的文本信息进行提取并数字化。另外,随着人工智能技术的发展,自动识别图像并提取图像中的文本信息的技术也得到了快速发展,例如通过图像识别技术对文本信息进行识别、提取并转化为数字化的数据格式。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
[0004]根据本公开的一个方面,提供了一种图像识别方法。该图像识别方法包括:获取待处理图像;对该待处理图像进行文本检测,以获得一个或多个文本框以及该一个或多个文本框的第一位置信息;对该一个或多个文本框进行文本识别,以获得该一个或多个文本框包含的一个或多个文本信息;基于该一个或多个文本信息,确定待处理图像中是否存在表格区域;以及响应于确定该待处理图像中存在表格区域:基于该一个或多个文本框中位于表格区域内的至少一个第一文本框的第一位置信息,确定该至少一个第一文本框中的每个第一文本框的表格信息;以及基于每个第一文本框的表格信息和每个第一文本框包含的文本信息,输出与待处理图像的表格区域对应的结构化数据。
[0005]根据本公开的另一个方面,提供了一种图像识别装置。该图像识别装置包括:获取模块,被配置为获取待处理图像;文本检测模块,被配置为对该待处理图像进行文本检测,以获得一个或多个文本框以及该一个或多个文本框的第一位置信息;文本识别模块,被配置为对该一个或多个文本框进行文本识别,以获得该一个或多个文本框包含的一个或多个文本信息;确定表格区域模块,被配置为基于该一个或多个文本信息,确定待处理图像中是否存在表格区域;确定表格信息模块,被配置为响应于确定该待处理图像中存在表格区域而基于该一个或多个文本框中位于表格区域内的至少一个第一文本框的第一位置信息,确定该至少一个第一文本框中的每个第一文本框的表格行列信息;以及输出模块,被配置为基于每个第一文本框的表格行列信息和每个第一文本框包含的文本信息,输出与待处理图像的表格区域对应的结构化数据。
[0006]根据本公开的另一个方面,提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上的计算机程序,其中,所述处理器被配置为执行所述计算机程序以实现上述图像识别方法的步骤。
[0007]根据本公开的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机
程序,其中,所述计算机程序被处理器执行时实现上述图像识别方法的步骤。
[0008]根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现上述图像识别方法的步骤。
[0009]从下面结合附图描述的示例性实施例中,本公开的更多特征和优点将变得清晰。
附图说明
[0010]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0011]图1是示出根据示例性实施例的图像识别方法的流程图;
[0012]图2是示出根据示例性实施例的另一图像识别方法的流程图;
[0013]图3是示出根据示例性实施例的对待处理图像进行预处理的流程图;
[0014]图4是示出根据示例性实施例的确定表格区域内的文本框的表格信息的流程图;
[0015]图5是示出根据示例性实施例的又一图像识别方法的流程图;
[0016]图6是示出根据示例性实施例的对文本信息进行文本校正的流程图;
[0017]图7是示出根据示例性实施例的图像识别装置的结构框图;
[0018]图8是根据本公开示例性实施例的计算设备的结构框图。
具体实施方式
[0019]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0020]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0021]在许多应用场景中,通常需要获取图像中所包含的文本信息。一种较为常见的方式是经由人工对图像中所包含的文本信息进行提取并数字化。另外,随着人工智能技术的发展,自动识别图像并提取图像中的文本信息的技术也得到了快速发展,例如通过图像识别技术对文本信息进行识别、提取并转化为数字化的数据格式。
[0022]专利技术人发现,通过人工方式提取图像中的文本信息并对其进行数字化,将导致成本较高并且数字化效率过低。而通过常见的图像识别技术对文本信息进行识别和提取时,一方面,文本识别准确度可能不高,另一方面,由于图像中的文本信息种类较多,特别是在待处理图像包含表格的情况下,可能导致识别出的文本的数据格式存在混乱,无法准确的保留原图像表格中的结构化数据。
[0023]为了解决上述技术问题,本公开提供了一种图像识别方法及装置、电子设备、计算机可读存储介质和计算机程序产品。在下面的详细描述中将可以清楚地看到,根据本公开实施例的图像识别方法可以对待处理图像中不同类型的区域进行识别解析。与上述常见图
像识别技术相比,特别是在待处理图像包括表格区域的情况下,根据本公开的图像识别方法可以在确保正确输出该图像中的文本信息的同时重现文本信息之间的结构化关系。另外,根据本公开的图像识别方法还可以根据表格区域中的属性信息对该区域内的文本信息进行校正,从而提高了文本识别准确度。
[0024]下面将结合附图对本公开的图像识别方法的示例性实施例进行进一步描述。
[0025]图1出了根据本公开的示例性实施例的图像识别方法100的流程图。如图1所示,该图像识别方法100可以包括:步骤S110、获取待处理图像;步骤S120、对该待处理图像进行文本检测,以获得一个或多个文本框以及该一个或多个文本框的第一位置信息;步骤S130、对该一个或多个文本框进行文本识别,以获得该一个或多个文本框包含的一个或多个文本信息;步骤S140、基于该一个或多个文本信息,确定待处理图像中是否存在表格区域;以及步骤S150、响应于确定该待处理图像中存在表格区域:基本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种图像识别方法,包括:获取待处理图像;对所述待处理图像进行文本检测,以获得一个或多个文本框以及所述一个或多个文本框的第一位置信息;对所述一个或多个文本框进行文本识别,以获得所述一个或多个文本框包含的一个或多个文本信息;基于所述一个或多个文本信息,确定所述待处理图像中是否存在表格区域;以及响应于确定所述待处理图像中存在表格区域:基于所述一个或多个文本框中位于所述表格区域内的至少一个第一文本框的所述第一位置信息,确定所述至少一个第一文本框中的每个第一文本框对应的表格行列信息;并且基于所述每个第一文本框的所述表格行列信息和所述每个第一文本框包含的文本信息,输出与所述待处理图像的所述表格区域对应的结构化数据。2.根据权利要求1所述的方法,其中,所述表格行列信息包括:分别指示所述每个第一文本框在所述表格区域中的行与列的行标识符和列标识符。3.根据权利要求2所述的方法,其中,基于所述一个或多个文本框中位于所述表格区域内的至少一个第一文本框的所述第一位置信息,确定所述至少一个文本框中的每个文本框对应的表格行列信息包括:根据所述第一位置信息指示的竖直方向坐标,对所述至少一个第一文本框进行排序,以获得经排序的第一文本框集合;针对所述每个第一文本框,确定该第一文本框与所述第一文本框集合中的前一第一文本框的竖直方向坐标之差是否超过第一预设阈值;以及响应于确定该第一文本框与所述第一文本框集合中的前一第一文本框的竖直方向坐标之差超过第一预设阈值,将与该第一文本框对应的行标识符递增1。4.根据权利要求3所述的方法,其中,基于所述一个或多个文本框中位于所述表格区域内的至少一个第一文本框的所述第一位置信息,确定所述至少一个文本框中的每个文本框对应的表格行列信息还包括:根据所述第一位置信息指示的水平方向坐标,对所述至少一个第一文本框进行排序,以获得经排序的第二文本框集合;针对所述每个第一文本框,确定该第一文本框与所述第二文本框集合中的前一第一文本框的水平方向坐标之差是否超过第二预设阈值;响应于确定该第一文本框与所述第二文本框集合中的前一第一文本框的水平方向坐标之差超过第二预设阈值,基于该第一文本框的水平方向坐标与所述前一第一文本框的水平方向坐标...
【专利技术属性】
技术研发人员:黄依国,王欢,周骥,冯歆鹏,
申请(专利权)人:上海肇观电子科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。