一种表格信息提取的方法及电子设备技术

技术编号:35147237 阅读:19 留言:0更新日期:2022-10-05 10:24
本申请属于图像处理技术领域,公开了一种表格信息提取的方法及电子设备,该方法包括,确定待处理图像中的背景区域,背景区域为待处理图像中未包含文本信息的区域;根据背景区域中各像素的纵坐标以及横坐标,分别获得每一纵坐标的像素数量以及每一横坐标的像素数量;根据各纵坐标的像素数量,以及各横坐标的像素数量,确定目标表格的各个表格行坐标以及各个表格列坐标;根据目标表格的各个表格行坐标以及各个表格列坐标,获得目标表格的表格信息。这样,降低了图像界面中表格信息提取时耗费的人力成本和时间成本。力成本和时间成本。力成本和时间成本。

【技术实现步骤摘要】
一种表格信息提取的方法及电子设备


[0001]本申请涉及图像处理
,具体而言,涉及一种表格信息提取的方法及电子设备。

技术介绍

[0002]随着互联网技术的迅速发展,用户通常可以通过图像界面与机器进行更有效的交互。机器将信息进行整理与计算后,通常采用表格的形式展示处理后的信息,以向用户直观展示数据的逻辑结构。为便于图像界面中表格内容的查询以及获取,通常需要识别图像界面中的表格信息。
[0003]现有技术下,通常采用人工的方式,记录图像界面中的表格的结构以及位置等表格信息。但是,采用这种方式,这会耗费的大量的人力成本和时间成本。

技术实现思路

[0004]本申请实施例的目的在于提供一种表格信息提取的方法及电子设备,用以在提取图像界面中的表格信息时,降低耗费的人力成本和时间成本。
[0005]一方面,提供一种表格信息提取的方法,包括:
[0006]确定待处理图像中的背景区域,背景区域为待处理图像中未包含文本信息的区域;
[0007]根据背景区域中各像素的纵坐标以及横坐标,分别获得每一纵坐标的像素数量以及每一横坐标的像素数量,某一纵坐标的像素数量表示背景区域中像素的纵坐标为某一纵坐标的数量;某一横坐标的像素数量表示背景区域中像素的横坐标为某一横坐标的数量;
[0008]根据各纵坐标的像素数量,以及各横坐标的像素数量,确定目标表格的各个表格行坐标以及各个表格列坐标;
[0009]根据目标表格的各个表格行坐标以及各个表格列坐标,获得目标表格的表格信息。/>[0010]在上述实现过程中,根据待处理图像的背景区域中各像素的分布,确定表格行坐标以及表格列坐标,进而根据表格行坐标以及表格列坐标,获取表格信息,降低了图像界面中表格信息提取时耗费的人力成本和时间成本。
[0011]一种实施方式中,确定待处理图像中的背景区域,包括:
[0012]对待处理图像进行二值化处理,获得二值化图像,二值化图像中像素的灰度值为设定前景灰度值或设定背景灰度值;
[0013]基于二值化图像中设定背景灰度值的像素,确定待处理图像中的背景区域。
[0014]一种实施方式中,对待处理图像进行二值化处理,获得二值化图像,包括:
[0015]从待处理图像中筛选出灰度值符合设定背景灰度条件的像素;
[0016]将筛选出的像素的灰度值,调整为设定背景灰度值;
[0017]将待处理图像中未被筛选出的像素的灰度值,调整为设定前景灰度值,获得二值
化图像;设定背景灰度值大于设定前景灰度值。
[0018]一种实施方式中,在从待处理图像中筛选出灰度值符合设定背景灰度条件的像素之前,方法还包括:
[0019]若确定待处理图像中存在灰度值高于第一局部环境灰度值的文本信息,且存在灰度值低于第二局部环境灰度值的文本信息,则针对待处理图像中不同的局部区域设置不同的设定背景灰度条件。
[0020]一种实施方式中,在根据背景区域中各像素的纵坐标以及横坐标,分别获得每一纵坐标的像素数量以及每一横坐标的像素数量之前,方法还包括:
[0021]对待处理图像进行直线检测,获得待处理图像中的直线;
[0022]从待处理图像中去除检测出的直线。
[0023]一种实施方式中,根据背景区域中各像素的纵坐标以及横坐标,分别获得每一纵坐标的像素数量以及每一横坐标的像素数量,包括:
[0024]采用第一直线核,对二值化图像进行开操作,获得第一开操作图像,以保留二值化图像中大于第一直线核的尺寸的背景区域;第一直线核的宽度大于高度;
[0025]根据第一开操作图像的背景区域中的各像素的纵坐标,分别统计每一纵坐标的像素数量;
[0026]采用第二直线核,对二值化图像进行开操作,获得第二开操作图像,以保留二值化图像中大于第二直线核的尺寸的背景区域;第二直线核的宽度小于高度;
[0027]根据第二开操作图像的背景区域中的各像素的横坐标,分别统计每一横坐标的像素数量。
[0028]一种实施方式中,根据各纵坐标的像素数量,以及各横坐标的像素数量,确定目标表格的各个表格行坐标以及各个表格列坐标,包括:
[0029]根据各纵坐标的像素数量,以及纵坐标总数,分别获得每一纵坐标的像素占比,纵坐标总数为待处理图像中某一纵坐标的像素的数量;
[0030]基于各纵坐标的像素占比,确定各表格行坐标;
[0031]根据各横坐标的像素数量,以及横坐标总数,分别获得每一横坐标的像素占比,横坐标总数为待处理图像中某一横坐标的像素的数量;
[0032]基于各横坐标的像素占比,确定各表格列坐标。
[0033]一种实施方式中,基于各纵坐标的像素占比,确定各表格行坐标,包括:
[0034]从各纵坐标中,筛选出高于第一占比阈值的像素占比的纵坐标;
[0035]基于不高于第一占比阈值的像素占比的纵坐标,对筛选出的纵坐标进行划分,获得纵坐标集合;
[0036]若纵坐标集合中仅包含一个纵坐标,则将纵坐标集合中的纵坐标确定为表格行坐标;
[0037]若纵坐标集合中包含多个连续的纵坐标,则将纵坐标集合中各纵坐标的均值,确定为表格行坐标。
[0038]一种实施方式中,基于各横坐标的像素占比,确定各表格列坐标,包括:
[0039]从各横坐标中,筛选出高于第二占比阈值的像素占比的横坐标;
[0040]基于不高于第二占比阈值的像素占比的横坐标,对筛选出的横坐标进列划分,获
得横坐标集合;
[0041]若横坐标集合中仅包含一个横坐标,则将横坐标集合中的横坐标确定为表格列坐标;
[0042]若横坐标集合中包含多个连续的横坐标,则将横坐标集合中各横坐标的均值,确定为表格列坐标。
[0043]一种实施方式中,根据目标表格的各个表格行坐标以及各个表格列坐标,获得目标表格的表格信息,包括:
[0044]基于各个表格行坐标以及各个表格列坐标,生成目标表格;
[0045]获取目标表格中各单元格的位置信息,表格信息包括各单元格的位置信息。
[0046]一方面,提供一种表格信息提取的装置,包括:
[0047]第一确定单元,用于确定待处理图像中的背景区域,背景区域为待处理图像中未包含文本信息的区域;
[0048]第一获得单元,用于根据背景区域中各像素的纵坐标以及横坐标,分别获得每一纵坐标的像素数量以及每一横坐标的像素数量,某一纵坐标的像素数量表示背景区域中像素的纵坐标为某一纵坐标的数量;某一横坐标的像素数量表示背景区域中像素的横坐标为某一横坐标的数量;
[0049]第二确定单元,用于根据各纵坐标的像素数量,以及各横坐标的像素数量,确定目标表格的各个表格行坐标以及各个表格列坐标;
[0050]第二获得单元,用于根据目标表格的各个表格行坐标以及各个表格列坐标,获得目标表格的表格信息。
[0051]一种实施方式中,第一确定单元本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种表格信息提取的方法,其特征在于,包括:确定待处理图像中的背景区域,所述背景区域为所述待处理图像中未包含文本信息的区域;根据所述背景区域中各像素的纵坐标以及横坐标,分别获得每一纵坐标的像素数量以及每一横坐标的像素数量,某一纵坐标的像素数量表示所述背景区域中像素的纵坐标为所述某一纵坐标的数量;某一横坐标的像素数量表示所述背景区域中像素的横坐标为所述某一横坐标的数量;根据各纵坐标的像素数量,以及各横坐标的像素数量,确定目标表格的各个表格行坐标以及各个表格列坐标;根据所述目标表格的各个表格行坐标以及各个表格列坐标,获得所述目标表格的表格信息。2.如权利要求1所述的方法,其特征在于,所述确定待处理图像中的背景区域,包括:对所述待处理图像进行二值化处理,获得二值化图像,所述二值化图像中像素的灰度值为设定前景灰度值或设定背景灰度值;基于所述二值化图像中设定背景灰度值的像素,确定所述待处理图像中的背景区域。3.如权利要求2所述的方法,其特征在于,所述对所述待处理图像进行二值化处理,获得二值化图像,包括:从所述待处理图像中筛选出灰度值符合设定背景灰度条件的像素;将筛选出的像素的灰度值,调整为设定背景灰度值;将所述待处理图像中未被筛选出的像素的灰度值,调整为设定前景灰度值,获得二值化图像;所述设定背景灰度值大于所述设定前景灰度值。4.如权利要求3所述的方法,其特征在于,在所述从所述待处理图像中筛选出灰度值符合设定背景灰度条件的像素之前,所述方法还包括:若确定所述待处理图像中存在灰度值高于第一局部环境灰度值的文本信息,且存在灰度值低于第二局部环境灰度值的文本信息,则针对所述待处理图像中不同的局部区域设置不同的设定背景灰度条件。5.如权利要求1所述的方法,其特征在于,在所述根据所述背景区域中各像素的纵坐标以及横坐标,分别获得每一纵坐标的像素数量以及每一横坐标的像素数量之前,所述方法还包括:对所述待处理图像进行直线检测,获得所述待处理图像中的直线;从所述待处理图像中去除检测出的直线。6.如权利要求2所述的方法,其特征在于,所述根据所述背景区域中各像素的纵坐标以及横坐标,分别获得每一纵坐标的像素数量以及每一横坐标的像素数量,包括:采用第一直线核,对所述二值化图像进行开操作,获得第一开操作图像,以保留所述二值化图像中大于所述第一直线核的尺寸的背景区域;所述第一直线核的宽度大于高度;根据所述第一开操作图像的背景区域中各像素的纵坐标,分别统计每一纵坐标的像素数量;采用第二直线核,对所...

【专利技术属性】
技术研发人员:黄博张泉周元剑周健
申请(专利权)人:上海弘玑信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1