表格类文本语义识别方法及装置制造方法及图纸

技术编号:35430067 阅读:22 留言:0更新日期:2022-11-03 11:34
本公开提供一种表格类文本语义识别方法及装置。所述方法包括:检测待处理图像中的表格中的文本框位置;根据文本框位置,对待处理图像进行角度校正,获得第一图像;对第一图像中的文本内容进行识别,获得文本内容的语义信息。根据本公开,能够确定文本内容的文本框,并根据文本框的角度对待处理图像进行角度校正,从而减少字迹等原因对于识别的文本的干扰,提升对于手写文本的识别准确性。升对于手写文本的识别准确性。升对于手写文本的识别准确性。

【技术实现步骤摘要】
表格类文本语义识别方法及装置


[0001]本公开涉及计算机
,具体涉及一种表格类文本语义识别方法及装置。

技术介绍

[0002]光学字符识别(Optical Character Recognition,OCR)技术已广泛应用于将图像中代表文字的像素点转换为可编辑的文字,更进一步,在特定的场景中,通过对文字在图片上位置关系的解析,还可将图片中的文字以特殊的形式组合起来,比如办公场景(印刷体识别、手写文字识别、表格识别),交通场景(驾驶证识别、车牌识别、车辆合格证识别),卡证场景(身份证识别、银行卡识别、户口本识别、营业执照识别)等等。
[0003]在销售场景中,供货方会提供关于商品详细信息的供货单,如商品名称、数量、单价等等,这样的货物单据往往以手写表格的形式呈现,经过实践发现目前手写表格的识别技术存在一些弊端:对于表格单元格的识别不够准确,如多单元格被识别为单元格,且单元格的识别易受到图片阴影、折痕的影响;对表格中文字的识别不够准确,目前大部分表格识别的功能是基于印刷体表格图片进行训练的,故而对表格中的手写字体的识别准确率不能达到生产要求。
[0004]公开于本申请
技术介绍
部分的信息仅仅旨在加深对本申请的一般
技术介绍
的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

技术实现思路

[0005]本公开实施例提供一种表格类文本语义识别方法及装置,能够确定文本内容的文本框,并根据文本框的角度对待处理图像进行角度校正,从而减少字迹等原因对于识别的文本的干扰,提升对于手写文本的识别准确性。
[0006]本公开实施例的第一方面,提供一种表格类文本语义识别方法,包括:检测待处理图像中的表格中的文本框位置,其中,所述待处理图像为包括表格的图像,所述表格中包括文本内容,所述文本框为包围所述表格的单元格中的文本内容的矩形框;根据所述文本框位置,对所述待处理图像进行角度校正,获得第一图像;对所述第一图像中的文本内容进行识别,获得所述表格中各文本内容的语义信息。
[0007]根据本公开的实施例,检测待处理图像中的表格中的文本框位置,包括:获取单元格的角点坐标;根据所述角点坐标,获取单元格的二值化图像;根据所述二值化图像的各像素点的像素值,确定所述文本内容在二值化图像中的第一位置信息;根据所述第一位置信息,确定所述文本框位置。
[0008]根据本公开的实施例,根据所述角点坐标,获取单元格的二值化图像,包括:
通过numpy工具,对各单元格进行截图,获取各单元格的第二图像;通过cv2.cvtColor工具,将所述第二图像转换为单通道灰度图;通过cv2.bitwise_not工具,将所述单通道灰度图转换为所述二值化图像。
[0009]根据本公开的实施例,根据所述二值化图像的各像素点的像素值,确定所述文本内容在二值化图像中的第一位置信息,包括:通过np.where工具,获取所述二值化图像中像素值不等于0的像素点的坐标信息;根据所述二值化图像中像素值不等于0的像素点的坐标信息,确定所述第一位置信息。
[0010]根据本公开的实施例,根据所述第一位置信息,确定所述文本框位置,包括:通过cv2.minAreaRect工具,以及所述第一位置信息,获取文本内容的最小外接矩形;将所述最小外接矩形确定为所述文本框,并确定所述文本框位置。
[0011]根据本公开的实施例,根据所述文本框位置,对所述待处理图像进行角度校正,获得第一图像,包括:根据所述文本框位置,确定所述文本框相对于所述待处理图像的偏移角度;确定偏移角度小于或等于预设角度阈值的目标文本框;确定所述目标文本框的平均偏移角度;根据所述平均偏移角度,对所述待处理图像进行角度校正,获得第一图像。
[0012]根据本公开的实施例,对所述第一图像中的文本内容进行识别,获得所述表格中各文本内容的语义信息,包括:将所述第一图像编码为base64格式;将base64格式的第一图像打包为json格式;通过OCR识别接口,对json格式的第一图像进行识别,获得各文本内容的语义信息。
[0013]本公开实施例的第二方面,提供一种表格类文本语义识别装置,包括:检测模块,用于检测待处理图像中的表格中的文本框位置,其中,所述待处理图像为包括表格的图像,所述表格中包括文本内容,所述文本框为包围所述表格的单元格中的文本内容的矩形框;校正模块,用于根据所述文本框位置,对所述待处理图像进行角度校正,获得第一图像;语义模块,用于对所述第一图像中的文本内容进行识别,获得所述表格中各文本内容的语义信息。
[0014]根据本公开的实施例,所述检测模块进一步用于:获取单元格的角点坐标;根据所述角点坐标,获取单元格的二值化图像;根据所述二值化图像的各像素点的像素值,确定所述文本内容在二值化图像中的第一位置信息;根据所述第一位置信息,确定所述文本框位置。
[0015]根据本公开的实施例,所述检测模块进一步用于:通过numpy工具,对各单元格进行截图,获取各单元格的第二图像;通过cv2.cvtColor工具,将所述第二图像转换为单通道灰度图;通过cv2.bitwise_not工具,将所述单通道灰度图转换为所述二值化图像。
[0016]根据本公开的实施例,所述检测模块进一步用于:通过np.where工具,获取所述二值化图像中像素值不等于0的像素点的坐标信息;根据所述二值化图像中像素值不等于0的像素点的坐标信息,确定所述第一位置信息。
[0017]根据本公开的实施例,所述检测模块进一步用于:通过cv2.minAreaRect工具,以及所述第一位置信息,获取文本内容的最小外接矩形;将所述最小外接矩形确定为所述文本框,并确定所述文本框位置。
[0018]根据本公开的实施例,所述校正模块进一步用于:根据所述文本框位置,确定所述文本框相对于所述待处理图像的偏移角度;确定偏移角度小于或等于预设角度阈值的目标文本框;确定所述目标文本框的平均偏移角度;根据所述平均偏移角度,对所述待处理图像进行角度校正,获得第一图像。
[0019]根据本公开的实施例,所述语义模块进一步用于:将所述第一图像编码为base64格式;将base64格式的第一图像打包为json格式;通过OCR识别接口,对json格式的第一图像进行识别,获得各文本内容的语义信息。
[0020]本公开实施例的第三方面,提供一种表格类文本语义识别设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
[0021]本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现上述方法。
附图说明
[0022]图1示例性地示出本公开实施例的表格类文本语义识别方法的流程示意图;图2示例性地示出本公开实施例的表格类文本语义识别装置的框图;图3是根据一示例性实施例示出的一种表格类文本语义识别设备的框图。...

【技术保护点】

【技术特征摘要】
1.一种表格类文本语义识别方法,其特征在于,包括:检测待处理图像中的表格中的文本框位置,其中,所述待处理图像为包括表格的图像,所述表格中包括文本内容,所述文本框为包围所述表格的单元格中的文本内容的矩形框;根据所述文本框位置,对所述待处理图像进行角度校正,获得第一图像;对所述第一图像中的文本内容进行识别,获得所述表格中各文本内容的语义信息。2.根据权利要求1所述的方法,其特征在于,检测待处理图像中的表格中的文本框位置,包括:获取单元格的角点坐标;根据所述角点坐标,获取单元格的二值化图像;根据所述二值化图像的各像素点的像素值,确定所述文本内容在二值化图像中的第一位置信息;根据所述第一位置信息,确定所述文本框位置。3.根据权利要求2所述的方法,其特征在于,根据所述角点坐标,获取单元格的二值化图像,包括:通过numpy工具,对各单元格进行截图,获取各单元格的第二图像;通过cv2.cvtColor工具,将所述第二图像转换为单通道灰度图;通过cv2.bitwise_not工具,将所述单通道灰度图转换为所述二值化图像。4.根据权利要求2所述的方法,其特征在于,根据所述二值化图像的各像素点的像素值,确定所述文本内容在二值化图像中的第一位置信息,包括:通过np.where工具,获取所述二值化图像中像素值不等于0的像素点的坐标信息;根据所述二值化图像中像素值不等于0的像素点的坐标信息,确定所述第一位置信息。5.根据权利要求2所述的方法,其特征在于,根据所述第一位置信息,确定所述文本框位置,包括:通过cv2.minAreaRect工具,以及所述第一位置信息,获取文本内容的最小外接矩形;将所述最...

【专利技术属性】
技术研发人员:闫恺杜向阳
申请(专利权)人:深圳擎盾信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1