基于图像处理的文本检测方法、装置、介质及电子设备制造方法及图纸

技术编号:23315781 阅读:18 留言:0更新日期:2020-02-11 18:02
本发明专利技术实施例提供了一种基于图像处理的文本检测方法、装置、介质及电子设备,该方法包括:通过霍夫变换获取待检测图像的文本倾斜角度,并利用文本倾斜角度旋转待检测图像以得到倾斜校正图像;将倾斜校正图像输入预先训练的文本区域检测模型以得到倾斜校正图像中的文本待选区域;基于文本待选区域确定与待检测图像相对应的一个或者多个文本待选图像,并对各个文本待选图像进行灰度化处理;根据经过灰度化处理后的文本待选图像中的各个像素点的灰度值确定二值化分割阈值,并利用二值化分割阈值对文本待选图像进行二值化处理;识别经过二值化处理后的文本待选图像中的文字信息。该方法可以提高文字识别效率和识别精度。

Text detection methods, devices, media and electronic devices based on image processing

【技术实现步骤摘要】
基于图像处理的文本检测方法、装置、介质及电子设备
本专利技术涉及计算机
,具体而言,涉及一种基于图像处理的文本检测方法、基于图像处理的文本检测装置、计算机可读介质及电子设备。
技术介绍
随着计算机视觉与深度神经网络的发展,文本识别的技术得到了极大的发展。这种技术不仅可用于身份证等证件类的识别,在票据识别中也具有广泛的应用前景。但目前在实际应用中,由于图像的采集、处理、传输等环节会存在一定程度的图像失真的问题,因此目前票据识别的应用范围还较小,准确率还较低,不能完全达到人工的效果。因此,应用一些图像处理的手段,建立有效的图像处理技术,提高图像识别的准确性具有重大意义。目前的文字识别方法,主要分为传统图像算法与机器学习神经网络等方法。其中,传统图像算法(如阈值分割,直线检测等)可以在内容格式相对固定,图片清晰的条件下,得到比较好的分割效果,但对于格式复杂或较模糊的图片无能为力。而神经网络算法,目前主流的有CTPN、SSD、EAST等卷积神经网络框架,可以在格式复杂的发票检测中取得不错的效果,但存在着检测效果严重依赖于训练样本数据,并且检测出来的文字区域总是比实际的区域大的情况,因此在实际中的使用也比较受限。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术实施例的目的在于提供一种基于图像处理的文本检测方法、基于图像处理的文本检测装置、计算机可读介质及电子设备,进而至少在一定程度上克服由于相关技术的缺陷和限制而导致的文字识别效率低、识别精度差等技术问题。本专利技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术的实践而习得。根据本专利技术实施例的第一方面,提供了一种基于图像处理的文本检测方法,包括:通过霍夫变换获取待检测图像的文本倾斜角度,并利用所述文本倾斜角度旋转所述待检测图像以得到倾斜校正图像;将所述倾斜校正图像输入预先训练的文本区域检测模型以得到所述倾斜校正图像中的文本待选区域;基于所述文本待选区域确定与所述待检测图像相对应的一个或者多个文本待选图像,并对各个所述文本待选图像进行灰度化处理;根据经过灰度化处理后的文本待选图像中的各个像素点的灰度值确定二值化分割阈值,并利用所述二值化分割阈值对所述文本待选图像进行二值化处理;识别经过二值化处理后的所述文本待选图像中的文字信息。在本专利技术的一些实施例中,基于以上技术方案,所述通过霍夫变换获取待检测图像的文本倾斜角度,包括:对待检测图像进行二值化处理后得到二值化图像,并将所述二值化图像中各个像素点的像素坐标由直角坐标空间映射至极坐标空间;遍历所述二值化图像中的目标像素点,使用目标函数计算所述目标象素点在所述极坐标空间中的坐标值以确定落入所述极坐标空间中的各个空间网格内的极坐标点计数值;将所述极坐标点计数值大于预设阈值的空间网格确定为目标空间网格,以确定所述二值化图像中对应于所述目标空间网格的倾斜校正直线;根据所述倾斜校正直线的倾斜角度确定所述待检测图像的文本倾斜角度。在本专利技术的一些实施例中,基于以上技术方案,所述遍历所述二值化图像中的目标像素点,使用目标函数计算所述目标象素点在所述极坐标空间中的坐标值以确定落入所述极坐标空间中的各个空间网格内的极坐标点计数值,包括:将所述二值化图像中对应于文本位置的像素点的像素值确定为目标像素值;以预设长度和预设角度为间隔在所述极坐标空间内划分得到多个空间网格;遍历所述二值化图像中的具有目标像素值的目标像素点,以获取各个所述目标像素点在直角坐标空间中的坐标值;根据所述目标像素点在直角坐标空间中的坐标值使用目标函数计算所述目标像素点在极坐标空间中的各个极坐标点的坐标值;根据所述极坐标空间中的各个极坐标点的坐标值确定落入所述极坐标空间中的各个空间网格内的极坐标点计数值。在本专利技术的一些实施例中,基于以上技术方案,所述文本区域检测模型为具有多个卷积池化单元的卷积神经网络模型。在本专利技术的一些实施例中,基于以上技术方案,所述文本区域检测模型包括依次连接的第一卷积池化单元、第二卷积池化单元、第三卷积池化单元、第四卷积池化单元和第五卷积池化单元;所述第一卷积池化单元包括一个第一卷积层和一个第一池化层;所述第二卷积池化单元包括两个第二卷积层和一个第二池化层;所述第三卷积池化单元包括三个第三卷积层和一个第三池化层;所述第四卷积池化单元包括三个第四卷积层和一个第四池化层;所述第五卷积池化单元包括三个第五卷积层和一个第五池化层。在本专利技术的一些实施例中,基于以上技术方案,将所述倾斜校正图像输入预先训练的文本区域检测模型以得到所述倾斜校正图像中的文本待选区域,包括:将所述倾斜校正图像输入预先训练的文本区域检测模型;由所述文本区域检测模型的各个卷积池化单元依次对所述倾斜校正图像进行卷积池化处理;获取所述第三卷积池化单元、所述第四卷积池化单元以及所述第五卷积池化单元输出的特征图,并根据所述特征图确定所述倾斜校正图像中的文本待选区域。在本专利技术的一些实施例中,基于以上技术方案,所述根据经过灰度化处理后的文本待选图像中的各个像素点的灰度值确定二值化分割阈值,并利用所述二值化分割阈值对所述文本待选图像进行二值化处理,包括:利用膨胀卷积核对经过灰度化处理后的文本待选图像进行卷积处理以得到膨胀图像;利用腐蚀卷积核对所述膨胀图像进行卷积处理以得到腐蚀图像;统计所述腐蚀图像中的各个像素点的灰度值以得到二值化分割阈值,并根据所述二值化分割阈值确定二值化阈值范围;将所述腐蚀图像中灰度值在所述二值化阈值范围内的像素点确定为第一像素点,并将所述腐蚀图像中灰度值在所述二值化阈值范围外的像素点确定为第二像素点;将所述第一像素点的像素值设置为第一像素值并将所述第二像素点的像素值设置为第二像素值。根据本专利技术实施例的第二方面,提供一种基于图像处理的文本检测装置,包括:倾斜校正模块,被配置为通过霍夫变换获取待检测图像的文本倾斜角度,并利用所述文本倾斜角度旋转所述待检测图像以得到倾斜校正图像;区域检测模块,被配置为将所述倾斜校正图像输入预先训练的文本区域检测模型以得到所述倾斜校正图像中的文本待选区域;图像确定模块,被配置为基于所述文本待选区域确定与所述待检测图像相对应的一个或者多个文本待选图像,并对各个所述文本待选图像进行灰度化处理;二值化处理模块,被配置为根据经过灰度化处理后的文本待选图像中的各个像素点的灰度值确定二值化分割阈值,并利用所述二值化分割阈值对所述文本待选图像进行二值化处理;文字识别模块,被配置为识别经过二值化处理后的所述文本待选图像中的文字信息。根据本专利技术实施例的第三方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上本文档来自技高网...

【技术保护点】
1.一种基于图像处理的文本检测方法,其特征在于,包括:/n通过霍夫变换获取待检测图像的文本倾斜角度,并利用所述文本倾斜角度旋转所述待检测图像以得到倾斜校正图像;/n将所述倾斜校正图像输入预先训练的文本区域检测模型以得到所述倾斜校正图像中的文本待选区域;/n基于所述文本待选区域确定与所述待检测图像相对应的一个或者多个文本待选图像,并对各个所述文本待选图像进行灰度化处理;/n根据经过灰度化处理后的文本待选图像中的各个像素点的灰度值确定二值化分割阈值,并利用所述二值化分割阈值对所述文本待选图像进行二值化处理;/n识别经过二值化处理后的所述文本待选图像中的文字信息。/n

【技术特征摘要】
1.一种基于图像处理的文本检测方法,其特征在于,包括:
通过霍夫变换获取待检测图像的文本倾斜角度,并利用所述文本倾斜角度旋转所述待检测图像以得到倾斜校正图像;
将所述倾斜校正图像输入预先训练的文本区域检测模型以得到所述倾斜校正图像中的文本待选区域;
基于所述文本待选区域确定与所述待检测图像相对应的一个或者多个文本待选图像,并对各个所述文本待选图像进行灰度化处理;
根据经过灰度化处理后的文本待选图像中的各个像素点的灰度值确定二值化分割阈值,并利用所述二值化分割阈值对所述文本待选图像进行二值化处理;
识别经过二值化处理后的所述文本待选图像中的文字信息。


2.根据权利要求1所述的基于图像处理的文本检测方法,其特征在于,所述通过霍夫变换获取待检测图像的文本倾斜角度,包括:
对待检测图像进行二值化处理后得到二值化图像,并将所述二值化图像中各个像素点的像素坐标由直角坐标空间映射至极坐标空间;
遍历所述二值化图像中的目标像素点,使用目标函数计算所述目标象素点在所述极坐标空间中的坐标值以确定落入所述极坐标空间中的各个空间网格内的极坐标点计数值;
将所述极坐标点计数值大于预设阈值的空间网格确定为目标空间网格,以确定所述二值化图像中对应于所述目标空间网格的倾斜校正直线;
根据所述倾斜校正直线的倾斜角度确定所述待检测图像的文本倾斜角度。


3.根据权利要求2所述的基于图像处理的文本检测方法,其特征在于,所述遍历所述二值化图像中的目标像素点,使用目标函数计算所述目标象素点在所述极坐标空间中的坐标值以确定落入所述极坐标空间中的各个空间网格内的极坐标点计数值,包括:
将所述二值化图像中对应于文本位置的像素点的像素值确定为目标像素值;
以预设长度和预设角度为间隔在所述极坐标空间内划分得到多个空间网格;
遍历所述二值化图像中的具有目标像素值的目标像素点,以获取各个所述目标像素点在直角坐标空间中的坐标值;
根据所述目标像素点在直角坐标空间中的坐标值使用目标函数计算所述目标像素点在极坐标空间中的各个极坐标点的坐标值;
根据所述极坐标空间中的各个极坐标点的坐标值确定落入所述极坐标空间中的各个空间网格内的极坐标点计数值。


4.根据权利要求1所述的基于图像处理的文本检测方法,其特征在于,所述文本区域检测模型为具有多个卷积池化单元的卷积神经网络模型。


5.根据权利要求4所述的基于图像处理的文本检测方法,其特征在于,所述文本区域检测模型包括依次连接的第一卷积池化单元、第二卷积池化单元、第三卷积池化单元、第四卷积池化单元和第五卷积池化单元;
所述第一卷积池化单元包括一个第一卷积层和一个第一池化层;
所述第二卷积池化单元包括两个第二卷积层和一个第二池化层;
所述第三卷积池化单元包括三个第三卷积层和一个...

【专利技术属性】
技术研发人员:张秋晖刘岩朱兴杰丁笑天
申请(专利权)人:泰康保险集团股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1