图像的文本检测方法、装置、存储介质和电子设备制造方法及图纸

技术编号:37214938 阅读:8 留言:0更新日期:2023-04-20 23:03
本申请实施例提供了一种图像的文本检测方法、装置、存储介质和电子设备,涉及图像处理领域,其中,该方法包括:对目标图像进行字符检测,得到多个字符区域,其中,多个字符区域中每个字符区域展示了目标图像上的一个字符;从多个字符区域中识别出多个边缘字符区域,其中,多个边缘字符区域中每个边缘字符区域展示了一个位于一句文本起始位置或者结尾位置的边缘字符;根据字符区域之间的位置关系分别使用每个边缘字符区域对多个字符区域中位于同一文本行中的字符区域进行聚类,得到一个或者多个目标文本行。通过本申请,解决了图像的文本检测的鲁棒性较差的问题,进而达到了提高了图像的文本检测的鲁棒性的效果。像的文本检测的鲁棒性的效果。像的文本检测的鲁棒性的效果。

【技术实现步骤摘要】
图像的文本检测方法、装置、存储介质和电子设备


[0001]本申请实施例涉及图像处理领域,具体而言,涉及一种图像的文本检测方法、装置、存储介质和电子设备。

技术介绍

[0002]近年来,随着多模态人工智能的快速发展,对OCR(optical character recognition,文字识别)的应用也随之深入,光学字符检测OCR提供了一种从图像中提取语义信息的新方式,将光学字符检测应用在TextVQA(Text Visual Question Answering,文本视觉问答任务)、STVQA(Scene Text Visual Question Answering,场景文本视觉问答)、VizWiz

VQA(回答盲人的视觉问题的图像数据集)等多模态领域中,可有效提高多模态任务本身的精度。光学字符检测主要分为两个研究方向,第一是文本检测,旨在将图像中的所有文本(即字符串)框定出来;第二是字符识别,旨在将框定出的区域中存在的字符识别出来。此外还有一些额外的研究领域,如字符串的排序,等等。
[0003]在现有的光学文本检测领域中,有PixelLink(基于文本实例分割的文本检测算法),CRAFT(Character Region Awareness for Text Detection,自然场景文本检测),PSENet(Progressive Scale Expansion Network,渐进式尺度扩展网络)等等算法。但是,这些算法对于字符较密集的图像检测场景都可能会出现由于所有的注意力框相邻太近导致处理过程中很难将注意力框重新分开,或者对于训练样本过于依赖等问题,导致算法在检测密集文本时要么会失效,要么只能检测与训练样本相似的图像。这些算法的检测方式鲁棒性都较差。

技术实现思路

[0004]本申请实施例提供了一种图像的文本检测方法、装置、存储介质和电子设备,以至少解决相关技术中图像的文本检测的鲁棒性较差的问题。
[0005]根据本申请的一个实施例,提供了一种图像的文本检测方法,包括:对目标图像进行字符检测,得到多个字符区域,其中,所述多个字符区域中每个字符区域展示了所述目标图像上的一个字符;从所述多个字符区域中识别出多个边缘字符区域,其中,所述多个边缘字符区域中每个边缘字符区域展示了一个位于一句文本起始位置或者结尾位置的边缘字符;根据字符区域之间的位置关系分别使用所述每个边缘字符区域对所述多个字符区域中位于同一文本行中的字符区域进行聚类,得到一个或者多个目标文本行。
[0006]在一个示例性实施例中,所述从所述多个字符区域中识别出多个边缘字符区域,包括:根据字符区域之间的衔接关系从所述多个字符区域中识别出候选字符区域,其中,所述候选字符区域是未在全部衔接方向上具有所述衔接关系的字符区域;从所述候选字符区域中识别具有目标边缘特征的字符区域,得到所述多个边缘字
符区域。
[0007]在一个示例性实施例中,所述根据字符区域之间的衔接关系从所述多个字符区域中识别出候选字符区域,包括:识别所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域,其中,所述衔接方向包括上方向,下方向,左方向和右方向,所述衔接字符区域是与所述每个字符区域在一个衔接方向上具有衔接关系的字符区域;将所述多个字符区域中未在所述全部衔接方向上均对应了衔接字符区域的字符区域确定为所述候选字符区域。
[0008]在一个示例性实施例中,所述识别所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域,包括:遍历每个字符区域,对当前字符区域在所述全部衔接方向上进行图像扩张,得到上下文区域;将所述上下文区域按照所述全部衔接方向划分为多个方向区域,得到具有对应关系的衔接方向和方向区域;遍历每个衔接方向对应的方向区域,将当前衔接方向对应的当前方向区域与所述多个字符区域中除所述每个字符区域之外的其他字符区域进行匹配,得到匹配结果,其中,在所述匹配结果指示了所述其他字符区域中存在与所述当前方向区域匹配成功的字符区域的情况下,确定所述当前字符区域在所述当前衔接方向上对应了衔接字符区域,在所述匹配结果指示了所述其他字符区域与所述当前方向区域均匹配失败的情况下,确定所述当前字符区域在所述当前衔接方向未对应衔接字符区域;根据每个衔接方向上对应的所述匹配结果确定所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域。
[0009]在一个示例性实施例中,所述对当前字符区域在所述全部衔接方向上进行图像扩张,得到上下文区域,包括:获取目标扩充像素,其中,所述目标扩充像素是根据所述目标图像的图像属性确定的;将所述当前字符区域分别在每个衔接方向上扩充所述目标扩充像素,得到所述上下文区域。
[0010]在一个示例性实施例中,所述将所述上下文区域按照所述全部衔接方向划分为多个方向区域,得到具有对应关系的衔接方向和方向区域,包括:将所述上下文区域分别按照每个衔接方向划分为对应的方向区域;在每个所述方向区域,按照对应的衔接方向包括的多个子方向将每个所述方向区域划分为每个子方向对应的子区域,得到具有对应关系的衔接方向和方向区域,其中,每个方向区域包括多个具有对应关系的子方向和子区域。
[0011]在一个示例性实施例中,所述将当前衔接方向对应的当前方向区域与所述多个字符区域中除所述每个字符区域之外的其他字符区域进行匹配,包括:计算所述当前方向区域与所述其他字符区域之间的像素交并比,并获取所述像素交并比的最大值,其中,所述像素交并比为所述当前方向区域与所述其他字符区域之间交集像素数与并集像素数之间的比值;
将所述最大值大于目标阈值的所述当前方向区域对应的标签记为真作为所述匹配结果,并将所述最大值小于或者等于所述目标阈值的所述当前方向区域对应的标签记为假作为所述匹配结果,其中,标签为真表示所述其他字符区域中存在与所述当前方向区域匹配成功的字符区域。
[0012]在一个示例性实施例中,所述计算所述当前方向区域与所述其他字符区域之间的像素交并比,并获取所述像素交并比的最大值,包括:;其中,IoUmax为所述最大值,为所述上下文区域,ar为所述当前方向区域,表示所述其他字符区域,为所述交集像素数,为所述并集像素数。
[0013]在一个示例性实施例中,所述根据每个衔接方向上对应的所述匹配结果确定所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域,包括:计算互为中心对称的两个衔接方向上对应标签的异或值,得到多个参考标签;将所述多个参考标签进行或运算,得到所述每个字符区域对应的目标标签;在所述目标标签为真的情况下,确定所述每个字符区域在所述全部衔接方向上均对应了衔接字符区域;在所述目标标签为假的情况下,确定所述每个字符区域未在所述全部衔接方向上均对应衔接字符区域。
[0014]在一个示例性实施例中,所述从所述候选字符区域中识别具有目标边缘特征的字符区域,得到所述多个边缘字符区域,包括:从边缘字符图像中提取所述目标边缘特征;将所述目标边缘特征与所述候选字符区域进行相似度运算,得到目标相似度;在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像的文本检测方法,其特征在于,包括:对目标图像进行字符检测,得到多个字符区域,其中,所述多个字符区域中每个字符区域展示了所述目标图像上的一个字符;从所述多个字符区域中识别出多个边缘字符区域,其中,所述多个边缘字符区域中每个边缘字符区域展示了一个位于一句文本起始位置或者结尾位置的边缘字符;根据字符区域之间的位置关系分别使用所述每个边缘字符区域对所述多个字符区域中位于同一文本行中的字符区域进行聚类,得到一个或者多个目标文本行。2.根据权利要求1所述的方法,其特征在于,所述从所述多个字符区域中识别出多个边缘字符区域,包括:根据字符区域之间的衔接关系从所述多个字符区域中识别出候选字符区域,其中,所述候选字符区域是未在全部衔接方向上具有所述衔接关系的字符区域;从所述候选字符区域中识别具有目标边缘特征的字符区域,得到所述多个边缘字符区域。3.根据权利要求2所述的方法,其特征在于,所述根据字符区域之间的衔接关系从所述多个字符区域中识别出候选字符区域,包括:识别所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域,其中,所述衔接方向包括上方向,下方向,左方向和右方向,所述衔接字符区域是与所述每个字符区域在一个衔接方向上具有衔接关系的字符区域;将所述多个字符区域中未在所述全部衔接方向上均对应了衔接字符区域的字符区域确定为所述候选字符区域。4.根据权利要求3所述的方法,其特征在于,所述识别所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域,包括:遍历每个字符区域,对当前字符区域在所述全部衔接方向上进行图像扩张,得到上下文区域;将所述上下文区域按照所述全部衔接方向划分为多个方向区域,得到具有对应关系的衔接方向和方向区域;遍历每个衔接方向对应的方向区域,将当前衔接方向对应的当前方向区域与所述多个字符区域中除所述每个字符区域之外的其他字符区域进行匹配,得到匹配结果,其中,在所述匹配结果指示了所述其他字符区域中存在与所述当前方向区域匹配成功的字符区域的情况下,确定所述当前字符区域在所述当前衔接方向上对应了衔接字符区域,在所述匹配结果指示了所述其他字符区域与所述当前方向区域均匹配失败的情况下,确定所述当前字符区域在所述当前衔接方向未对应衔接字符区域;根据每个衔接方向上对应的所述匹配结果确定所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域。5.根据权利要求4所述的方法,其特征在于,所述对当前字符区域在所述全部衔接方向上进行图像扩张,得到上下文区域,包括:获取目标扩充像素,其中,所述目标扩充像素是根据所述目标图像的图像属性确定的;将所述当前字符区域分别在每个衔接方向上扩充所述目标扩充像素,得到所述上下文区域。
6.根据权利要求4所述的方法,其特征在于,所述将所述上下文区域按照所述全部衔接方向划分为多个方向区域,得到具有对应关系的衔接方向和方向区域,包括:将所述上下文区域分别按照每个衔接方向划分为对应的方向区域;在每个所述方向区域,按照对应的衔接方向包括的多个子方向将每个所述方向区域划分为每个子方向对应的子区域,得到具有对应关系的衔接方向和方向区域,其中,每个方向区域包括多个具有对应关系的子方向和子区域。7.根据权利要求4所述的方法,其特征在于,所述将当前衔接方向对应的当前方向区域与所述多个字符区域中除所述每个字符区域之外的其他字符区域进行匹配,包括:计算所述当前方向区域与所述其他字符区域之间的像素交并比,并获取所述像素交并比的最大值,其中,所述像素交并比为所述当前方向区域与所述其他字符区域之间交集像素数与并集像素数之间的比值;将所述最大值大于目标阈值的所述当前方向区域对应的标签记为真作为所述匹配结果,并将所述最大值小于或者等于所述目标阈值的所述当前方向区域对应的标签记为假作为所述匹配结果,其中,标签为真表示所述其他字符区域中存在与所述当前方向区域匹配成功的字符区域。8.根据权利要求7所述的方法,其特征在于,所述计算所述当前方向区域与所述其他字符区域之间的像素交并比,并获取所述像素交并比的最大值,包括:;其中,IoUmax为所述最大值,为所述上下文区域,ar为所述当前方向区域,表示所述其他字符区域,为所述交集像素数,为所述并集像素数。9.根据权利要求7所述的方法,其特征在于,所述根据每个衔接方向上对应的所述匹配结果确定所述每个字符区域是否在所述全部衔接方向上均对应了衔接字符区域,包括:计算互为中心对称的两个衔接方向上对应标签的异或值,得到多个参考标签;将所述多个参考标签进行或运算,得到所述每个字符区域对应的目标标签;在所述目标标签为真的情况下,确定所述每个字符区域在所述全部衔接方向上均对应了衔接字符区域;在所述目标标签为假的情况下,确定所述每个字符区域未在所述全部衔接方向上均对应衔接字符区域。10.根据权利要求2所述的方法,其特征在于,所述从所述候选字符区域中识别具有目标边缘特征的字符区域,得到所述多个边缘字符区域,包括:从边缘字符图像中提取所述目标边缘特征;将所述目标边缘特征与所述候选字符区域进行相似度运算,得到目标相似度;在所述目标相似度大于或者等于相似度阈值的情况下,将所述候选字符区域确定为边缘字符区域。11.根据权利要求2所述的方法,其特征在于,所述从所述候选...

【专利技术属性】
技术研发人员:李晓川郭振华赵雅倩李仁刚范宝余
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1