文本识别方法、装置、存储介质及电子设备制造方法及图纸

技术编号:34770450 阅读:14 留言:0更新日期:2022-08-31 19:30
本公开涉及一种文本识别方法、装置、存储介质及电子设备,该方法获取待检测图像对应的初始文本区域;在确定所述初始文本区域为非水平状态的情况下,对所述初始文本区域进行形变处理,得到所述初始文本区域对应的水平文本区域;根据所述水平文本区域,确定所述待检测图像中的文本。也就是说,本公开在确定待检测图像对应的初始文本区域为非水平状态的情况下,先对该初始文本区域进行形变处理,之后,再基于形变处理后的水平文本区域进行文本识别,由于该水平文本区域的形状比较规则,其轮廓不会与文本行过于贴合,使得根据该水平文本区域识别得到的文本行中的文本不会被截断,文本行更加完整,从而提高了文本识别的准确率。从而提高了文本识别的准确率。从而提高了文本识别的准确率。

【技术实现步骤摘要】
文本识别方法、装置、存储介质及电子设备


[0001]本公开涉及图像处理
,具体地,涉及一种文本识别方法、装置、存储介质及电子设备。

技术介绍

[0002]常见的文本识别方法可以分为印刷体识别和手写体识别,其中,手写体识别除了面临印刷体识别中的各类问题外,还受书写风格的影响。尤其在教育场景下,小学生作答时很难保证同一行内容的横平竖直,容易出现作答文本行的弧形、波浪形等多种弯曲形状,基于此,在文本行检测需求的源头产生了任意形状的文本行。
[0003]相关技术中,可以先通过神经网络预测文本行的轮廓,进而对轮廓中的文本进行识别,但是,由于文本行的形状不规则,预测出的轮廓与文本行过于贴合,导致文字容易被截断,出现文本行不完整的情况,从而使得文本识别的准确率比较低。

技术实现思路

[0004]为了解决上述问题,本公开提供一种文本识别方法、装置、存储介质及电子设备。
[0005]第一方面,本公开提供一种文本识别方法,所述方法包括:
[0006]获取待检测图像对应的初始文本区域;
[0007]在确定所述初始文本区域为非水平状态的情况下,对所述初始文本区域进行形变处理,得到所述初始文本区域对应的水平文本区域;
[0008]根据所述水平文本区域,确定所述待检测图像中的文本。
[0009]可选地,所述确定所述初始文本区域为非水平状态包括:
[0010]确定所述初始文本区域对应的最小外接矩形;
[0011]确定所述初始文本区域的区域面积与所述最小外接矩形的矩形面积之间的面积比值;
[0012]在所述面积比值小于或等于预设比值阈值的情况下,确定所述初始文本区域为非水平状态。
[0013]可选地,在所述确定所述初始文本区域对应的最小外接矩形前,所述方法还包括:
[0014]针对所述初始文本区域的每个像素点,根据所述像素点的位置,确定所述像素点对应的移动方向,并根据所述移动方向和预设移动距离,确定所述像素点对应的目标位置;
[0015]根据每个所述像素点对应的目标位置,确定所述初始文本区域对应的扩展文本区域;
[0016]所述确定所述初始文本区域对应的最小外接矩形包括:
[0017]确定所述扩展文本区域对应的最小外接矩形。
[0018]可选地,所述获取待检测图像对应的初始文本区域包括:
[0019]将所述待检测图像输入预先训练的文本区域检测模型,以获取所述文本区域检测模型输出的所述初始文本区域。
[0020]可选地,所述文本区域检测模型包括特征获取子模型、特征增强子模型以及轮廓检测子模型,所述特征获取子模型的输出端与所述特征增强子模型的输入端耦合,所述特征增强子模型的输出端与所述轮廓检测子模型的输入端耦合;所述将所述待检测图像输入预先训练的文本区域检测模型,以获取所述文本区域检测模型输出的所述初始文本区域包括:
[0021]将所述待检测图像输入所述特征获取子模型,以获取所述特征获取子模型输出的多个特征图,不同特征图对应的尺寸不同;
[0022]将多个所述特征图输入所述特征增强子模型,通过所述特征增强子模型对多个所述特征图进行扩大增强处理和缩小增强处理,以获取所述特征增强子模型输出的多个目标特征图;
[0023]根据多个所述目标特征图,通过所述轮廓检测子模型,获取所述初始文本区域。
[0024]可选地,所述根据多个所述目标特征图,通过所述轮廓检测子模型,获取所述初始文本轮廓包括:
[0025]对多个所述目标特征图进行拼接处理,得到目标拼接特征图;
[0026]将所述目标拼接特征图输入所述轮廓检测子模型,以获取所述轮廓检测子模型输出的所述初始文本区域。
[0027]可选地,所述文本区域检测模型通过以下方式训练得到:
[0028]获取多个样本集,所述样本集包括样本图像和所述样本图像对应的真值二值图,所述二值图用于表征所述样本图像中的文本区域;
[0029]通过多个所述样本集对目标神经网络模型进行训练,得到所述文本区域检测模型。
[0030]可选地,所述获取多个样本集包括:
[0031]获取多个所述样本图像和每个所述样本图像对应的文本边界;
[0032]针对每个所述样本图像,根据预设调整系数和所述样本图像对应的文本边界的面积周长比,确定边界距离,根据所述边界距离确定所述样本图像对应的真值阈值图,根据所述文本边界确定所述样本图像对应的真值概率图,并根据所述真值阈值图和所述真值概率图,确定所述样本图像对应的所述真值二值图。
[0033]可选地,所述通过多个所述样本集对目标神经网络模型进行训练,得到所述文本区域检测模型包括:
[0034]循环执行模型训练步骤,直至根据所述真值二值图和样本二值图确定训练后的目标神经网络模型满足预设停止迭代条件,将训练后的目标神经网络模型作为所述文本区域检测模型;所述样本二值图根据样本阈值图和样本概率图确定,所述样本阈值图和所述样本概率图为所述样本图像输入训练后的目标神经网络模型后输出的图像;
[0035]所述模型训练步骤包括:
[0036]将多个所述样本图像输入所述目标神经网络模型,以获取所述目标神经网络模型输出的每个所述样本图像对应的所述样本阈值图和所述样本概率图;
[0037]根据所述样本阈值图和所述样本概率图,确定所述样本二值图;
[0038]在根据所述真值二值图和所述样本二值图确定训练后的目标神经网络模型不满足所述预设停止迭代条件的情况下,根据所述真值二值图和所述样本二值图确定目标损失
值,根据所述目标损失值更新所述目标神经网络模型的参数,得到训练后的目标神经网络模型,并将该训练后的目标神经网络模型作为新的目标神经网络模型。
[0039]第二方面,本公开提供一种文本识别装置,所述装置包括:
[0040]区域获取模块,用于获取待检测图像对应的初始文本区域;
[0041]状态确定模块,用于在确定所述初始文本区域为非水平状态的情况下,对所述初始文本区域进行形变处理,得到所述初始文本区域对应的水平文本区域;
[0042]文本识别模块,用于根据所述水平文本区域,确定所述待检测图像中的文本。
[0043]可选地,所述状态确定模块,还用于:
[0044]确定所述初始文本区域对应的最小外接矩形;
[0045]确定所述初始文本区域的区域面积与所述最小外接矩形的矩形面积之间的面积比值;
[0046]在所述面积比值小于或等于预设比值阈值的情况下,确定所述初始文本区域为非水平状态。
[0047]可选地,所述装置还包括:
[0048]位置确定模块,用于针对所述初始文本区域的每个像素点,根据所述像素点的位置,确定所述像素点对应的移动方向,并根据所述移动方向和预设移动距离,确定所述像素点对应的目标位置;
[0049]区域确定模块,用于根据每个所述像素点对应的目标位置,确定所述初始文本区域对应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:获取待检测图像对应的初始文本区域;在确定所述初始文本区域为非水平状态的情况下,对所述初始文本区域进行形变处理,得到所述初始文本区域对应的水平文本区域;根据所述水平文本区域,确定所述待检测图像中的文本。2.根据权利要求1所述的方法,其特征在于,所述确定所述初始文本区域为非水平状态包括:确定所述初始文本区域对应的最小外接矩形;确定所述初始文本区域的区域面积与所述最小外接矩形的矩形面积之间的面积比值;在所述面积比值小于或等于预设比值阈值的情况下,确定所述初始文本区域为非水平状态。3.根据权利要求2所述的方法,其特征在于,在所述确定所述初始文本区域对应的最小外接矩形前,所述方法还包括:针对所述初始文本区域的每个像素点,根据所述像素点的位置,确定所述像素点对应的移动方向,并根据所述移动方向和预设移动距离,确定所述像素点对应的目标位置;根据每个所述像素点对应的目标位置,确定所述初始文本区域对应的扩展文本区域;所述确定所述初始文本区域对应的最小外接矩形包括:确定所述扩展文本区域对应的最小外接矩形。4.根据权利要求1所述的方法,其特征在于,所述获取待检测图像对应的初始文本区域包括:将所述待检测图像输入预先训练的文本区域检测模型,以获取所述文本区域检测模型输出的所述初始文本区域。5.根据权利要求4所述的方法,其特征在于,所述文本区域检测模型包括特征获取子模型、特征增强子模型以及轮廓检测子模型,所述特征获取子模型的输出端与所述特征增强子模型的输入端耦合,所述特征增强子模型的输出端与所述轮廓检测子模型的输入端耦合;所述将所述待检测图像输入预先训练的文本区域检测模型,以获取所述文本区域检测模型输出的所述初始文本区域包括:将所述待检测图像输入所述特征获取子模型,以获取所述特征获取子模型输出的多个特征图,不同特征图对应的尺寸不同;将多个所述特征图输入所述特征增强子模型,通过所述特征增强子模型对多个所述特征图进行扩大增强处理和缩小增强处理,以获取所述特征增强子模型输出的多个目标特征图;根据多个所述目标特征图,通过所述轮廓检测子模型,获取所述初始文本区域。6.根据权利要求5所述的方法,其特征在于,所述根据多个所述目标特征图,通过所述轮廓检测子模型,获取所述初始文本轮廓包括:对多个所述目标特征图进行拼接处理,得到目标拼接特征图;将所述目标拼接特征图输入所述轮廓检测子模型,以获取所述轮廓检测子模型输出的所述初始文本区域。7.根据权利要求4所述的方法,其特征在于,所述文本区域检测模型通过以下方式训练
...

【专利技术属性】
技术研发人员:杨明坤
申请(专利权)人:北京智通东方软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1