文字检测识别方法、装置及设备制造方法及图纸

技术编号:36982725 阅读:13 留言:0更新日期:2023-03-25 18:01
本申请公开了一种文字检测识别方法、装置及设备。该方法包括:通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图;通过检测特征金字塔模块中包含的第一指定数量的检测特征融合单元,对所述多个不同尺度的特征图进行检测特征融合得到检测融合特征图;以及通过识别特征金字塔模块中包含的第二指定数量的识别特征融合单元,对所述多个不同尺度的特征图进行识别特征融合得到识别融合特征图;通过文字检测模块基于所述检测融合特征图获取所述目标图像中的文本检测框;通过文字识别模块基于所述识别融合特征图识别所述目标图像中的文本检测框中的文字内容信息。像中的文本检测框中的文字内容信息。像中的文本检测框中的文字内容信息。

【技术实现步骤摘要】
文字检测识别方法、装置及设备


[0001]本申请涉及图像处理
,尤其涉及一种文字检测识别方法、装置及设备。

技术介绍

[0002]目前,光学字符识别(Optical Character Recognition,OCR)技术主要分为两部分,即文字检测和文字识别。其中,文字检测是获取文字位置信息,其具体算法包括常用的faster

rcnn系列的通用目标检测算法,用于生成适当预选框的CPTN算法,以及适用于非水平方向的SegLink检测算法。文字识别则是获取文字内容信息,其具体算法可包括结合CNN和RNN的CRNN算法、依赖文字序列关系的attention系列算法。
[0003]然而,这些算法都是单一形式的,即只是识别文字内容信息或者识别文字位置信息,无法做到端到端的文字检测与识别。

技术实现思路

[0004]本申请实施例提供一种文字检测识别方法,以解决现有技术中文字检测识别方法只能单一实现文字检测和识别中的一种任务的问题。
[0005]本申请实施例采用下述技术方案:
[0006]一种文字检测识别方法,包括:
[0007]通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图;
[0008]通过检测特征金字塔模块中包含的第一指定数量的检测特征融合单元,对所述多个不同尺度的特征图进行检测特征融合得到检测融合特征图;以及通过识别特征金字塔模块中包含的第二指定数量的识别特征融合单元,对所述多个不同尺度的特征图进行识别特征融合得到识别融合特征图;
[0009]通过文字检测模块基于所述检测融合特征图获取所述目标图像中的文本检测框;
[0010]通过文字识别模块基于所述识别融合特征图识别所述目标图像中的文本检测框中的文字内容信息。
[0011]一种文字检测识别装置,包括:
[0012]特征提取模块,用于从输入的目标图像中提取多个不同尺度的特征图;
[0013]检测特征金字塔模块,用于通过第一指定数量的检测特征融合单元,对所述多个不同尺度的特征图进行检测特征融合得到检测融合特征图;
[0014]识别特征金字塔模块,用于通过第二指定数量的识别特征融合单元,对所述多个不同尺度的特征图进行识别特征融合得到识别融合特征图;
[0015]文字检测模块,用于基于所述检测融合特征图获取所述目标图像中的文本检测框;
[0016]文字识别模块,用于基于所述识别融合特征图识别所述目标图像中的文本检测框中的文字内容信息。
[0017]一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在
所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述所述的文字检测识别方法的步骤。
[0018]一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的文字检测识别方法的步骤。
[0019]本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
[0020]本申请中,由于能够在通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图之后,分别通过检测特征金字塔模块中包含的第一指定数量的检测特征融合单元,对多个不同尺度的特征图进行检测特征融合得到检测融合特征图,以及通过识别特征金字塔模块中包含的第二指定数量的识别特征融合单元,对多个不同尺度的特征图进行识别特征融合得到识别融合特征图,充分考虑了文字检测和文字识别这两个任务的差异性,并利用不同尺度特征信息的多样性,将文字识别和文字检测所用的特征图的获取方式分离开来,有效提升了文字识别和文字检测的性能。而且能分别通过文字检测模块基于检测融合特征图获取目标图像中的文本检测框,以及通过文字识别模块基于识别融合特征图识别目标图像中的文本检测框中的文字内容信息,实现了端到端的文字检测和识别。
附图说明
[0021]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0022]图1为本申请实施例提供的一种文字检测识别方法的具体实施流程示意图;
[0023]图2为本申请实施例提供的文字检测识别方法中对目标图像的检测和识别的过程示意图;
[0024]图3为本申请实施例提供的文字检测识别方法中识别特征融合单元的结构示意图;
[0025]图4为本申请实施例提供的文字检测识别方法中阈值化单元的结构示意图;
[0026]图5为本申请实施例提供的文字检测识别方法中概率化单元的结构示意图;
[0027]图6为本申请实施例提供的文字检测识别方法中二值化单元进行逻辑运算的示意图;
[0028]图7为本申请实施例提供的一种文字检测识别装置的结构示意图;
[0029]图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0030]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0031]以下结合附图,详细说明本申请各实施例提供的技术方案。
[0032]如
技术介绍
中所述,随着深度学习在图像处理领域中的成功应用,基于深度学习的OCR技术进行文字检测与识别也逐渐成为研究热点。该技术的目的在于采用深度神经网络,通过构建端到端的OCR模型,检测并识别图像中的文字信息。现有的基于深度学习的OCR
技术包括使用统一的网络进行快速文本定位模型(Fast Oriented Text Spotting with a Unified Network,FOTS)、以及基于可微分二值化的实时场景文本检测模型(Real

time Scene Text Detection with Differentiable Binarization,DBNet)。
[0033]其中,FOTS算法采用常用的卷积神经网络对原始图像进行特征提取,获取高层语义信息。此外,为了更加有效的结合高层语义信息与低层基本信息,在特征中引入特征金字塔FPN(Feature Pyramid Network)。之后,将结合多尺度的融合特征图送入文本检测分支(text detection branch),预测每个像素点属于正样本的概率,以及包含像素点的检测框的顶部,底部,左侧,右侧的距离,边界框的方向。接着将检测分支获取到的proposal与之前的融合特征图送入ROI Rotate(中文名称为感兴趣区域矫正)层,目的是将有角度的文本块,经过仿射变换,转化为正常的轴对其的文本块。最后,将ROI Rotate层转换后的文本块送入文本识别分支(text recoginit本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文字检测识别方法,其特征在于,包括:通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图;通过检测特征金字塔模块中包含的第一指定数量的检测特征融合单元,对所述多个不同尺度的特征图进行检测特征融合得到检测融合特征图;以及通过识别特征金字塔模块中包含的第二指定数量的识别特征融合单元,对所述多个不同尺度的特征图进行识别特征融合得到识别融合特征图;通过文字检测模块基于所述检测融合特征图获取所述目标图像中的文本检测框;通过文字识别模块基于所述识别融合特征图识别所述目标图像中的文本检测框中的文字内容信息。2.如权利要求1所述的方法,其特征在于,所述文字检测模块包括阈值化单元、概率化单元和二值化单元,所述通过文字检测模块基于所述检测融合特征图获取所述目标图像中的文本检测框,包括:通过所述阈值化单元基于所述检测融合特征图获取指定大小的阈值图,所述阈值图中包含有用于判断所述目标图像中各个像素点存在文字的阈值;通过所述概率化单元基于所述检测融合特征图获取指定大小的概率图,所述概率图中包含有所述目标图像中各个像素点存在文字的概率;通过所述二值化单元对所述阈值图和所述概率图进行逻辑运算,得到用于表征所述目标图像中的文本检测框的二值化特征图,以及基于所述二值化特征图获取所述目标图像中的文本检测框。3.如权利要求2所述的方法,其特征在于,所述通过所述阈值化单元基于所述检测融合特征图获取指定大小的阈值图,包括:通过所述阈值化单元对所述检测融合特征图进行指定卷积核的卷积运算、批标准化运算以及指定激活函数运算,得到第一特征图;采用反卷积的方式对所述第一特征图进行上采样,得到第二特征图,所述第二特征图为所述第一特征图的两倍大小;对所述第二特征图进行批标准化运算以及relu激活函数运算、以及采用反卷积的方式进行上采样,得到所述指定大小的阈值图。4.如权利要求2所述的方法,其特征在于,所述通过所述概率化单元基于所述检测融合特征图获取指定大小的概率图,包括:通过所述概率化单元对所述检测融合特征图进行指定卷积核的卷积运算、批标准化运算以及指定激活函数运算,得到第三特征图;采用反卷积的方式对所述第三特征图进行上采样,得到第四特征图,所述第四特征图为所述第三特征图的两倍大小;对所述第四特征图进行批标准化运算、relu激活函数运算、并采用反卷积的方式进行上采样、以及通过sigmoid激活函数进行概率预测,得到所述指定大小的概率图。5.如权利要求1所述的方法,其特征在于,所述通过文字识别模块基于所述识别融合...

【专利技术属性】
技术研发人员:傅陈钦梁清华霍树伟周鑫
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1