基于OCR的文本识别方法、装置、存储介质及电子设备制造方法及图纸

技术编号:35221765 阅读:14 留言:0更新日期:2022-10-15 10:39
本发明专利技术公开了一种基于OCR的文本识别方法、装置、存储介质及电子设备,该文本识别方法包括:获取文本图像样本集、以及对应的文本标签和超分辨率图像样本;利用文本图像样本集、文本标签和超分辨率图像样本,对预先构建的文本识别网络和超分辨率网络进行训练,其中,文本识别网络包括第一损失函数,超分辨率网络包括第二损失函数,且文本识别网络和超分辨率网络包括至少一个共享的子网络;在训练过程中,根据第一损失函数和第二损失函数,对文本识别网络和超分辨率网络的网络参数进行调整;当训练完成时,利用已训练的文本识别网络进行文本识别,从而能较好地识别低质量文本图像,有效提高了文本图像的识别精准性和识别效果。提高了文本图像的识别精准性和识别效果。提高了文本图像的识别精准性和识别效果。

【技术实现步骤摘要】
基于OCR的文本识别方法、装置、存储介质及电子设备
[0001]
本专利技术涉及图像处理
,具体涉及一种基于OCR的文本识别方法、装置、存储介质及电子设备。
[0002]
技术介绍
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
[0003]OCR (Optical Character Recognition,光学字符识别)是计算机视觉领域的一个经典课题,并被广泛使用于无人驾驶、路标识别、车牌识别以及教育场景下的拍照搜题等领域。OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。不同于电脑中的文本识别,OCR场景中需要识别的文本图像往往包含着大量低质量图像(主要指低分辨率图像),而现有的文本识别方法很难针对低质量文本图像进行有效识别,识别准确性较低。
[0004]
技术实现思路
本专利技术提出一种基于OCR的文本识别方法、装置、存储介质及电子设备,能提高文本识别的精准性,识别效果好。
[0005]一方面,本专利技术实施例提供了一种基于OCR的文本识别方法,包括:获取文本图像样本集、以及所述文本图像样本集中每张文本图像样本对应的文本标签和超分辨率图像样本;利用所述文本图像样本集、所述文本标签和所述超分辨率图像样本,对预先构建的文本识别网络和超分辨率网络进行训练,所述文本识别网络包括第一损失函数,所述超分辨率网络包括第二损失函数,且所述文本识别网络和所述超分辨率网络包括至少一个共享的子网络;在训练过程中,根据所述第一损失函数和所述第二损失函数,对所述文本识别网络和所述超分辨率网络的网络参数进行调整;当训练完成时,利用已训练的所述文本识别网络对待识别的文本图像进行文本识别。
[0006]另一方面,本专利技术实施例还提供一种基于OCR的文本识别装置,包括:获取单元,用于获取文本图像样本集、以及所述文本图像样本集中每张文本图像样本对应的文本标签和超分辨率图像样本;训练单元,用于利用所述文本图像样本集、所述文本标签和所述超分辨率图像样本,对预先构建的文本识别网络和超分辨率网络进行训练,所述文本识别网络包括第一损失函数,所述超分辨率网络包括第二损失函数,且所述文本识别网络和所述超分辨率网络包括至少一个共享的子网络;在训练过程中,根据所述第一损失函数和所述第二损失函数,
对所述文本识别网络和所述超分辨率网络的网络参数进行调整;识别单元,用于当训练完成时,利用已训练的所述文本识别网络对待识别的文本图像进行文本识别。
[0007]在一些实施方式中,所述文本识别网络包括相连接的特征提取子网络和特征识别子网络,所述超分辨率网络包括相连接的所述特征提取子网络和超分辨率子网络,所述训练单元具体用于:通过所述特征提取子网络,确定每张所述文本图像样本对应的特征图;通过所述超分辨率子网络,生成所述特征图对应的预测图像结果;通过所述特征识别子网络,生成所述特征图对应的预测文本结果;根据所述预测图像结果、所述预测文本结果、所述文本标签、所述超分辨率图像样本、所述第一损失函数和所述第二损失函数,对所述文本识别网络和所述超分辨率网络进行参数调整。
[0008]在一些实施方式中,所述训练单元进一步用于:根据所述第一损失函数、所述预测文本结果和所述文本标签,计算第一误差值;根据所述第二损失函数、所述预测图像结果和所述超分辨率图像样本,计算第二误差值;利用公式L=L
rec +λL
sr
计算总误差值,其中,L为所述总误差值,L
rec
为所述第一误差值,L
sr
为所述第二误差值,λ为超参数;根据所述总误差值反向调整所述文本识别网络和所述超分辨率网络的网络参数。
[0009]在一些实施方式中,所述特征提取子网络包括第一特征提取块、级联的多个残差块以及特征增强块,所述训练单元进一步用于:通过所述第一特征提取块,确定每张所述文本图像样本对应的第一浅层特征图;通过所述多个残差块,对所述第一浅层特征图进行处理;通过所述特征增强块,获取每个所述残差块处理后输出的残差特征图,并分别对所述第一浅层特征图和所述残差特征图进行下采样,得到对应的下采样特征图,之后对所有所述下采样特征图进行通道融合,得到所述文本图像样本对应的特征图。
[0010]在一些实施方式中,所述文本识别网络和所述超分辨率网络均还包括与所述特征提取子网络连接的文本矫正子网络,所述训练单元进一步用于:通过所述文本矫正子网络,确定每张所述文本图像样本上的多个关键点信息,并根据预设插值算法和所述关键点信息,对所述文本图像样本进行矫正,以得到对应的矫正图像;所述通过所述第一特征提取块,确定每张所述文本图像样本对应的第一浅层特征图,具体包括:通过所述特征提取子网络,对每张所述矫正图像进行浅层特征提取,得到第一浅层特征图。
[0011]在一些实施方式中,所述超分辨率子网络包括第二特征提取块、级联的多个序列残差块以及像素重组块,所述训练单元进一步用于:生成所述文本图像样本对应的二值化图;对所述特征图和所述二值化图进行通道融合,以生成融合特征图;通过所述第二特征提取块,确定所述融合特征图对应的第二浅层特征图;
通过所述序列残差块,对所述第二浅层特征图进行处理,得到深层特征图;通过所述像素重组块,对所述深层特征图和所述第二浅层特征图进行像素重组,得到对应的预测图像结果。
[0012]在一些实施方式中,所述超分辨率子网络还包括中心对齐块,在通过所述第二特征提取块,确定所述融合特征图对应的第二浅层特征图之前,所述训练单元还用于:通过所述中心对齐块,生成所述融合特征图对应的对齐特征图;所述训练单元具体用于:通过所述第二特征提取块,从所述对齐特征图中进行浅层特征提取,得到第二浅层特征图。
[0013]另一方面,本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有多条指令,所述指令适于由处理器加载以执行上述任一项所述的基于OCR的文本识别方法。
[0014]另一方面,本专利技术实施例还提供一种电子设备,包括耦合的存储器和处理器,所述存储器存储内有计算机程序,所述处理器用于运行所述存储器内的所述计算机程序,以执行上述任一项所述的基于OCR的文本识别方法中的步骤。
[0015]本专利技术实施例提供的基于OCR的文本识别方法、装置、存储介质及电子设备,通过获取文本图像样本集、以及所述文本图像样本集中每张文本图像样本对应的文本标签和超分辨率图像样本,接着,利用文本图像样本集、文本标签和超分辨率图像样本,对预先构建的文本识别网络和超分辨率网络进行训练,其中,文本识别网络包括第一损失函数,超分辨率网络包括第二损失函数,且文本识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OCR的文本识别方法,其特征在于,包括:获取文本图像样本集、以及所述文本图像样本集中每张文本图像样本对应的文本标签和超分辨率图像样本;利用所述文本图像样本集、所述文本标签和所述超分辨率图像样本,对预先构建的文本识别网络和超分辨率网络进行训练,所述文本识别网络包括第一损失函数,所述超分辨率网络包括第二损失函数,且所述文本识别网络和所述超分辨率网络包括至少一个共享的子网络;在训练过程中,根据所述第一损失函数和所述第二损失函数,对所述文本识别网络和所述超分辨率网络的网络参数进行调整;当训练完成时,利用已训练的所述文本识别网络对待识别的文本图像进行文本识别。2.根据权利要求1所述的文本识别方法,其特征在于,所述文本识别网络包括相连接的特征提取子网络和特征识别子网络,所述超分辨率网络包括相连接的所述特征提取子网络和超分辨率子网络,所述利用所述文本图像样本集、所述文本标签和所述超分辨率图像样本,对预先构建的文本识别网络和超分辨率网络进行训练,包括:通过所述特征提取子网络,确定每张所述文本图像样本对应的特征图;通过所述超分辨率子网络,生成所述特征图对应的预测图像结果;通过所述特征识别子网络,生成所述特征图对应的预测文本结果;根据所述预测图像结果、所述预测文本结果、所述文本标签、所述超分辨率图像样本、所述第一损失函数和所述第二损失函数,对所述文本识别网络和所述超分辨率网络进行参数调整。3.根据权利要求2所述的文本识别方法,其特征在于,所述根据所述预测图像结果、所述预测文本结果、所述文本标签、所述超分辨率图像样本、所述第一损失函数和所述第二损失函数,对所述文本识别网络和所述超分辨率网络进行参数调整,包括:根据所述第一损失函数、所述预测文本结果和所述文本标签,计算第一误差值;根据所述第二损失函数、所述预测图像结果和所述超分辨率图像样本,计算第二误差值;利用公式L=L
rec +λL
sr
计算总误差值,其中,L为所述总误差值,L
rec
为所述第一误差值,L
sr
为所述第二误差值,λ为超参数;根据所述总误差值反向调整所述文本识别网络和所述超分辨率网络的网络参数。4.根据权利要求2所述的文本识别方法,其特征在于,所述特征提取子网络包括第一特征提取块、级联的多个残差块以及特征增强块,所述通过所述特征提取子网络,确定每张所述文本图像样本对应的特征图,包括:通过所述第一特征提取块,确定每张所述文本图像样本对应的第一浅层特征图;通过所述多个残差块,对所述第一浅层特征图进行处理;通过所述特征增强块,获取每个所述残差块处理后输出的残差特征图,并分别对所述第一浅层特征图和所述残差特征图进行下采样,得到对应的下采样特征图,之后对所有所述下采样特征图进行通道融合,得到所述文本图像样本对应的特征图。5.根据权利要...

【专利技术属性】
技术研发人员:柳阳
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1