一种基于增强透视的光学文字识别方法技术

技术编号:34292042 阅读:33 留言:0更新日期:2022-07-27 09:43
本发明专利技术公开了一种基于增强透视的光学文字识别方法,其步骤包括:1数据准备和标注;2对待处理图片集中的每张图片进行透视变换,得到透视变换后的图片;3建立并训练复杂场景下的图片文字识别模型,用于实现任意图片的OCR识别。本发明专利技术能提高对现实中复杂透视角度图像文字的识别率和准确度。字的识别率和准确度。

【技术实现步骤摘要】
一种基于增强透视的光学文字识别方法


[0001]本专利技术涉及一种人工智能OCR识别领域,更涉及一种基于增强透视的人工智能的OCR识别方法。

技术介绍

[0002]在对现实拍摄的图片文字进行识别时,由于其拍摄角度往往不是正对着文字进行拍摄,导致传统的人工智能OCR识别在文字透视角度过大时经常识别有误,甚至是识别不出,不能满足自然拍摄的识别准确率要求。

技术实现思路

[0003]本专利技术是为了解决上述现有技术存在的不足之处,提出一种基于增强透视的光学文字识别方法,以期能够支持自动识别透视角度大的图片中的文字,从而增加识别的准确率。
[0004]本专利技术为达到上述专利技术目的,采用如下技术方案:
[0005]本专利技术一种基于增强透视的光学文字识别方法的特点包括:
[0006]步骤1、数据准备:
[0007]获取透视角度为“0”的N张原图片作为待处理图片集,且所述待处理图片集包含10种数字0

9的原图片、26种小写字母a

z的原图片、26种大写字母A

Z的原图片;
[0008]步骤2、数据标注:
[0009]利用标注工具按照所述待处理图片集中每张图片的文字内容,对所述待处理图片集中每张图进行标注,得到每张图片对应的标签txt文件,所述标签txt文件包含每张图片的文字内容content及其所在矩形框的坐标位置;令所述矩形框的四个顶点的坐标记为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4);由所述四个顶点的坐标和文字内容content构成每张图片的标注矩阵;
[0010]步骤3、对所述待处理图片集中的每张图片进行透视变换,得到透视变换后的图片;
[0011]步骤3.1、定义两个透视参数分别为a
13
、a
23
;定义循环增量为Δ;
[0012]步骤3.2、初始化a
13

[0013]步骤3.3、初始化a
23

[0014]步骤3.4、利用式(1)和式(2)对任意一张图片中的任意一个像素点[u v]进行透视变换,得到变换后的像素点[x y],从而对每个像素点进行透视变换,并得到透视变换后的一张图片:
[0015][0016][0017]式(1)中,x表示透视变换后的横坐标,y表示透视变换的后纵坐标,u表示透视变换
前的横坐标,v表示透视变换前的纵坐标;
[0018]步骤3.5、将a
23
+Δ赋值给a
23
后,判断a
23
大于阈值A是否成立,若成立,则表示得到n张透视变换后的图片,并执行步骤3.6;否则,返回步骤3.4顺序执行;
[0019]步骤3.6、将a
13
+Δ赋值给a
13
后,判断a
13
大于阈值A是否成立,若成立,则表示得到n
×
n张透视变换后的图片,并执行步骤3.7,否则,返回步骤3.3顺序执行;
[0020]步骤3.7、按照步骤3.2

步骤3.6的过程对所述待处理图片集中的所有图片进行处理,从而得到N
×
n
×
n张透视变换后的图片所构成的增强图片集;
[0021]步骤4、建立并训练复杂场景下的图片文字识别模型,包括:ResNet网络、conv5网络、GRU层、全连接层;
[0022]步骤4.1、使用ResNet网络作为模型首层,并对增强图片集进行特征提取,获得维度为[N1,C,H,W]的特征矩阵M1;其中,N1=N
×
n
×
n表示图片数量,C表示通道数,H表示图片的长度,W表示图片的宽度;
[0023]步骤4.2、利用所述conv5网络对特征矩阵M1中的每一个特征点进行卷积核为k
×
k的滑动卷积操作,从而得到维度为[N1,k
×
k
×
C,H,W]的特征向量矩阵M2;
[0024]步骤4.3、利用Reshape操作将特征向量矩阵M2转换为维度为[N1×
H,W,k
×
k
×
C]的三维特征向量矩阵M3,从而将三维特征向量矩阵M3输入所述GRU层进行特征挖掘,得到维度为[N1×
H,W,256]的向量序列特征M4;
[0025]利用Reshape逆操作将向量序列特征M4转换为维度为[N1,256,H,W]的四维特征向量矩阵M5;
[0026]步骤4.4、将四维特征向量矩阵M5输入所述全连接层中,所述全连接层包括三个单元,每个单元为维度为512
×
4的矩阵,分别用于预测目标的横坐标、目标的纵坐标和目标的内容;
[0027]步骤4.5、利用Reshape操作将所述增强图片集中的一张图片x的标注矩阵转换为维度为3
×
512
×
4的矩阵;利用式(3)建立图片文字识别模型的损失函数Loss:
[0028][0029]式(3)中,i表示全连接层中任意一个单元;p
i
(x)表示所述增强图片集中的一张图片x经过所述全连接层中第i个单元后输出的预测值;q
i
(x)表示一张图片x的标注矩阵所转换的3
×
512
×
4的矩阵中第i个矩阵;
[0030]步骤4.6、基于所述增强图片集,利用梯度下降法对所述图片文字识别模型进行训练,并计算损失函数Loss,用于更新模型的参数,直到达到最大训练次数或是损失函数Loss收敛为止,从而得到训练好的最优图片文字识别模型用于对待识别的图片进行光学文字识别。
[0031]与现有技术相比,本专利技术的有益效果在于:
[0032]本专利技术通过采用人工智能神经网络来训练透视增强数据集,解决了现有技术中对于透视角度大的图片中的文字无法识别的问题,提高了复杂场景下OCR识别的准确率。
具体实施方式
[0033]本实施例中,一种基于增强透视的光学文字识别方法,包括:
[0034]步骤1、数据准备:
[0035]获取透视角度为“0”的N张原图片作为待处理图片集,且待处理图片集包含10种数字0

9的原图片、26种小写字母a

z的原图片、26种大写字母A

Z的原图片;
[0036]步骤2、数据标注:
[0037]利用标注工具按照待处理图片集中每张图片的文字内容,对待处理图片集中每张图进行标注,得到每张图片对应的标签txt文件,标签txt文件包含每张图片的文字内容content及其所在矩形框的坐标位置;令矩形框的四个顶点的坐标记为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4);由四个顶点的坐标和文字内容content构成每张图片的标注矩阵;...

【技术保护点】

【技术特征摘要】
1.一种基于增强透视的光学文字识别方法,其特征包括:步骤1、数据准备:获取透视角度为“0”的N张原图片作为待处理图片集,且所述待处理图片集包含10种数字0

9的原图片、26种小写字母a

z的原图片、26种大写字母A

Z的原图片;步骤2、数据标注:利用标注工具按照所述待处理图片集中每张图片的文字内容,对所述待处理图片集中每张图进行标注,得到每张图片对应的标签txt文件,所述标签txt文件包含每张图片的文字内容content及其所在矩形框的坐标位置;令所述矩形框的四个顶点的坐标记为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4);由所述四个顶点的坐标和文字内容content构成每张图片的标注矩阵;步骤3、对所述待处理图片集中的每张图片进行透视变换,得到透视变换后的图片;步骤3.1、定义两个透视参数分别为a
13
、a
23
;定义循环增量为Δ;步骤3.2、初始化a
13
;步骤3.3、初始化a
23
;步骤3.4、利用式(1)和式(2)对任意一张图片中的任意一个像素点[u v]进行透视变换,得到变换后的像素点[x y],从而对每个像素点进行透视变换,并得到透视变换后的一张图片:张图片:式(1)中,x表示透视变换后的横坐标,y表示透视变换的后纵坐标,u表示透视变换前的横坐标,v表示透视变换前的纵坐标;步骤3.5、将a
23
+Δ赋值给a
23
后,判断a
23
大于阈值A是否成立,若成立,则表示得到n张透视变换后的图片,并执行步骤3.6;否则,返回步骤3.4顺序执行;步骤3.6、将a
13
+Δ赋值给a
13
后,判断a
13
大于阈值A是否成立,若成立,则表示得到n
×
n张透视变换后的图片,并执行步骤3.7,否则,返回步骤3.3顺序执行;步骤3.7、按照步骤3.2

步骤3.6的过程对所述待处理图片集中的所有图片进行处理,从而得到N
×
n
×
n张透视变换后的图片所构成的...

【专利技术属性】
技术研发人员:黄唤宇石海春张超杜传忠
申请(专利权)人:合肥优尔电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1