一种基于增强透视的光学文字识别方法技术

技术编号：34292042 阅读：35 留言：0更新日期：2022-07-27 09:43

本发明专利技术公开了一种基于增强透视的光学文字识别方法，其步骤包括：1数据准备和标注；2对待处理图片集中的每张图片进行透视变换，得到透视变换后的图片；3建立并训练复杂场景下的图片文字识别模型，用于实现任意图片的OCR识别。本发明专利技术能提高对现实中复杂透视角度图像文字的识别率和准确度。字的识别率和准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于增强透视的光学文字识别方法

[0001]本专利技术涉及一种人工智能OCR识别领域，更涉及一种基于增强透视的人工智能的OCR识别方法。

技术介绍

[0002]在对现实拍摄的图片文字进行识别时，由于其拍摄角度往往不是正对着文字进行拍摄，导致传统的人工智能OCR识别在文字透视角度过大时经常识别有误，甚至是识别不出，不能满足自然拍摄的识别准确率要求。

技术实现思路

[0003]本专利技术是为了解决上述现有技术存在的不足之处，提出一种基于增强透视的光学文字识别方法，以期能够支持自动识别透视角度大的图片中的文字，从而增加识别的准确率。
[0004]本专利技术为达到上述专利技术目的，采用如下技术方案：
[0005]本专利技术一种基于增强透视的光学文字识别方法的特点包括：
[0006]步骤1、数据准备：
[0007]获取透视角度为“0”的N张原图片作为待处理图片集，且所述待处理图片集包含10种数字0
‑
9的原图片、26种小写字母a
‑
z的原图片、26种大写字母A
‑
Z的原图片；
[0008]步骤2、数据标注：
[0009]利用标注工具按照所述待处理图片集中每张图片的文字内容，对所述待处理图片集中每张图进行标注，得到每张图片对应的标签txt文件，所述标签txt文件包含每张图片的文字内容content及其所在矩形框的坐标位置；令所述矩形框的四个顶点的坐标记为(x1,y1)、(x2,y2)、(x3,y3)、(x4,

【技术保护点】

【技术特征摘要】
1.一种基于增强透视的光学文字识别方法，其特征包括：步骤1、数据准备：获取透视角度为“0”的N张原图片作为待处理图片集，且所述待处理图片集包含10种数字0
‑
9的原图片、26种小写字母a
‑
z的原图片、26种大写字母A
‑
Z的原图片；步骤2、数据标注：利用标注工具按照所述待处理图片集中每张图片的文字内容，对所述待处理图片集中每张图进行标注，得到每张图片对应的标签txt文件，所述标签txt文件包含每张图片的文字内容content及其所在矩形框的坐标位置；令所述矩形框的四个顶点的坐标记为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)；由所述四个顶点的坐标和文字内容content构成每张图片的标注矩阵；步骤3、对所述待处理图片集中的每张图片进行透视变换，得到透视变换后的图片；步骤3.1、定义两个透视参数分别为a
13
、a
23
；定义循环增量为Δ；步骤3.2、初始化a
13
；步骤3.3、初始化a
23
；步骤3.4、利用式(1)和式(2)对任意一张图片中的任意一个像素点[u v]进行透视变换，得到变换后的像素点[x y]，从而对每个像素点进行透视变换，并得到透视变换后的一张图片：张图片：式(1)中，x表示透视变换后的横坐标，y表示透视变换的后纵坐标，u表示透视变换前的横坐标，v表示透视变换前的纵坐标；步骤3.5、将a
23
+Δ赋值给a
23
后，判断a
23
大于阈值A是否成立，若成立，则表示得到n张透视变换后的图片，并执行步骤3.6；否则，返回步骤3.4顺序执行；步骤3.6、将a
13
+Δ赋值给a
13
后，判断a
13
大于阈值A是否成立，若成立，则表示得到n
×
n张透视变换后的图片，并执行步骤3.7，否则，返回步骤3.3顺序执行；步骤3.7、按照步骤3.2
‑
步骤3.6的过程对所述待处理图片集中的所有图片进行处理，从而得到N
×
n
×
n张透视变换后的图片所构成的...

【专利技术属性】
技术研发人员：黄唤宇，石海春，张超，杜传忠，
申请(专利权)人：合肥优尔电子科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人