一种ocr识别的方法和系统技术方案

技术编号：40829818 阅读：22 留言：0更新日期：2024-04-01 14:52

一种OCR识别的方法和系统，所述方法包括：S100.获取目标图像，其中，目标图像为待进行OCR识别的图像；S200.通过patch embedding模型提取目标图像的图像特征，生成视觉特征向量；S300.利用类似词典构建的方式对目标图像所属的场景类型信息编码，生成场景类型信息的特征向量；S400.拼接S200中的视觉特征向量和S300中的场景类型信息的特征向量，输入transformer编码器，从tranformer编码器的多个层的输出结果的视觉部分取出，通过FPN网络得到特征图；S500.将特征图送入检测网络进行文本检测，获得文本部分的位置，对文本部分进行识别获得文本信息。本发明专利技术将场景类型信息的特征融入目标图像特征，进行文本检测，提高了文本检测的精度，进一步提高了识别精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及的是ocr识别领域，特别涉及一种ocr识别的方法和系统。

技术介绍

1、光学字符识别(optical character recognition,ocr)是一种基于计算机视觉技术的字符识别方法，目标是从文本检测定位后的文字图片中识别出字符序列的过程。ocr识别过程通常包括图像预处理、特征提取、字符识别和结果校验等环节。目前ocr识别技术已经被广泛应用的各个场景，比如：身份证、护照、银行卡、驾驶证、营业执照等卡片证件识别；发票、物流快递票据类识别；论文等文献识别等。不同场景文字排版不同，目前有的方法没有场景的差异性，只注重识别文字内容本身，导致检测的精度低，有的方法仅仅针对某一种场景进行识别，应用范围较窄。

技术实现思路

1、鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种ocr识别的方法和系统。

2、为了解决上述技术问题，本申请实施例公开了如下技术方案：

3、一种ocr识别的方法，包括：

4、s100.获取目标图像，其中，目标图像为待进行ocr识别的图像；

5、s200.通过patch embedding模型提取目标图像的图像特征，生成视觉特征向量；

6、s300.利用类似词典构建的方式对目标图像所属的场景类型信息编码，生成场景类型信息的特征向量；

7、s400.拼接s200中的视觉特征向量和s300中的场景类型信息的特征向量，输入transformer编码器

8、s500.将特征图送入检测网络进行文本检测，获得文本部分的位置，对文本部分进行识别获得文本信息。

9、进一步地，s200中，通过patch embedding模型提取目标图像的图像特征，生成视觉特征向量，具体方法包括：将输入图像分成n个大小为p×p的patch，并重塑成维度为n×(p^2)的patches块，再通过线性变换将patches投影到维度为d的空间上，直接将原来大小为h×w×c的二维图像展平成n个大小为p^2的一维向量。

10、进一步地，s300中，利用类似词典构建的方式对目标图像所属的场景类型信息编码，生成场景类型信息的特征向量，具体方法包括：构建关键信息词典向量矩阵，根据场景类型查询关键信息词典向量矩阵，获得场景类型信息的嵌入向量生成场景类型信息的特征向量，场景类型查询关键信息词典向量矩阵在模型训练当中进行参数更新。

11、进一步地，s300中，场景类型至少包括：身份证、护照、银行卡、驾驶证、营业执照、发票、物流快递票据。

12、进一步地，s400中，transformer编码器每一层的输入为前一层输出结果中的视觉部分和s300的文本特征向量经过mlp层的线性投影；然后将取出的视觉部分的输入至fpn网络得到特征图。

13、进一步地，s400中，从transformer encoder的四个特定输出层提取图像向量，四个特定输出层分别为d/3层、1d/2层、2d/3层、d层，其中，d是transformer encoder的层数，通过下采样获得图像特征，其中第1d/3层下采样2倍，第1d/2层保持不变，第2d/3层上采样2倍，第d层上采样4倍。

14、进一步地，s500中，将特征图送入检测网络进行文本检测，检测网络至少包括maskrcnn，faster rcnn，cascade rcnn。

15、本专利技术公开了一种ocr识别的系统，包括：目标图像获取单元、视觉特征向量生成单元、场景类型特征向量生成单元、特征图生成单元和文本信息获取单元；其中：

16、目标图像获取单元，用于获取目标图像，其中，目标图像为待进行ocr识别的图像；

17、视觉特征向量生成单元，用于通过patch embedding模型提取目标图像的图像特征，生成视觉特征向量；

18、场景类型特征向量生成单元，用于利用类似词典构建的方式对目标图像所属的场景类型信息编码，生成场景类型信息的特征向量；

19、特征图生成单元，用于拼接视觉特征向量生成单元中的视觉特征向量和场景类型特征向量生成单元中的场景类型信息的特征向量，输入transformer编码器，从tranformer编码器的多个层的输出结果的视觉部分取出，通过fpn网络得到特征图；

20、文本信息获取单元，用于将特征图送入检测网络进行文本检测，获得文本部分的位置，对文本部分进行识别获得文本信息。

21、进一步地，视觉特征向量生成单元，通过patch embedding模型提取目标图像的图像特征，生成视觉特征向量，具体方法包括：将输入图像分成n个大小为p×p的patch，并重塑成维度为n×(p^2)的patches块，再通过线性变换将patches投影到维度为d的空间上，直接将原来大小为h×w×c的二维图像展平成n个大小为p^2的一维向量。

22、进一步地，视觉特征向量生成单元，场景类型特征向量生成单元，利用类似词典构建的方式对目标图像所属的场景类型信息编码，生成场景类型信息的特征向量，具体方法包括：构建关键信息词典向量矩阵，根据场景类型查询关键信息词典向量矩阵，获得场景类型信息的嵌入向量；其中，场景类型至少包括：身份证、护照、银行卡、驾驶证、营业执照、发票、物流快递票据；向量矩阵在模型训练当中进行参数更新。

23、进一步地，特征图生成单元，从transformer encoder的四个特定输出层提取图像向量，四个特定输出层分别为d/3层、1d/2层、2d/3层、d层，其中，d是transformer encoder的层数，通过下采样获得图像特征，其中第1d/3层下采样2倍，第1d/2层保持不变，第2d/3层上采样2倍，第d层上采样4倍。

24、本专利技术实施例提供的上述技术方案的有益效果至少包括：

25、本专利技术公开了一种ocr识别的方法，包括：s100.获取目标图像，其中，目标图像为待进行ocr识别的图像；s200.通过patch embedding模型提取目标图像的图像特征，生成视觉特征向量；s300.利用类似词典构建的方式对目标图像所属的场景类型信息编码，生成场景类型信息的特征向量；s400.拼接s200中的视觉特征向量和s300中的场景类型信息的特征向量，输入transformer编码器，从tranformer编码器的多个层的输出结果的视觉部分取出，通过fpn网络得到特征图；s500.将特征图送入检测网络进行文本检测，获得文本部分的位置，对文本部分进行识别获得文本信息。本专利技术将场景类型信息的特征融入目标图像特征，进行文本检测，提高了文本检测的精度，进一步提高了识别精度。

26、下面通过附图和实施例，对本专利技术的技术方案做进一步的详细描述。

本文档来自技高网...

【技术保护点】

1.一种ocr识别的方法，其特征在于，包括：

2.如权利要求1所述的一种ocr识别的方法，其特征在于，S200中，通过patchembedding模型提取目标图像的图像特征，生成视觉特征向量，具体方法包括：将目标图像分成N个大小为P×P的patch，并重塑成维度为N×(P^2)的patches块，再通过线性变换将patches投影到维度为D的空间上，直接将原来大小为H×W×C的二维图像展平成N个大小为P^2的一维向量。

3.如权利要求1所述的一种ocr识别的方法，其特征在于，S300中，利用类似词典构建的方式对目标图像所属的场景类型信息编码，生成场景类型信息的特征向量，具体方法包括：构建关键信息词典向量矩阵，根据场景类型查询关键信息词典向量矩阵，获得场景类型信息的嵌入向量生成场景类型信息的特征向量，场景类型查询关键信息词典向量矩阵在模型训练当中进行参数更新。

4.如权利要求1所述的一种ocr识别的方法，其特征在于，S300中，场景类型至少包括：身份证、护照、银行卡、驾驶证、营业执照、发票、物流快递票据。

5.如权利要求1所述的一种o

6.如权利要求1所述的一种ocr识别的方法，其特征在于，S400中，从transformerencoder的四个特定输出层提取图像向量，四个特定输出层分别为d/3层、1d/2层、2d/3层、d层，其中，d是transformer encoder的层数，通过下采样获得图像特征，其中第1d/3层下采样2倍，第1d/2层保持不变，第2d/3层上采样2倍，第d层上采样4倍。

7.如权利要求1所述的一种ocr识别的方法，其特征在于，S500中，将特征图送入检测网络进行文本检测，检测网络至少包括Mask RCNN，Faster RCNN，Cascade RCNN。

8.一种ocr识别的系统，其特征在于，包括：目标图像获取单元、视觉特征向量生成单元、场景类型特征向量生成单元、特征图生成单元和文本信息获取单元；其中：

9.如权利要求8所述的一种ocr识别的系统，其特征在于，视觉特征向量生成单元，通过patch embedding模型提取目标图像的图像特征，生成视觉特征向量，具体方法包括：将输入图像分成N个大小为P×P的patch，并重塑成维度为N×(P^2)的patches块，再通过线性变换将patches投影到维度为D的空间上，直接将原来大小为H×W×C的二维图像展平成N个大小为P^2的一维向量。

10.如权利要求8所述的一种ocr识别的系统，其特征在于，视觉特征向量生成单元，场景类型特征向量生成单元，利用类似词典构建的方式对目标图像所属的场景类型信息编码，生成场景类型信息的特征向量，具体方法包括：构建关键信息词典向量矩阵，根据场景类型查询关键信息词典向量矩阵，获得场景类型信息的嵌入向量；其中，场景类型至少包括：身份证、护照、银行卡、驾驶证、营业执照、发票、物流快递票据；向量矩阵在模型训练当中进行参数更新。

...

【技术特征摘要】

1.一种ocr识别的方法，其特征在于，包括：

2.如权利要求1所述的一种ocr识别的方法，其特征在于，s200中，通过patchembedding模型提取目标图像的图像特征，生成视觉特征向量，具体方法包括：将目标图像分成n个大小为p×p的patch，并重塑成维度为n×(p^2)的patches块，再通过线性变换将patches投影到维度为d的空间上，直接将原来大小为h×w×c的二维图像展平成n个大小为p^2的一维向量。

3.如权利要求1所述的一种ocr识别的方法，其特征在于，s300中，利用类似词典构建的方式对目标图像所属的场景类型信息编码，生成场景类型信息的特征向量，具体方法包括：构建关键信息词典向量矩阵，根据场景类型查询关键信息词典向量矩阵，获得场景类型信息的嵌入向量生成场景类型信息的特征向量，场景类型查询关键信息词典向量矩阵在模型训练当中进行参数更新。

4.如权利要求1所述的一种ocr识别的方法，其特征在于，s300中，场景类型至少包括：身份证、护照、银行卡、驾驶证、营业执照、发票、物流快递票据。

5.如权利要求1所述的一种ocr识别的方法，其特征在于，s400中，transformer编码器每一层的输入为前一层输出结果中的视觉部分和s300的文本特征向量经过mlp层的线性投影；然后将取出的视觉部分的输入至fpn网络得到特征图。

6.如权利要求1所述的一种ocr识别的方法，其特征在于，s400中，从transformerencoder的四个特定输出层提取图像向量，四个特定输出层分别为d/3层、1d/2层...

【专利技术属性】
技术研发人员：周玉，邓彪，史桂华，
申请(专利权)人：北京中科凡语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人