基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质制造方法及图纸

技术编号：26891479 阅读：35 留言：0更新日期：2020-12-29 16:09

本发明专利技术提供基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质，属于图片处理技术领域。所述方法应用于服务器，方法包括：采用深度学习算法对图片进行OCR处理，得到文本信息BOX；运用并查集分类算法对文本信息进行抽取，得到段落分类；筛选后得到纯文本段落；利用OpenCV对纯文本段落做白色BOX覆盖，得到TMP格式图片；做像素横纵扫描找到分割线并切分，抽取出最终图片。本技术将深度学习算法与并查集分类算法相融合，通过深度学习算法实现了OCR对图片文本的高效识别，通过并查集分类算法提高了OpenCV对图片的精准切割，大大提高了OCR识别和抽取图像的准确性和正确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质
本专利技术涉及图片处理
，尤其涉及基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质。
技术介绍
OCR，(OpticalCharacterRecognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。目前，在开源框架中，针对PDF文档，现有OCR技术都是基于对文档中的文本和图片进行简单的代码解析，利用文档结构树(DocumentTree)进行内容解析，但识别率不高，效果不理想。比如PyMuPDF、PDFMiner3K。并且，对于加密的PDF文档，以及图片效果不清晰、不规范和旧式图片格式的PDF文档，其识别率非常差，无法满足业务需求，具有很大局限性。因此，如何除错、利用辅助信息提高识别正确率，是OCR最重要的研究课题。
技术实现思路
本专利技术为了弥补现有技术的不足，提供基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质，该技术将深度学习算法与并查集分类算法相融合，解决了OCR识别图像的低准确度和高错误率问题，实现更准确、更全面、更快速地抽取图片的效果。本专利技术的实施例是这

【技术保护点】
1.一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法，其特征在于，应用于服务器，包括如下步骤：/nS101、读取PDF文档；/nS102、把PDF文档中每一页转化为特定的图片格式；/nS103、采用深度学习算法对图片进行OCR处理，输出文本信息BOX；/nS104、运用并查集分类算法对文本信息进行抽取，得到段落分类；/nS105、对段落分类进行筛选，得到纯文本段落；/nS106、利用0penCV对纯文本段落做白色BOX覆盖，得到TMP格式图片；/nS107、对TMP格式图片做像素横纵扫描找到分割线；/nS108、利用0penCV对分割线进行图片切分，得到最终图片。/n

【技术特征摘要】
1.一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法，其特征在于，应用于服务器，包括如下步骤：
S101、读取PDF文档；
S102、把PDF文档中每一页转化为特定的图片格式；
S103、采用深度学习算法对图片进行OCR处理，输出文本信息BOX；
S104、运用并查集分类算法对文本信息进行抽取，得到段落分类；
S105、对段落分类进行筛选，得到纯文本段落；
S106、利用0penCV对纯文本段落做白色BOX覆盖，得到TMP格式图片；
S107、对TMP格式图片做像素横纵扫描找到分割线；
S108、利用0penCV对分割线进行图片切分，得到最终图片。

2.如权利要求1所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法，其特征在于：所述S103进一步包括以下步骤：
S1031、对PDF图片和样本图片进行预处理；
S1032、对预处理后PDF图片和样本图片进行卷积、下采样和分类，提取特征；
S1033、按照深度学习规则对样本图片的特征进行机器训练，根据学习训练结果构建文本识别模型；
S1034、将PDF图片的特征带入文本识别模型进行匹配；
S1035、输出文本信息BOX。

3.如权利要求2所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法，其特征在于：S1032、S1033、S1034中所述特征包括字符和文字序列，采用深度学习算法，OCR可以有效检测文字区域，准确切分和识别文字序列，进而分析语义并理解版面，最终输出格式化的文本信息。

4.如权利要求1所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法，其特征在于：所述S104进一步包括以下步骤：
S1041、对文本信息进行计算，计算出平均的字高和平均的段落间隔；
S1042、设置两行之间是否同行的判别标准；
S1043、设置段落间隔；
S1044、构建判定函数，代入字高、段落间隔逻辑参数计算布尔值；
S1045、判断布尔值；
S1046、得到段落分类。

5.如权利要求1所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法，其特征在于：所述并查集分类算法包括Set函数和Sum函数，所述Set函数是把某个元素放在某个集合中；所述Sum函数是返回数组，包含所有集合和集合中所有的元素。

6.如权利要求1所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法，其特征在于：S105中所述对段落分类进行筛选是...

【专利技术属性】
技术研发人员：汪敏，严妍，肖国泉，裴非，肖克，彭祖剑，邵罗树，张博，
申请(专利权)人：开普云信息科技股份有限公司，北京开普云信息科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人