基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26891479 阅读:27 留言:0更新日期:2020-12-29 16:09
本发明专利技术提供基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质,属于图片处理技术领域。所述方法应用于服务器,方法包括:采用深度学习算法对图片进行OCR处理,得到文本信息BOX;运用并查集分类算法对文本信息进行抽取,得到段落分类;筛选后得到纯文本段落;利用OpenCV对纯文本段落做白色BOX覆盖,得到TMP格式图片;做像素横纵扫描找到分割线并切分,抽取出最终图片。本技术将深度学习算法与并查集分类算法相融合,通过深度学习算法实现了OCR对图片文本的高效识别,通过并查集分类算法提高了OpenCV对图片的精准切割,大大提高了OCR识别和抽取图像的准确性和正确率。

【技术实现步骤摘要】
基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质
本专利技术涉及图片处理
,尤其涉及基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质。
技术介绍
OCR,(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。目前,在开源框架中,针对PDF文档,现有OCR技术都是基于对文档中的文本和图片进行简单的代码解析,利用文档结构树(DocumentTree)进行内容解析,但识别率不高,效果不理想。比如PyMuPDF、PDFMiner3K。并且,对于加密的PDF文档,以及图片效果不清晰、不规范和旧式图片格式的PDF文档,其识别率非常差,无法满足业务需求,具有很大局限性。因此,如何除错、利用辅助信息提高识别正确率,是OCR最重要的研究课题。
技术实现思路
本专利技术为了弥补现有技术的不足,提供基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质,该技术将深度学习算法与并查集分类算法相融合,解决了OCR识别图像的低准确度和高错误率问题,实现更准确、更全面、更快速地抽取图片的效果。本专利技术的实施例是这样实现的:第一方面,本专利技术实施例提供了基于深度学习和并查集算法的OCR识别并抽取图片的方法,应用于服务器,实现步骤如下:读取PDF文档,将PDF文档中每一页转化为特定的图片格式;采用深度学习算法对图片进行OCR处理,得到文本信息(BOX);运用并查集分类算法对文本信息进行抽取,得到段落分类;筛选后得到纯文本段落(Paragrame),利用OpenCV对纯文本段落做白色BOX覆盖,得到TMP格式图片;做像素横纵扫描找到分割线并切分,抽取出最终图片。进一步地,按照深度学习规则对图片进行OCR处理是指:从特征样本库中取一个样本图片输入到卷积神经网络中,初始化参数后进行卷积和下采样,经前向传播变换和计算相应的实际输出,计算实际输出与期望输出的差,按极小化误差的学习方法反向传播进行增强和逻辑回归,根据误差反馈和权值更新调整权值矩阵,最后输出符合期望的结果以构建文本识别模型。之后,用可训练的文本识别模型去卷积输入PDF图片的特征,得到初步提取特征图,将初步提取特征图片域中一组像素通过池化变为一个像素单元,得到主要特征映射图,将映射图向量化后乘以优化的权值矩阵进行组装,通过激活函数进行分类,输出文本信息(BOX)。进一步地,运用并查集分类算法对文本信息进行抽取是指:根据文本信息计算出平均的字高和平均的段落间隔,设置两行之间是否同行的判别标准和段落间隔,构建判定函数,代入逻辑参数(字高、段落间隔等)计算布尔值,根据返回的布尔值判断是否同行,最后得到段落分类。进一步地,深度学习规则包括梯度下降规则、反向传播学习规则、Delta(Wdrow-Holf)学习规则,其中:梯度下降规则是对减小实际输出误差和期望输出误差之间方法的数学说明;反向传播学习规则分为两个阶段,第一阶段是前向传播,将输入数据输入网络,网络从前向后计算每个单元的输出,将每个单元的输出与期望的输出进行比较并计算误差;第二阶段是反向传播,从后向前重新计算误差并修改权重,两个阶段完成后才可以输入新的数据;Delta学习规则是通过改变单元之间的连接权重来减小系统实际输出与期望输出的误差。进一步地,OpenCV是一个基于BSD开源许可发行的跨平台计算机视觉库,可以运行在Linux、Windows、Android和MacOS操作系统上。它由一系列C函数和少量C++类构成,轻量级而且高效,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。进一步地,所述“特定的图片格式”可以是PNG图片格式。第二方面,本专利技术实施例还提供了基于深度学习和并查集算法的OCR识别并抽取图片的装置,应用于服务器,该装置包括如下结构:OCR特征识别模块:用于对预处理后的图片进行特征的初步提取,将初步提取的PDF图片的特征发送给特征样本库进行分类,将样本图片的特征发送给模型训练器进行特征训练和模型构建,得到文本信息(BOX);图片预处理模块:用于将PDF文档中每一页转化为特定的图片格式,对转化后PDF图片和样本图片进行预处理、分割、图像形态学变换去除噪声,预处理包括灰度变化、倾斜校正、噪声过滤、二值化;模型构建和训练模块:用于对特征进行分类管理并建立样本,建立神经网络学习规则,按照深度学习规则对图片特征进行机器训练,根据学习训练结果构建文本识别模型;并查集计算模块:用于运用并查集分类算法对文本信息进行抽取,得到段落分类;段落判别模块:用于对段落分类进行筛选和判别,得到纯文本段落(Paragrame);OpenCV图片处理和分割模块:用于对纯文本段落做白色BOX覆盖,得到TMP格式图片,做像素横纵扫描找到分割线并切分,抽取出最终图片。进一步地,所述模型构建和训练模块还包括模型训练器、特征样本库和规则库。第三方面,本专利技术实施例还提供了一种电子设备,包括:存储器和处理器,存储器与处理器连接,存储器用于存储程序代码指令,处理器用于调用存储器中存储的程序代码指令,按照获得的程序执行如第一方面实施例所提供的方法。第四方面,本专利技术实施例还提供了一种存储介质,该存储介质存储有处理器可执行的程序代码指令,存储介质包括多条程序代码指令,多条指令被配置成使处理器执行如第一方面实施例所提供的方法。本专利技术实施例提供的基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质,相比于现有技术具有以下优点:本专利技术将深度学习算法与并查集分类算法相融合,通过深度学习算法实现了OCR对图片文本的高效识别,通过并查集分类算法提高了OpenCV对图片的精准切割,从而优化迭代计算,减小计算量,易于代码实现,大大提高了OCR识别和抽取图像的准确性和正确率。附图说明图1为实施例一的基于深度学习和并查集算法的OCR识别并抽取图片的方法操作的流程示意图。图2为实施例二的原始图片。图3为实施例二的抽取结果。图4为实施例三的基于深度学习和并查集算法的OCR识别并抽取图片的装置的结构示意图。图5为实施例四的一种电子设备的结构示意图。图6为实施例五的一种网络系统的交互示意图。具体实施方式上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可以找说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和有点能够更明显易懂,以下为本专利技术的具体实施方式。...

【技术保护点】
1.一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于,应用于服务器,包括如下步骤:/nS101、读取PDF文档;/nS102、把PDF文档中每一页转化为特定的图片格式;/nS103、采用深度学习算法对图片进行OCR处理,输出文本信息BOX;/nS104、运用并查集分类算法对文本信息进行抽取,得到段落分类;/nS105、对段落分类进行筛选,得到纯文本段落;/nS106、利用0penCV对纯文本段落做白色BOX覆盖,得到TMP格式图片;/nS107、对TMP格式图片做像素横纵扫描找到分割线;/nS108、利用0penCV对分割线进行图片切分,得到最终图片。/n

【技术特征摘要】
1.一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于,应用于服务器,包括如下步骤:
S101、读取PDF文档;
S102、把PDF文档中每一页转化为特定的图片格式;
S103、采用深度学习算法对图片进行OCR处理,输出文本信息BOX;
S104、运用并查集分类算法对文本信息进行抽取,得到段落分类;
S105、对段落分类进行筛选,得到纯文本段落;
S106、利用0penCV对纯文本段落做白色BOX覆盖,得到TMP格式图片;
S107、对TMP格式图片做像素横纵扫描找到分割线;
S108、利用0penCV对分割线进行图片切分,得到最终图片。


2.如权利要求1所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于:所述S103进一步包括以下步骤:
S1031、对PDF图片和样本图片进行预处理;
S1032、对预处理后PDF图片和样本图片进行卷积、下采样和分类,提取特征;
S1033、按照深度学习规则对样本图片的特征进行机器训练,根据学习训练结果构建文本识别模型;
S1034、将PDF图片的特征带入文本识别模型进行匹配;
S1035、输出文本信息BOX。


3.如权利要求2所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于:S1032、S1033、S1034中所述特征包括字符和文字序列,采用深度学习算法,OCR可以有效检测文字区域,准确切分和识别文字序列,进而分析语义并理解版面,最终输出格式化的文本信息。


4.如权利要求1所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于:所述S104进一步包括以下步骤:
S1041、对文本信息进行计算,计算出平均的字高和平均的段落间隔;
S1042、设置两行之间是否同行的判别标准;
S1043、设置段落间隔;
S1044、构建判定函数,代入字高、段落间隔逻辑参数计算布尔值;
S1045、判断布尔值;
S1046、得到段落分类。


5.如权利要求1所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于:所述并查集分类算法包括Set函数和Sum函数,所述Set函数是把某个元素放在某个集合中;所述Sum函数是返回数组,包含所有集合和集合中所有的元素。


6.如权利要求1所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于:S105中所述对段落分类进行筛选是...

【专利技术属性】
技术研发人员:汪敏严妍肖国泉裴非肖克彭祖剑邵罗树张博
申请(专利权)人:开普云信息科技股份有限公司北京开普云信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1