【技术实现步骤摘要】
基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质
本专利技术涉及图片处理
,尤其涉及基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质。
技术介绍
OCR,(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。目前,在开源框架中,针对PDF文档,现有OCR技术都是基于对文档中的文本和图片进行简单的代码解析,利用文档结构树(DocumentTree)进行内容解析,但识别率不高,效果不理想。比如PyMuPDF、PDFMiner3K。并且,对于加密的PDF文档,以及图片效果不清晰、不规范和旧式图片格式的PDF文档,其识别率非常差,无法满足业务需求,具有很大局限性。因此,如何除错、利用辅助信息提高识别正确率,是OCR最重要的研究课题。
技术实现思路
本专利技术为了弥补现有技术的不足,提供基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质,该技术将深度学习算法与并查集分类算法相融合,解决了OCR识别图像的低准确度和高错误率问题,实现更准确、更全面、更快速地抽取图片的效果。本专利技术的实施例是这
【技术保护点】
1.一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于,应用于服务器,包括如下步骤:/nS101、读取PDF文档;/nS102、把PDF文档中每一页转化为特定的图片格式;/nS103、采用深度学习算法对图片进行OCR处理,输出文本信息BOX;/nS104、运用并查集分类算法对文本信息进行抽取,得到段落分类;/nS105、对段落分类进行筛选,得到纯文本段落;/nS106、利用0penCV对纯文本段落做白色BOX覆盖,得到TMP格式图片;/nS107、对TMP格式图片做像素横纵扫描找到分割线;/nS108、利用0penCV对分割线进行图片切分,得到最终图片。/n
【技术特征摘要】
1.一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于,应用于服务器,包括如下步骤:
S101、读取PDF文档;
S102、把PDF文档中每一页转化为特定的图片格式;
S103、采用深度学习算法对图片进行OCR处理,输出文本信息BOX;
S104、运用并查集分类算法对文本信息进行抽取,得到段落分类;
S105、对段落分类进行筛选,得到纯文本段落;
S106、利用0penCV对纯文本段落做白色BOX覆盖,得到TMP格式图片;
S107、对TMP格式图片做像素横纵扫描找到分割线;
S108、利用0penCV对分割线进行图片切分,得到最终图片。
2.如权利要求1所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于:所述S103进一步包括以下步骤:
S1031、对PDF图片和样本图片进行预处理;
S1032、对预处理后PDF图片和样本图片进行卷积、下采样和分类,提取特征;
S1033、按照深度学习规则对样本图片的特征进行机器训练,根据学习训练结果构建文本识别模型;
S1034、将PDF图片的特征带入文本识别模型进行匹配;
S1035、输出文本信息BOX。
3.如权利要求2所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于:S1032、S1033、S1034中所述特征包括字符和文字序列,采用深度学习算法,OCR可以有效检测文字区域,准确切分和识别文字序列,进而分析语义并理解版面,最终输出格式化的文本信息。
4.如权利要求1所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于:所述S104进一步包括以下步骤:
S1041、对文本信息进行计算,计算出平均的字高和平均的段落间隔;
S1042、设置两行之间是否同行的判别标准;
S1043、设置段落间隔;
S1044、构建判定函数,代入字高、段落间隔逻辑参数计算布尔值;
S1045、判断布尔值;
S1046、得到段落分类。
5.如权利要求1所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于:所述并查集分类算法包括Set函数和Sum函数,所述Set函数是把某个元素放在某个集合中;所述Sum函数是返回数组,包含所有集合和集合中所有的元素。
6.如权利要求1所述的一种基于深度学习和并查集分类算法的OCR识别并抽取图片的方法,其特征在于:S105中所述对段落分类进行筛选是...
【专利技术属性】
技术研发人员:汪敏,严妍,肖国泉,裴非,肖克,彭祖剑,邵罗树,张博,
申请(专利权)人:开普云信息科技股份有限公司,北京开普云信息科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。