一种基于OCR预判断的PDF文件转换方法技术

技术编号：20622754 阅读：39 留言：0更新日期：2019-03-20 14:30

本发明专利技术公开了一种基于OCR预判断的PDF文件转换方法，包括以下步骤：解析PDF文件，判断该PDF文件中各页面是否需要进行ocr；针对需要进行ocr的页面进行ocr，得到文本信息；针对不需要进行ocr的页面直接从该PDF页面中文本对象的文字编码信息提取文本信息；通过PDF解析算法和Office文件重构算法将该PDF文件转换为对应的可编辑文档。本发明专利技术通过对PDF文件的预解析，提高了PDF文字提取的正确率，在减少不必要的ocr识别的同时保证了文字提取的准确度并提高了PDF文件的转换效率，适用性强，转换效果好。

A PDF File Conversion Method Based on OCR Prejudgment

The invention discloses a PDF file conversion method based on OCR pre-judgment, which includes the following steps: parsing PDF file to determine whether the pages in the PDF file need ocr; OCR for pages requiring OCR to obtain text information; extracting text information directly from the text encoding information of text objects in the PDF page for pages requiring no ocr; The parsing algorithm and Office file reconstruction algorithm transform the PDF file into the corresponding editable document. By pre-parsing PDF files, the method improves the accuracy of PDF text extraction, reduces unnecessary OCR recognition, ensures the accuracy of text extraction and improves the conversion efficiency of PDF files, has strong applicability and good conversion effect.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于OCR预判断的PDF文件转换方法
本专利技术属于PDF文件转换
，具体涉及一种基于OCR预判断的PDF文件转换方法。
技术介绍
PDF是PortableDocumentFormat的缩写，是由Adobe公司开发的一种开放式的电子文件格式。PDF由PostScript编程语言发展而来，而PostScript当前依然作为主流的打印机编程语言广泛应用于专业出版领域。PDF文件格式的优点在于，文件格式与软硬件以及操作系统平台无关，在Windows、Unix或MacOS操作系统中都可以达到相同的显示效果，因此PDF成为网络上主流的电子文档格式，在数字化信息传播中充当着重要角色。但由于PDF文件中的文本信息不易提取、编辑、查询，通常需要通过一定的方法将PDF转换为便于编辑、处理、管理其内容的文件格式。PDF文字提取方法即是提取PDF文件中包含的文字信息，并通过系列的信息处理过程转换为便于编辑的文件格式。专利CN108038093A中公开了一种PDF文字提取方法和装置，具体是通过获取PDF页面中的各个文本对象的第一编码、字形位图、内嵌信息和字体信息判断该PDF页面是否需要进行ocr，由于PDF文件的特殊性，会有部分需要进行OCR识别的PDF文件被其判断为不需要进行ocr识别，判断准确性不高，提取出的文字可能出现较大偏差。
技术实现思路
本专利技术的目的在于：解决上述现有技术中的不足，提供一种基于OCR预判断的PDF文件转换方法，在减少不必要的ocr识别的同时保证了文字提取的准确度，适用性强，转换效果好。为了实现上述目的，本专利技术采用的技术方案为：一种基于OC...

【技术保护点】
1.一种基于OCR预判断的PDF文件转换方法，其特征在于：包括以下步骤：步骤一：解析PDF文件，判断该PDF文件中各页面是否需要进行ocr；步骤二：针对需要进行ocr的页面进行ocr，得到文本信息；针对不需要进行ocr的页面直接从该PDF页面中文本对象的文字编码信息提取文本信息；步骤三：通过PDF解析算法和Office文件重构算法将该PDF文件转换为对应的可编辑文档。

【技术特征摘要】
1.一种基于OCR预判断的PDF文件转换方法，其特征在于：包括以下步骤：步骤一：解析PDF文件，判断该PDF文件中各页面是否需要进行ocr；步骤二：针对需要进行ocr的页面进行ocr，得到文本信息；针对不需要进行ocr的页面直接从该PDF页面中文本对象的文字编码信息提取文本信息；步骤三：通过PDF解析算法和Office文件重构算法将该PDF文件转换为对应的可编辑文档。2.根据权利要求1所述的一种基于OCR预判断的PDF文件转换方法，其特征在于：所述的步骤二中文本信息包括文字的内容、位置和尺寸。3.根据权利要求1所述的一种基于OCR预判断的PDF文件转换方法，其特征在于：所述的步骤一中解析PDF文件后得到该PDF文件的单页图片对象数量、图片对象大小和整体页面大小的比值、文本对象长度、文本对象位置和文本对象内容。4.根据权利要求1或3所述的一种基于OCR预判断的PDF文件转换方法，其特征在于：所述的步骤一中判断该PDF文件中各页面是否需要进行ocr的步骤具体为：获取该PDF文件中各页面的字体信息，若该页面不包含字体信...

【专利技术属性】
技术研发人员：马万炯，
申请(专利权)人：四川译讯信息科技有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人