一种基于OCR预判断的PDF文件转换方法技术

技术编号:20622754 阅读:39 留言:0更新日期:2019-03-20 14:30
本发明专利技术公开了一种基于OCR预判断的PDF文件转换方法,包括以下步骤:解析PDF文件,判断该PDF文件中各页面是否需要进行ocr;针对需要进行ocr的页面进行ocr,得到文本信息;针对不需要进行ocr的页面直接从该PDF页面中文本对象的文字编码信息提取文本信息;通过PDF解析算法和Office文件重构算法将该PDF文件转换为对应的可编辑文档。本发明专利技术通过对PDF文件的预解析,提高了PDF文字提取的正确率,在减少不必要的ocr识别的同时保证了文字提取的准确度并提高了PDF文件的转换效率,适用性强,转换效果好。

A PDF File Conversion Method Based on OCR Prejudgment

The invention discloses a PDF file conversion method based on OCR pre-judgment, which includes the following steps: parsing PDF file to determine whether the pages in the PDF file need ocr; OCR for pages requiring OCR to obtain text information; extracting text information directly from the text encoding information of text objects in the PDF page for pages requiring no ocr; The parsing algorithm and Office file reconstruction algorithm transform the PDF file into the corresponding editable document. By pre-parsing PDF files, the method improves the accuracy of PDF text extraction, reduces unnecessary OCR recognition, ensures the accuracy of text extraction and improves the conversion efficiency of PDF files, has strong applicability and good conversion effect.

【技术实现步骤摘要】
一种基于OCR预判断的PDF文件转换方法
本专利技术属于PDF文件转换
,具体涉及一种基于OCR预判断的PDF文件转换方法。
技术介绍
PDF是PortableDocumentFormat的缩写,是由Adobe公司开发的一种开放式的电子文件格式。PDF由PostScript编程语言发展而来,而PostScript当前依然作为主流的打印机编程语言广泛应用于专业出版领域。PDF文件格式的优点在于,文件格式与软硬件以及操作系统平台无关,在Windows、Unix或MacOS操作系统中都可以达到相同的显示效果,因此PDF成为网络上主流的电子文档格式,在数字化信息传播中充当着重要角色。但由于PDF文件中的文本信息不易提取、编辑、查询,通常需要通过一定的方法将PDF转换为便于编辑、处理、管理其内容的文件格式。PDF文字提取方法即是提取PDF文件中包含的文字信息,并通过系列的信息处理过程转换为便于编辑的文件格式。专利CN108038093A中公开了一种PDF文字提取方法和装置,具体是通过获取PDF页面中的各个文本对象的第一编码、字形位图、内嵌信息和字体信息判断该PDF页面是否需要进行ocr,由于PDF文件的特殊性,会有部分需要进行OCR识别的PDF文件被其判断为不需要进行ocr识别,判断准确性不高,提取出的文字可能出现较大偏差。
技术实现思路
本专利技术的目的在于:解决上述现有技术中的不足,提供一种基于OCR预判断的PDF文件转换方法,在减少不必要的ocr识别的同时保证了文字提取的准确度,适用性强,转换效果好。为了实现上述目的,本专利技术采用的技术方案为:一种基于OCR预判断的PDF文件转换方法,包括以下步骤:步骤一:解析PDF文件,判断该PDF文件中各页面是否需要进行ocr;步骤二:针对需要进行ocr的页面进行ocr,得到文本信息;针对不需要进行ocr的页面直接从该PDF页面中文本对象的文字编码信息提取文本信息;步骤三:通过PDF解析算法和Office文件重构算法将该PDF文件转换为对应的可编辑文档。进一步的,上述的步骤二中文本信息包括文字的内容、位置和尺寸。进一步的,上述的步骤一中解析PDF文件后得到该PDF文件的单页图片对象数量、图片对象大小和整体页面大小的比值、文本对象长度、文本对象位置和文本对象内容。进一步的,上述的步骤一中判断该PDF文件中各页面是否需要进行ocr的步骤具体为:获取该PDF文件中各页面的字体信息,若该页面不包含字体信息或包含OCR字体,判定该页面需要进行OCR;获取该PDF文件中各页面的文档属性信息,读取文档属性信息中的制作程序信息,若制作程序信息中显示该PDF文件由扫描软件或图片转换软件生成,判定该页面需要进行OCR;获取该PDF文件中各页面的各个文本对象的渲染信息,若文本对象的渲染模式为不可见,判定该页面需要进行OCR;获取该PDF文件中各页面的图片对象的数量信息和文字对象的数量信息,若图片对象的数量大于0,同时文字对象的数量为0或仅包含制作程序信息,判定该页面需要进行OCR;若上述所有步骤中均未判定该页面需要进行OCR,则判定该页面不需要进行ocr。进一步的,上述的步骤二中对需要进行ocr的页面进行ocr的步骤具体为:步骤201:将需要进行ocr的页面转换为图片格式并进行图像增强;步骤202:根据深度学习图像识别算法对bmp图片进行文字识别,得到bmp图片中所有文字的内容、位置和尺寸;步骤203:将单个文字的内容,根据其位置和尺寸合并成段落并布局。由于采用了上述技术方案,本专利技术的有益效果是:本专利技术的基于OCR预判断的PDF文件转换方法通过对PDF文件的预解析,提高了PDF文字提取的正确率,在减少不必要的ocr识别的同时保证了文字提取的准确度并提高了PDF文件的转换效率,适用性强,转换效果好。附图说明图1为本专利技术的PDF文件转换方法流程示意图。图2为本专利技术的判断是否需要ocr的实例示意图。图3为本专利技术的判断是否需要ocr的实例示意图。图4为本专利技术的判断是否需要ocr的实例示意图。具体实施方式参照附图1-4对本专利技术的实施方式做具体的说明。如图1所示,一种基于OCR预判断的PDF文件转换方法,包括以下步骤:步骤一:解析PDF文件,判断该PDF文件中各页面是否需要进行ocr;步骤二:针对需要进行ocr的页面进行ocr,得到文本信息;针对不需要进行ocr的页面直接从该PDF页面中文本对象的文字编码信息提取文本信息;步骤三:通过PDF解析算法和Office文件重构算法将得到的文本信息为对应的可编辑文档。我们将pdf扫描件、图片转成的PDF等以图片为主体的pdf文件称为图片类,图片类PDF无法直接提取到其文字信息,我们对这种PDF文件进行解析是无法获取到它的文本的,只有整页的图片。需通过光学字符识别(OCR)技术识别出图片中的文字。我们将可以直接解析出文本信息的pdf文件称为文本类pdf。比较直观的感受是,这类PDF中的文字可以通过鼠标选定,并且可以被复制出来成为和原文一致的文字。本质上讲,通过PDF解析技术会发现PDF文件中存储有其文档的内容,文件中的图片存储为图片对象,文本通过一定的编码存储为文本对象。没有文本对象的PDF文件必定为图片类PDF,但反之是不成立的,因为实际情况是很复杂的,有文本对象的PDF文件不一定就不是图片类PDF。进一步的,上述的步骤二中文本信息包括文字的内容、位置和尺寸。进一步的,上述的步骤一中解析PDF文件后得到该PDF文件的单页图片对象数量、图片对象大小和整体页面大小的比值、文本对象长度、文本对象位置和文本对象内容。进一步的,上述的步骤一中判断该PDF文件中各页面是否需要进行ocr的步骤具体为:判断1:获取该PDF文件中各页面的字体信息,若该页面不包含字体信息或包含OCR字体,判定该页面需要进行OCR;对于判断1来说,pdf文件中的OCR字体是由OCR功能的软件生成的,由于具体哪款软件生成的无从得知,其OCR识别效果是不可靠的,所以这种情况下,我们判断为需要进行OCR。若该pdf文件没有字体信息,表明该pdf是纯图片组成的,显然需要进行OCR。判断2:获取该PDF文件中各页面的文档属性信息,读取文档属性信息中的制作程序信息,若制作程序信息中显示该PDF文件由扫描软件或图片转换软件生成,判定该页面需要进行OCR;对于判断2来说,PDF文件中会带有其文件属性的描述,一些扫描软件或图片软件在生成pdf时会将自己的信息写入pdf文件属性中的制作程序信息,通过这个信息我们可以直接判断出需要进行OCR。判断3:获取该PDF文件中各页面的各个文本对象的渲染信息,若文本对象的渲染模式为不可见,判定该页面需要进行OCR;对于判断3来说,若文本对象的渲染模式是“不可见”,则该文本对象不会被显示出来。这种情况常见于一些通过扫描生成的OCR文件。如图2的文本对象的渲染模式就是不可见,扫描软件这样做是为了不让系统字体遮挡了原文字体的情况下展现出可以选定的效果。判断4:获取该PDF文件中各页面的图片对象的数量信息和文字对象的数量信息,若图片对象的数量大于0,同时文字对象的数量为0或仅包含制作程序信息,判定该页面需要进行OCR;对于判断4来说,不含有图片对象的文件必然不是扫描件、图片生成的p本文档来自技高网...

【技术保护点】
1.一种基于OCR预判断的PDF文件转换方法,其特征在于:包括以下步骤:步骤一:解析PDF文件,判断该PDF文件中各页面是否需要进行ocr;步骤二:针对需要进行ocr的页面进行ocr,得到文本信息;针对不需要进行ocr的页面直接从该PDF页面中文本对象的文字编码信息提取文本信息;步骤三:通过PDF解析算法和Office文件重构算法将该PDF文件转换为对应的可编辑文档。

【技术特征摘要】
1.一种基于OCR预判断的PDF文件转换方法,其特征在于:包括以下步骤:步骤一:解析PDF文件,判断该PDF文件中各页面是否需要进行ocr;步骤二:针对需要进行ocr的页面进行ocr,得到文本信息;针对不需要进行ocr的页面直接从该PDF页面中文本对象的文字编码信息提取文本信息;步骤三:通过PDF解析算法和Office文件重构算法将该PDF文件转换为对应的可编辑文档。2.根据权利要求1所述的一种基于OCR预判断的PDF文件转换方法,其特征在于:所述的步骤二中文本信息包括文字的内容、位置和尺寸。3.根据权利要求1所述的一种基于OCR预判断的PDF文件转换方法,其特征在于:所述的步骤一中解析PDF文件后得到该PDF文件的单页图片对象数量、图片对象大小和整体页面大小的比值、文本对象长度、文本对象位置和文本对象内容。4.根据权利要求1或3所述的一种基于OCR预判断的PDF文件转换方法,其特征在于:所述的步骤一中判断该PDF文件中各页面是否需要进行ocr的步骤具体为:获取该PDF文件中各页面的字体信息,若该页面不包含字体信...

【专利技术属性】
技术研发人员:马万炯
申请(专利权)人:四川译讯信息科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1