一种PDF文件信息分析方法和装置制造方法及图纸

技术编号：29013702 阅读：57 留言：0更新日期：2021-06-26 05:14

本文提供了一种PDF文件信息分析方法和装置，其中方法包括：解析待处理的PDF文件，获得若干元素以及所述元素的位置信息和特征信息，所述元素包括字符元素和非字符元素；根据所述元素的位置信息，将所述特征信息插入到所述PDF文件的相应元素处。本文提供的一种PDF文件信息分析方法和装置，不仅能够识别PDF文件中的每个元素，还能将识别的各元素特征信息根据其位置信息插入到对应元素旁，使得文件的信息更加全面，有利于提高文件逻辑性和可读性。有利于提高文件逻辑性和可读性。有利于提高文件逻辑性和可读性。

全部详细技术资料下载

【技术实现步骤摘要】
一种PDF文件信息分析方法和装置

[0001]本专利技术涉及数据分析
，尤其涉及一种PDF文件信息分析方法和装置。

技术介绍

[0002]PDF(Portable Document Format，可携带文档格式)文件是一种应用广泛的电子文件格式，可以将文字、字型、格式、颜色及图形图像等信息封装，具有存储空间少、便于传输、兼容性高、不易被篡改等优点。PDF文件主要用于在二维平面上表示(查看或打印)文档排版，而不是用来编辑(类似word)或者保存、传输结构化数据，其中的数据较难还原成原始的用于生产PDF文件的结构化数据。例如：PDF文件中的文本段落，在读者看来它是由一行一行的文字构成，而实际上这些文字都是独立地以字符结合二维坐标的形式定位在平面上，并没有句子、行、段落之类的概念；PDF中的表格也是由独立的每一个字符，和一些由起点、终点、粗细描述的线段等构成。现有技术中，通常是根据识别出的每个字符的坐标位置聚合形成段落，将PDF文件转为纯文本文件(TXT格式)。这种将PDF文件转换成纯文本的方法容易丢失了大量的格式信息(包括布局排版、字体、颜色等)，丢失布局排版信息更导致格式错乱等问题。
[0003]有鉴于此，本文旨在提供一种PDF文件信息分析方法和装置。

技术实现思路

[0004]针对现有技术的上述问题，本文的目的在于，提供一种PDF文件信息分析方法和装置，以解决现有技术中在对PDF文件信息进行分析处理时，分析效率低且大量信息丢失的问题。
[0005]为了解决上述技术问题，本文的具体...

【技术保护点】

【技术特征摘要】
1.一种PDF文件信息分析方法，其特征在于，包括：解析待处理的PDF文件，获得若干元素以及所述元素的位置信息和特征信息，所述元素包括字符元素和非字符元素；根据所述元素的位置信息，将所述特征信息插入到所述PDF文件的相应元素处。2.根据权利要求1所述的PDF文件信息分析方法，其特征在于，所述根据所述元素的位置信息，将所述特征信息插入到所述PDF文件的相应元素处，包括：根据所述元素的位置信息，将所述字符元素的所述特征信息以备注的形式插入到所述字符元素处；根据所述元素的位置信息，将所述非字符元素的所述特征信息以划分区域的形式插入到所述非字符元素处。3.根据权利要求2所述的PDF文件信息分析方法，其特征在于，所述位置信息包括：所述元素所在页码和所述元素所在页内的坐标信息；所述特征信息包括：所述字符元素的字符特征以及所述非字符元素的边界信息。4.根据权利要求3所述的PDF文件信息分析方法，其特征在于，所述根据所述元素的位置信息，将所述非字符元素的所述特征信息以划分区域的形式插入到所述非字符元素处，包括：对所述非字符元素的边界进行高亮处理、和/或着色处理、和/或缩放处理得到划分区域信息；根据所述元素的位置信息，将所述划分区域信息插入到所述PDF文件中相应的非字符元素处。5.根据权利要求4所述的PDF文件信息分析方法，其特征在于，所述非字符元素包括线条元素、色块元素和图像元素；对所述非字符元素的边界进行高亮处理、和/或着色处理、和/或缩放处理，进一步为：对所述线条元素的边界、所述色块元素的边界和所述图像元素的边界分别以不同的亮度进行高亮处理、和/或以不同的颜色进行着色处理、和/或以不同的比例进行放缩处理。6.根据权利要求5所述的PDF文件信息分析方法，其特征在于，所述特征信息还包括所述非字符元素的填充信息；所述根据所述元素的位置信息，将...

【专利技术属性】
技术研发人员：方政，
申请(专利权)人：善诊上海信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人