本文提供了一种PDF文件信息分析方法和装置,其中方法包括:解析待处理的PDF文件,获得若干元素以及所述元素的位置信息和特征信息,所述元素包括字符元素和非字符元素;根据所述元素的位置信息,将所述特征信息插入到所述PDF文件的相应元素处。本文提供的一种PDF文件信息分析方法和装置,不仅能够识别PDF文件中的每个元素,还能将识别的各元素特征信息根据其位置信息插入到对应元素旁,使得文件的信息更加全面,有利于提高文件逻辑性和可读性。有利于提高文件逻辑性和可读性。有利于提高文件逻辑性和可读性。
【技术实现步骤摘要】
一种PDF文件信息分析方法和装置
[0001]本专利技术涉及数据分析
,尤其涉及一种PDF文件信息分析方法和装置。
技术介绍
[0002]PDF(Portable Document Format,可携带文档格式)文件是一种应用广泛的电子文件格式,可以将文字、字型、格式、颜色及图形图像等信息封装,具有存储空间少、便于传输、兼容性高、不易被篡改等优点。PDF文件主要用于在二维平面上表示(查看或打印)文档排版,而不是用来编辑(类似word)或者保存、传输结构化数据,其中的数据较难还原成原始的用于生产PDF文件的结构化数据。例如:PDF文件中的文本段落,在读者看来它是由一行一行的文字构成,而实际上这些文字都是独立地以字符结合二维坐标的形式定位在平面上,并没有句子、行、段落之类的概念;PDF中的表格也是由独立的每一个字符,和一些由起点、终点、粗细描述的线段等构成。现有技术中,通常是根据识别出的每个字符的坐标位置聚合形成段落,将PDF文件转为纯文本文件(TXT格式)。这种将PDF文件转换成纯文本的方法容易丢失了大量的格式信息(包括布局排版、字体、颜色等),丢失布局排版信息更导致格式错乱等问题。
[0003]有鉴于此,本文旨在提供一种PDF文件信息分析方法和装置。
技术实现思路
[0004]针对现有技术的上述问题,本文的目的在于,提供一种PDF文件信息分析方法和装置,以解决现有技术中在对PDF文件信息进行分析处理时,分析效率低且大量信息丢失的问题。
[0005]为了解决上述技术问题,本文的具体技术方案如下:
[0006]一方面,本文提供一种PDF文件信息分析方法,包括:
[0007]解析待处理的PDF文件,获得若干元素以及所述元素的位置信息和特征信息,所述元素包括字符元素和非字符元素;
[0008]根据所述元素的位置信息,将所述特征信息插入到所述PDF文件的相应元素处。
[0009]具体地,所述根据所述元素的位置信息,将所述特征信息插入到所述PDF文件的相应元素处,包括:
[0010]根据所述元素的位置信息,将所述字符元素的所述特征信息以备注的形式插入到所述字符元素处;
[0011]根据所述元素的位置信息,将所述非字符元素的所述特征信息以划分区域的形式插入到所述非字符元素处。
[0012]具体地,所述位置信息包括:所述元素所在页码和所述元素所在页内的坐标信息;
[0013]所述特征信息:包括所述字符元素的字符特征以及所述非字符元素的边界信息。
[0014]进一步地,所述根据所述元素的位置信息,将所述非字符元素的所述特征信息以划分区域的形式插入到所述非字符元素处,包括:
[0015]对所述非字符元素的边界进行高亮处理、和/或着色处理、和/或缩放处理得到划分区域信息;
[0016]根据所述元素的位置信息,将所述划分区域信息插入到所述PDF文件中相应的非字符元素处。
[0017]优选地,所述非字符元素包括线条元素、色块元素和图像元素;对所述非字符元素的边界进行高亮处理、和/或着色处理、和/或缩放处理,进一步为:
[0018]对所述线条元素的边界、所述色块元素的边界和所述图像元素的边界分别以不同的亮度进行高亮处理、和/或以不同的颜色进行着色处理、和/或以不同的比例进行放缩处理。
[0019]进一步地,所述特征信息还包括所述非字符元素的填充信息;所述根据所述元素的位置信息,将所述非字符元素的所述特征信息以划分区域的形式插入到所述非字符元素处,包括:
[0020]对所述色块元素的边界进行缩放处理,根据所述填充信息对缩放处理后的边界进行着色处理,得到所述色块元素的划分区域信息;
[0021]根据所述元素的位置信息,将所述色块元素的划分区域信息插入到所述色块元素处。
[0022]进一步地,所述方法还包括:根据预设提取规则,对所述元素进行提取;所述预设提取规则包括:
[0023]根据所述位置信息、和/或根据预设的关键字匹配算法、和/或根据所述特征信息提取元素。
[0024]优选地,所述预设提取规则还包括:综合多个元素的位置信息和/或特征信息,提取元素。
[0025]优选地,所述将所述特征信息插入到所述PDF文件的相应元素处之前,还包括:
[0026]根据所述元素的位置信息和特征信息,判断两个所述元素的类型是否相同且两个所述元素之间的距离是否小于或等于第一距离阈值;
[0027]若是,则将两个元素聚合为一个元素。
[0028]优选地,所述将所述特征信息插入到所述PDF文件的相应元素处之前,还包括:
[0029]根据所述特征信息判断两个元素是否相同;
[0030]若相同,则根据所述位置信息判断两个所述元素之间的距离是否大于预设的第二距离阈值;
[0031]若所述元素之间的距离大于所述第二距离阈值,则分别保留两个所述元素;
[0032]若所述元素之间的距离小于或等于所述第二距离阈值,则删除两个所述元素中的一个。
[0033]另一方面,本文提供一种PDF文件信息分析装置,包括:
[0034]解析单元,用于解析待处理的PDF文件,获得若干元素以及所述元素的位置信息和特征信息,所述元素包括字符元素和非字符元素;
[0035]插入单元,用于根据所述元素的位置信息,将所述特征信息插入到所述PDF文件的相应元素处。
[0036]采用上述技术方案,本文提供的一种PDF文件信息分析方法和装置,不仅能够识别
分析中文件中的每个元素,还能将识别的各元素的位置信息和特征信息插入到其对应的元素旁,使得文件的信息更加全面且不易丢失,有利于提高文件逻辑性和可读性。
[0037]为让本文的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
[0038]为了更清楚地说明本文实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本文的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1示出了本文实施例提供的一种PDF文件信息分析方法的流程示意图;
[0040]图2示出了待处理的PDF文件的示意图;
[0041]图3示出了采用本说明书实施例提供的PDF文件信息分析方法对图2中所示的PDF文件进行处理后的示意图;
[0042]图4示出了一种PDF文件信息分析装置的结构示意图;
[0043]图5示出了一种计算机设备的结构图。
[0044]附图符号说明:
[0045]10、解析单元;
[0046]20、插入单元;
[0047]502、计算机设备;
[0048]504、处理器;
[0049]506、存储器;
[0050]508、驱动机构;<本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种PDF文件信息分析方法,其特征在于,包括:解析待处理的PDF文件,获得若干元素以及所述元素的位置信息和特征信息,所述元素包括字符元素和非字符元素;根据所述元素的位置信息,将所述特征信息插入到所述PDF文件的相应元素处。2.根据权利要求1所述的PDF文件信息分析方法,其特征在于,所述根据所述元素的位置信息,将所述特征信息插入到所述PDF文件的相应元素处,包括:根据所述元素的位置信息,将所述字符元素的所述特征信息以备注的形式插入到所述字符元素处;根据所述元素的位置信息,将所述非字符元素的所述特征信息以划分区域的形式插入到所述非字符元素处。3.根据权利要求2所述的PDF文件信息分析方法,其特征在于,所述位置信息包括:所述元素所在页码和所述元素所在页内的坐标信息;所述特征信息包括:所述字符元素的字符特征以及所述非字符元素的边界信息。4.根据权利要求3所述的PDF文件信息分析方法,其特征在于,所述根据所述元素的位置信息,将所述非字符元素的所述特征信息以划分区域的形式插入到所述非字符元素处,包括:对所述非字符元素的边界进行高亮处理、和/或着色处理、和/或缩放处理得到划分区域信息;根据所述元素的位置信息,将所述划分区域信息插入到所述PDF文件中相应的非字符元素处。5.根据权利要求4所述的PDF文件信息分析方法,其特征在于,所述非字符元素包括线条元素、色块元素和图像元素;对所述非字符元素的边界进行高亮处理、和/或着色处理、和/或缩放处理,进一步为:对所述线条元素的边界、所述色块元素的边界和所述图像元素的边界分别以不同的亮度进行高亮处理、和/或以不同的颜色进行着色处理、和/或以不同的比例进行放缩处理。6.根据权利要求5所述的PDF文件信息分析方法,其特征在于,所述特征信息还包括所述非字符元素的填充信息;所述根据所述元素的位置信息,将...
【专利技术属性】
技术研发人员:方政,
申请(专利权)人:善诊上海信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。