一种ＰＤＦ文本段落生成的方法技术

技术编号：3958056 阅读：414 留言：1更新日期：2012-04-11 18:40

本发明专利技术涉及一种ＰＤＦ文本段落生成的方法，该方法包括：Ａ．识别并提取ＰＤＦ文本的文字块；Ｂ．剔除不同层中重复的文字块，并且确定文本行，所确定的文本行组成文本行集合；Ｃ．将文本行集合进行水平方向划分，得到一个或多个第一文本；然后对第一文本集合中的每个第一文本分别进行垂直方向划分，分别得到一个或多个第二文本，提取一个或多个第二文本之间的空白区域以组成空白区域集合；Ｄ．合并第一文本集合中两相邻的第一文本，以得到文本排版行；Ｅ．划分合并后的文本排版行，以形成文本排版列和文本段落。实施本发明专利技术的技术方案，经过该方法处理过的文本结构易生成ＲＴＦ格式，效果好，且可编辑度高；另外，该方法是自动排版，无需人工干预。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息技术，更具体地说，涉及一种PDF文本段落生成的方法。
技术介绍
便携式文件格式(Portable Document Format，PDF)，由 Adobe Systems 在 1993 年用于文件交换所发展出的文件格式。它的优点在于跨平台、能保留文件原有格式(Layout)、开放标准。在PDF格式文件中，记录了文本元素的精确位置，而文本之间没有任何关系，该格式不易编辑。PDF文本格式以其卓越的特性成为在互联网上进行电子文档发行和格式化信息传播的理想文件格式。当前，在互联网发布的科技论文大部分以PDF格式提交。但是，PDF重在描述文档的打印格式，没有描述原始文档内的数据结构，并且不易编辑。如果需要引用第三方的PDF文本中的内容，目前通行的办法是手动拷贝出文字，然后再放入其它字处理软件中手动排版、编辑，这种操作费时费力。目前，一般通过排版软件本身的能力导出XML文件，该XML文件都包含PDF文章的内容信息，不同的排版软件输出的内容可能不同，但多数的排版软件并不导出文字块的位置信息，使得PDF文章的信息不完整，往往需要通过手工的方式进行补充，效率非常低。由于多数排版软件可以生成PDF格式的文件，大量的历史数据是基于PDF的，所以基于PDF的解析应用面很广。例如，公开号为CN1687926A的专利申请公布了一种“基于XML的PDF文本信息的抽取系统和方法”，主要是把PDF文本的物理结构转换为逻辑结构，但并没有进行文本成段落和成文的处理；再例如，公开号为CN1776673A的专利申请公开了一种“PDF文本到XML文档...

【技术保护点】
一种ＰＤＦ文本段落生成的方法，其特征在于，包括：Ａ．识别并提取ＰＤＦ文本的文字块；Ｂ．剔除不同层中重复的文字块，并且确定文本行，所确定的文本行组成文本行集合；Ｃ．将所述文本行集合进行水平方向划分，得到一个或多个第一文本，所述一个或多个第一文本组成第一文本集合；然后对第一文本集合中的每个第一文本分别进行垂直方向划分，分别得到一个或多个第二文本，所述一个或多个第二文本组成第二文本集合，提取第二文本集合中一个或多个第二文本之间的空白区域以组成空白区域集合；Ｄ．合并第一文本集合中两相邻的第一文本，以得到文本排版行；Ｅ．划分合并后的文本排版行，以形成文本排版列和文本段落。

【技术特征摘要】

【专利技术属性】
技术研发人员：晏检平，
申请(专利权)人：深圳市万兴软件有限公司，
类型：发明
国别省市：94[中国|深圳]

全部详细技术资料下载我是这个专利的主人