一种将PDF文件转换为HTML文本的方法技术

技术编号：32514603 阅读：28 留言：0更新日期：2022-03-02 11:06

本发明专利技术提供了一种将PDF文件转换为HTML文本的方法，包括如下步骤：

全部详细技术资料下载

【技术实现步骤摘要】
一种将PDF文件转换为HTML文本的方法

[0001]本专利技术涉及一种将PDF文件转换为HTML文本的方法。

技术介绍

[0002]在情报领域涉及大量文本数据，PDF(Portable Document Format)为其中较为常见的一类文件。实际中，需将分散在各处的PDF文件汇聚，进行统一管理，并在此基础上，实现对PDF文本内容的精确全文检索、快速检索定位以及高文本易读性。为实现上述目标，将PDF采用Apache PDFBox组件或Spire.PDF组件转换为HTML(Hyper Text Markup Language)是一种可选方案，但目前Apache PDFBox和Spire.PDF转换HTML工具存在转换过程中每行文字被切分为多个字或词、各段落之间文字无相关性、页与页之间内容被隔断、内容区域无法随页面拉伸等问题，无法满足PDF转换HTML保持文本段落原样还原的需求。

技术实现思路

[0003]为解决上述技术问题，本专利技术提供了一种将PDF文件转换为HTML文本的方法，该将PDF文件转换为HTML文本的方法能够有效解决PDF转换HTML保持文本段落原样还原的需求无法被满足的问题。
[0004]本专利技术通过以下技术方案得以实现。
[0005]本专利技术提供的一种将PDF文件转换为HTML文本的方法，包括如下步骤：
[0006]①
转换：获取待转换的PDF文件，用PDF转换工具将该PDF文件转换为单个HTML文件；
[0007]②
清洗：将HT...

【技术保护点】

【技术特征摘要】
1.一种将PDF文件转换为HTML文本的方法，其特征在于：包括如下步骤：
①
转换：获取待转换的PDF文件，用PDF转换工具将该PDF文件转换为单个HTML文件；
②
清洗：将HTML文件中的字块样式标签和空白元素标签删除，并对HTML文件中的段落标签进行转换处理。2.如权利要求1所述的将PDF文件转换为HTML文本的方法，其特征在于：所述PDF转换工具为Apache PDFBox组件或Spire.PDF组件。3.如权利要求1所述的将PDF文件转换为HTML文本的方法，其特征在于：所述字块样式标签为
‑
webkit
‑
text
‑
stroke标签和text
‑
shadow标签。4.如权利要求1所述的将PDF文件转换为HTML文本的方法，其特征在于：所述将HTML文件中的字块样式标签删除时，为对应字块添加字体加粗样式。5.如权利要求1所述的将PDF文件转换为HTML文本的方法，其特征在于：所述对HTML文件中的段落标签进行转换处理，包括如下步骤：A：计算段落标签对应字块的高度偏移值；B：将同一上级类标签的段落对应字块，按照段落顺序进行合并排列；C：将位于同一行或相似一行的字块进行合并形成行级别字块分组。6.如权利要求5所述的将PDF文件转换为HTML文本的方法，其特征在于：所述步骤C，包括如下步骤：C1：遍历HTML文件的文本内容中所有字块节点元素，获取Top绝对定位偏移属性，将偏移属性相同的字块合并为同一组，得到行级别字块分组；C2：遍历HTML文件的文本内容中所有字块节点元素，获取Top绝对定位...

【专利技术属性】
技术研发人员：彭浩瀚，朱美玲，葛军伟，陶冠宏，
申请(专利权)人：成都天奥集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人