一种异构源文档静态化html处理方法技术

技术编号：27442335 阅读：36 留言：0更新日期：2021-02-25 03:54

本发明专利技术公开了一种异构源文档静态化html处理方法，通过将不同源文档统一转换为PDF，再将PDF转换为HTML，从而避降低了将文档直接转换为html的难度，也避免了文档直接转换为html可能会造成的样式错乱及内容丢失的情况。从而提升了工作效率，也便于数据存储和文件传输。也便于数据存储和文件传输。也便于数据存储和文件传输。

全部详细技术资料下载

【技术实现步骤摘要】
一种异构源文档静态化html处理方法

[0001]本专利技术涉及数据文件处理
，特别涉及一种异构源文档静态化html处理方法。

技术介绍

[0002]现有技术实现文档在线浏览主要有以下几种方案：1. 客户端浏览器插件；2. 将文档转换为图片；3. 通过POI等工具将文档转换为HTML，以上第一针方式需要客户端浏览器安装相应插件，增加了客户端的压力，容易引起用户的反感，且不同的文档源需要不同的插件支持，第二种方式将文档转换为图片后在线浏览，此种方式会导致文档内容不可选，不方便用户操作；第三种方式通过POI等工具进行转换，由于不同源的文档结构不同，解析难度较大，且解析后悔出现样式错乱，文本丢失等问题。

技术实现思路

[0003]有鉴于此，本专利技术的目的是提供一种异构源文档静态化html处理方法。能够解决
技术介绍
中存在的问题。
[0004]本专利技术的目的是通过以下技术方案实现的：
[0005]本专利技术的第一方面的目的是提供一种异构源文档静态化html处理方法，包括
[0006]读取文档；
[0007]判断文档格式不是PDF文档格式时，则根据当前操作系统判断，根据不同的操作系统选用不同的转换模块进行格式转换；
[0008]将不同源的文档统一转换为PDF格式。
[0009]特别地，如果是windows操作系统且文档格式为WPS文档格式，则调用WPS应用程序进行转换，如果是office文档格式，则调用office应用程序进行转换；若操作系统位Linux，...

【技术保护点】

【技术特征摘要】
1.一种异构源文档静态化html处理方法，其特征在于：包括读取文档；判断文档格式不是PDF文档格式时，则根据当前操作系统判断，根据不同的操作系统选用不同的转换模块进行格式转换；将不同源的文档统一转换为PDF格式。2.根据权利要求1所述的一种异构源文档静态化html处理方法，其特征在于：如果是windows操作系统且文档格式为WPS文档格式，则调用WPS应用程序模块进行转换，如果是office文档格式，则调用office应用程序模块进行转换；若操作系统是Linux，则调用LibreOffice进行转换；将不同源的文档统一转换为PDF格式。3.根据权利要求1所述的一种异构源文档静态化html处理方法，其特征在于：在将不同源的文档统一转换为PDF格式后，加载PDF文件，调用pdf2htmlEX进行转换，得到html格式文档。4.根据权利要求1或2或3所述的一...

【专利技术属性】
技术研发人员：欧阳静，冯光璐，倪凡，舒彧，曾路，黄莉雅，李然，
申请(专利权)人：贵州电网有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人