一种异构源文档静态化html处理方法技术

技术编号:27442335 阅读:24 留言:0更新日期:2021-02-25 03:54
本发明专利技术公开了一种异构源文档静态化html处理方法,通过将不同源文档统一转换为PDF,再将PDF转换为HTML,从而避降低了将文档直接转换为html的难度,也避免了文档直接转换为html可能会造成的样式错乱及内容丢失的情况。从而提升了工作效率,也便于数据存储和文件传输。也便于数据存储和文件传输。也便于数据存储和文件传输。

【技术实现步骤摘要】
一种异构源文档静态化html处理方法


[0001]本专利技术涉及数据文件处理
,特别涉及一种异构源文档静态化html处理方法。

技术介绍

[0002]现有技术实现文档在线浏览主要有以下几种方案:1. 客户端浏览器插件;2. 将文档转换为图片;3. 通过POI等工具将文档转换为HTML,以上第一针方式需要客户端浏览器安装相应插件,增加了客户端的压力,容易引起用户的反感,且不同的文档源需要不同的插件支持,第二种方式将文档转换为图片后在线浏览,此种方式会导致文档内容不可选,不方便用户操作;第三种方式通过POI等工具进行转换,由于不同源的文档结构不同,解析难度较大,且解析后悔出现样式错乱,文本丢失等问题。

技术实现思路

[0003]有鉴于此,本专利技术的目的是提供一种异构源文档静态化html处理方法。能够解决
技术介绍
中存在的问题。
[0004]本专利技术的目的是通过以下技术方案实现的:
[0005]本专利技术的第一方面的目的是提供一种异构源文档静态化html处理方法,包括
[0006]读取文档;
[0007]判断文档格式不是PDF文档格式时,则根据当前操作系统判断,根据不同的操作系统选用不同的转换模块进行格式转换;
[0008]将不同源的文档统一转换为PDF格式。
[0009]特别地,如果是windows操作系统且文档格式为WPS文档格式,则调用WPS应用程序进行转换,如果是office文档格式,则调用office应用程序进行转换;若操作系统位Linux,则调用LibreOffice进行转换;将不同源的文档统一转换为PDF格式。
[0010]特别地,在将不同源的文档统一转换为PDF格式后,加载PDF文件,调用pdf2htmlEX进行转换,得到html格式文档。
[0011]特别地,对于含有目录结构的PDF可以提取出文档目录,方便web端浏览时进行快速导航操作。、
[0012]特别地,对转换后的html进行预处理,处理内容包括html文档样式转换为源文档演示,部分转换出错标签处理。
[0013]特别地,所述office文档格式包括Word、PPT、excel、visio文档格式。
[0014]本专利技术的第二方面的目的是提供一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前所述的方法。
[0015]本专利技术的第三方面的的目的是提供一种计算机可读存储介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现如前所述的方法。
[0016]本专利技术的有益效果是:本专利技术通过将不同源文档统一转换为PDF,再将PDF转换为HTML,从而避降低了将文档直接转换为html的难度,也避免了文档直接转换为html可能会造成的样式错乱及内容丢失的情况,
[0017]本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书和前述的权利要求书来实现和获得。
附图说明
[0018]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步的详细描述,其中:
[0019]图1为本专利技术的处理流程示意图;
[0020]图2为PDF文档转换为HTML的流程示意图;
[0021]图3为word原始文档显示图;
[0022]图4为图3所示文件转换为pdf文档的显示图;
[0023]图5为图4的pdf文件转换为html文档的显示图;
[0024]图6为visio原始文档显示图;
[0025]图7为图6所示文件转换为pdf文档的显示图;
[0026]图8为图7的pdf文件转换为html文档的显示图
具体实施方式
[0027]以下将参照附图,对本专利技术的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本专利技术,而不是为了限制本专利技术的保护范围。
[0028]本专利技术的一种异构源文档静态化html处理方法,总的步骤包括
[0029]1.将不同源文档转换为PDF,具体流程如图1所示:
[0030]读取文档;
[0031]在文档转换为pdf时,如果文档格式原来就是pdf则不需要转换,如果不是pdf,则根据当前操作系统判断,如果是windows操作系统且文档格式为wps则调用wps应用程序进行转换,如果是Word、PPT、excel、visio等文档则调用office应用程序进行转换;若操作系统位Linux,则调用LibreOffice进行转换,最终将不同源的文档统一转换为PDF格式。
[0032]2. PDF文档转换为HTML
[0033]通过上述第一步处理后,实现了不同源文档到PDF的标准化处理,简化了后续转换为html的复杂度,其流程如图2所示:
[0034]首先加载pdf文件,调用pdf2htmlEX进行转换,对于含有目录结构的pdf可以提取出文档目录,方便web端浏览时进行快速导航操作。
[0035]3. HTML预处理
[0036]通过上述pdf转换为html后的文件会带有部分pdf的样式,比如pdf背景,而源文档格式可能不是pdf的,所以需要对转换后的html进行预处理,处理内容包括html文档样式转换为源文档演示,部分转换出错标签处理。
[0037]本专利技术通过标准化处理,将不同源的文档统一转换为PDF,在此过程中可以确保文档的样式不变且文本信息不会被转换为图片,然后再将转换后的PDF转换为HTML,从而实现了不同源文档的标准化输出。
[0038]从而避降低了将文档直接转换为html的难度,也避免了文档直接转换为html可能会造成的样式错乱及内容丢失的情况,图3-图8是不同格式文档转换为pdf后再转换为html的效果对比示意图。由图中可以看出,转换后的html文档显示清晰,样式完整,内容没有出现丢失的情况。
[0039]本专利技术的流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本专利技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本专利技术的实施例所属
的技术人员所理解。
[0040]在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异构源文档静态化html处理方法,其特征在于:包括读取文档;判断文档格式不是PDF文档格式时,则根据当前操作系统判断,根据不同的操作系统选用不同的转换模块进行格式转换;将不同源的文档统一转换为PDF格式。2.根据权利要求1所述的一种异构源文档静态化html处理方法,其特征在于:如果是windows操作系统且文档格式为WPS文档格式,则调用WPS应用程序模块进行转换,如果是office文档格式,则调用office应用程序模块进行转换;若操作系统是Linux,则调用LibreOffice进行转换;将不同源的文档统一转换为PDF格式。3.根据权利要求1所述的一种异构源文档静态化html处理方法,其特征在于:在将不同源的文档统一转换为PDF格式后,加载PDF文件,调用pdf2htmlEX进行转换,得到html格式文档。4.根据权利要求1或2或3所述的一...

【专利技术属性】
技术研发人员:欧阳静冯光璐倪凡舒彧曾路黄莉雅李然
申请(专利权)人:贵州电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利