本发明专利技术公开一种将PDF格式文件转换为EPUB格式的方法,包括:识别PDF格式文件中的文本元素、图像元素;获取所述文本元素的坐标和所述图像元素的坐标;根据所述文本元素的坐标和所述图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置;按照所述位置,生成HTML格式文件;根据所述HTML格式文件,生成EPUB格式文件。本发明专利技术还公开了一种将PDF格式文件转换为EPUB格式的系统。采用本发明专利技术所公开的发明专利技术或系统,能够使转化成的EPUB格式的文件图文并茂,并保留原PDF格式文件中的文字元素与图像元素的位置关系。
【技术实现步骤摘要】
本专利技术涉及文档处理
,特别是涉及一种将PDF格式文件转换为EPUB格式的方法及系统。
技术介绍
PDF是Portable Document Format (便携文件格式)的缩写,是一种电子文件格式。PDF文件格式以其卓越的特性成为在互联网上进行电子文档发行和格式化信息传播的理想文件格式。当前,在互联网上发布的科技论文大部分以PDF格式提交。但是,因为PDF 文件是根据坐标来排版的,而小型设备上很难绝对定位,所以PDF文件在小型设备或者移动设备上不能自适应页面。现有技术中,为了在小型设备或者移动设备上更好地显示PDF 文件的内容,通常将PDF格式文件转换为EPUB格式。EPUB格式是一种电子图书标准,属于一种可以“自动重新编排”的内容;也就是文字内容可以根据阅读设备的特性,以最适于阅读的方式显示。EPUB档案内部使用了 XHTML 或DTBook (—种由DAISY Consortium提出的XML标准)来展现文字、并以zip压缩格式来包裹档案内容。现有技术中,将PDF格式文件转换为EPUB格式的方法主要有两种一种是只提取 PDF格式文件中的文本,图片去除。显然该方式存在图片缺失的缺点。另一种方式是对PDF 格式文件的每一页进行截图。由于截图时会导致分辨率下降,在小型设备上阅读时,文字更加难以识别。
技术实现思路
本专利技术的目的是提供一种将PDF格式文件转换为EPUB格式的方法及系统,使得转换后的EPUB格式文件能够图文并茂,并且转换后的EPUB格式文件中,图像元素与文本元素的相对位置关系与原PDF格式文件相同。为实现上述目的,本专利技术提供了如下方案一种将PDF格式文件转换为EPUB格式的方法,包括识别PDF格式文件中的文本元素、图像元素;获取所述文本元素的坐标和所述图像元素的坐标;根据所述文本元素的坐标和所述图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和图像元素的相对位置关系与PDF格式文件中的文本元素和图像元素的相对位置关系相同;按照确定的位置,生成HTML格式文件;根据所述HTML格式文件,生成EPUB格式文件。优选的,所述根据所述文本元素的坐标和所述图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和图像元素的相对位置关系与PDF格式文件中的文本元素和图像元素的相对位置关系相同,包括根据所述文本元素的坐标和所述图像元素的坐标,将原本位于所述图像元素左边或上方的所述文本元素,定位在所述图像元素上方;将原本位于所述图像元素右边或下方的所述文本元素,定位在所述图像元素下方。优选的,所述根据所述文本元素的坐标和所述图像元素的坐标,将原本位于所述图像元素左边或上方的所述文本元素,定位在所述图像元素上方;将原本位于所述图像元素右边或下方的所述文本元素,定位在所述图像元素下方,包括判断所述文本元素的右下点的纵坐标是否小于所述图像元素的左上点的纵坐标;如果是,则将所述文本元素定位在所述图像元素的上方;否则,判断所述文本元素的右下点的横坐标是否小于所述图像元素的左上点的横坐标;如果是,则将所述文本元素定位在所述图像元素的上方;否则,将所述文本元素定位在所述图像元素的下方。优选的,所述根据所述文本元素的坐标和所述图像元素的坐标,将原本位于所述图像元素左边或上方的所述文本元素,定位在所述图像元素上方;将原本位于所述图像元素右边或下方的所述文本元素,定位在所述图像元素下方,包括判断所述文本元素的左上点的纵坐标是否大于所述图像元素的右下点的纵坐标;如果是,则将所述文本元素定位在所述图像元素的下方;否则,判断所述文本元素的左上点的横坐标是否大于所述图像元素的右下点的横坐标;如果是,则将所述文本元素定位在所述图像元素的下方;否则,将所述文本元素定位在所述图像元素的上方。优选的,所述根据所述HTML格式文件,生成EPUB格式文件,包括生成包括container, xml文件以及后缀名为opf、ncx在内的EPUB格式所必须的文件;将所述HTML格式文件,以及所述EPUB格式所必须的文件,压缩成后缀名为EPUB 的压缩包。一种将PDF格式文件转换为EPUB格式的系统,包括元素识别模块,用于识别PDF格式文件中的文本元素、图像元素;坐标获取模块,用于获取所述文本元素的坐标和所述图像元素的坐标;位置确定模块,用于根据所述文本元素的坐标和所述图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和图像元素的相对位置关系与PDF格式文件中的文本元素和图像元素的相对位置关系相同;HTML格式文件生成模块,用于按照所述位置,生成HTML格式文件;EPUB格式生成模块,用于根据所述HTML格式文件,生成EPUB格式文件。优选的,所述位置确定模块包括上下位置确定单元,用于根据所述文本元素的坐标和所述图像元素的坐标,将原本位于所述图像元素左边或上方的所述文本元素,定位在所述图像元素上方;将原本位于所述图像元素右边或下方的所述文本元素,定位在所述图像元素下方。优选的,所述上下位置确定单元包括第一判断子单元,用于判断所述文本元素的右下点的纵坐标是否小于所述图像元素的左上点的纵坐标;第一定位子单元,用于当所述第一判断子单元的判断结果为是时,将所述文本元素定位在所述图像元素的上方;第二判断子单元,用于当所述第一判断子单元的判断结果为否时,判断所述文本元素的右下点的横坐标是否小于所述图像元素的左上点的横坐标;第二定位子单元,用于当所述第二判断子单元的判断结果为是时,将所述文本元素定位在所述图像元素的上方;第三定位子单元,用于当所述第二判断子单元的判断结果为否时,将所述文本元素定位在所述图像元素的下方。优选的,所述上下位置确定单元包括第三判断子单元,用于判断所述文本元素的左上点的纵坐标是否大于所述图像元素的右下点的纵坐标;第四定位子单元,用于当所述第三判断子单元的判断结果为是时,将所述文本元素定位在所述图像元素的下方;第四判断子单元,用于当所述第三判断子单元的判断结果为否时,判断所述文本元素的左上点的横坐标是否大于所述图像元素的右下点的横坐标;第五定位子单元,用于当所述第四判断子单元的判断结果为是时,将所述文本元素定位在所述图像元素的下方;第六定位子单元,用于当所述第四判断子单元的判断结果为否时,将所述文本元素定位在所述图像元素的上方。优选的,所述EPUB格式生成模块包括必要文件生成单元,用于生成包括container, xml文件以及后缀名为opf、ncx在内的EPUB格式所必须的文件;EPUB格式生成单元,用于将所述HTML格式文件,以及所述EPUB格式所必须的文件,压缩成后缀名为EPUB的压缩包。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果通过对PDF格式文件中的文本元素与图像元素的坐标进行分析,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的所述文本元素和所述图像元素的相对位置关系与PDF格式文件中的所述文本元素和所述图像元素的相对位置关系相同;能够使转换后的EPU本文档来自技高网...
【技术保护点】
1.一种将PDF格式文件转换为EPUB格式的方法,其特征在于,包括:识别PDF格式文件中的文本元素、图像元素;获取所述文本元素的坐标和所述图像元素的坐标;根据所述文本元素的坐标和所述图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和图像元素的相对位置关系与PDF格式文件中的文本元素和图像元素的相对位置关系相同;按照确定的位置,生成HTML格式文件;根据所述HTML格式文件,生成EPUB格式文件。
【技术特征摘要】
【专利技术属性】
技术研发人员:王峰,晏检平,
申请(专利权)人:深圳市万兴软件有限公司,
类型:发明
国别省市:94
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。