本发明专利技术实施例公开了一种网页处理方法、装置及用户终端,其中所述方法包括:获取待归档网页的页面原始数据,并获取该页面原始数据的编码标识;解析所述待归档网页的页面原始数据,分别确定所述待归档网页关联的每一个链接页面,并获取关联的每一个链接页面的页面原始数据及编码标识;对所述待归档网页的页面原始数据及编码标识进行编码得到主资源文件,分别对每一个链接页面的页面原始数据及编码标识进行编码得到子资源文件;将得到的所述主资源文件和各个子资源文件封装为聚合网页文档。采用本发明专利技术,可较为有效、完整地得到各类网页的聚合网页文档,并且满足用户对聚合网页文档处理的自动化、智能化需求。
【技术实现步骤摘要】
本专利技术涉及计算机网页应用
,尤其涉及一种网页处理方法、装置及用户终端。
技术介绍
MHT文件又称为聚合网页HTML文档,或单一文件网页,可以将包括一个或者多个元素的网页(如包含图片、Flash动画、小视频等元素的网页)存储为单一文件,其扩展名为.mht,这种格式的文件被简称为MHT文件。这使得用户对于网页内容的保存、管理会比较方便。现有的MHT文件的实现一般仅针对当前网页的页面原始数据,若当前网页还包括其他一些链接网页,例如某些网页附属的图片、动画等元素的链接页面,则会归档出错或者在MHT文件被打开后存在乱码的情况。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供一种网页处理方法、装置及用户终端,可较为有效、完整地得到各类网页的聚合网页文档。为了解决上述技术问题,本专利技术实施例提供了一种网页处理方法,包括:获取待归档网页的页面原始数据,并获取该页面原始数据的编码标识;解析所述待归档网页的页面原始数据,分别确定所述待归档网页关联的每一个链接页面,并获取关联的每一个链接页面的页面原始数据及编码标识;对所述待归档网页的页面原始数据及编码标识进行编码得到主资源文件,分别对每一个链接页面的页面原始数据及编码标识进行编码得到子资源文件;将得到的所述主资源文件和各个子资源文件封装为聚合网页文档。本专利技术实施例还提供了另一种网页处理方法,包括:根据读取的聚合网页文档头部信息中的边界标记,从所述聚合网页文档中分割得到主资源文件和各个子资源文件;对所述主资源文件进行解码得到待归档网页的页面原始数据,并依次对各个子资源文件进行解码,得到各个链接页面的页面原始数据;对解码后的各个子资源文件对应的页面原始数据按照预设的本地文件命名规则进行命名并存储;依次根据各个子资源文件对应的页面原始数据的存储地址,对应将解码得到的所述待归档网页的页面原始数据中的链接网址修改为本地链接地址,并将链接网址已修改的所述待归档网页的页面原始数据存储为网页文件。相应地,本专利技术实施例还提供了一种网页处理装置,包括:获取模块,用于获取待归档网页的页面原始数据,并获取该页面原始数据的编码标识;解析模块,用于解析所述待归档网页的页面原始数据,分别确定所述待归档网页关联的每一个链接页面,并获取关联的每一个链接页面的页面原始数据及编码标识;编码模块,用于对所述待归档网页的页面原始数据及编码标识进行编码得到主资源文件,分别对每一个链接页面的页面原始数据及编码标识进行编码得到子资源文件;归档模块,用于将得到的所述主资源文件和各个子资源文件封装为聚合网页文档。本专利技术实施例还提供了另一种网页处理装置,包括:分割模块,用于根据读取的聚合网页文档头部信息中的边界标记,从所述聚合网页文档中分割得到主资源文件和各个子资源文件;解码模块,用于对所述主资源文件进行解码得到待归档网页的页面原始数据,并依次对各个子资源文件进行解码,得到各个链接页面的页面原始数据;子资源处理模块,用于对解码后的各个子资源文件对应的页面原始数据按照预设的本地文件命名规则进行命名并存储;存储模块,用于依次根据各个子资源文件对应的页面原始数据的存储地址,对应将解码得到的所述待归档网页的页面原始数据中的链接网址修改为本地链接地址,并将链接网址已修改的所述待归档网页的页面原始数据存储为网页文件。相应地,本专利技术实施例提供了一种用户终端,包括:处理器和存储器;所述处理器,用于获取待归档网页的页面原始数据,并获取该页面原始数据的编码标识;解析所述待归档网页的页面原始数据,分别确定所述待归档网页关联的每一个链接页面,并获取关联的每一个链接页面的页面原始数据及编码标识;对所述待归档网页的页面原始数据及编码标识进行编码得到主资源文件,分别对每一个链接页面的页面原始数据及编码标识进行编码得到子资源文件;将得到的所述主资源文件和各个子资源文件封装为聚合网页文档;所述存储器,用于存储封装得到的聚合网页文档。本专利技术实施例提供了另一种用户终端,包括:处理器、存储器以及显示器;所述存储器,用于存储封装得到的聚合网页文档;所述处理器,用于根据读取的聚合网页文档头部信息中的边界标记,从所述聚合网页文档中分割得到主资源文件和各个子资源文件;对所述主资源文件进行解码得到待归档网页的页面原始数据,并依次对各个子资源文件进行解码,得到各个链接页面的页面原始数据;对解码后的各个子资源文件对应的页面原始数据按照预设的本地文件命名规则进行命名并存储;依次根据各个子资源文件对应的页面原始数据的存储地址,对应将解码得到的所述待归档网页的页面原始数据中的链接网址修改为本地链接地址,并将链接网址已修改的所述待归档网页的页面原始数据存储为网页文件;所述显示器,用于显示由所述处理器解析打开后的包括所述页面原始数据和解码子资源文件后得到的页面原始数据的页面。本专利技术实施例通过对待归档网页的页面原始数据进行处理得到聚合网页文档的主资源文件,并基于页面原始数据得到该待归档网页的各个链接页面的页面原始数据,并对得到链接页面的页面原始数据进行处理得到聚合网页文档的各子资源文件,最终归档得到聚合网页文档,本专利技术实施例可以较为全面准确地归档得到待归档网页的各个数据,从而较为有效、完整地得到各类网页的聚合网页文档,使得在进行相关的解码时,能够完整的解码得到待归档网页的所有数据,避免归档出错以及打开聚合网页文档时存在乱码等问题,满足用户对聚合网页文档处理的自动化、智能化需求。【附图说明】为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例的一种网页处理方法的流程示意图;图2是本专利技术实施例的另一种网页处理方法的流程示意图;图3是本专利技术实施例的又一种网页处理方法的流程示意图;图4是本专利技术实施例的主资源文件和子资源文件对应解码后的文件存储方式的示意图;图5是本专利技术实施例的再一种网页处理方法的流程示意图;图6是本专利技术实施例的一种网页处理装置的结构示意图;图7是图6中的解析模块的其中一种结构示意图;图8是图6中的编码模块的其中一种结构示意图;图9是图6中的归档模块的其中一种结构示意图;图10是本专利技术实施例的一种用户终端的结构示意图;图11是本专利技术实施例的另一种网页处理装置的结构示意图;图12是图11中的分割模块的其中一种结构示意图;图13是本专利技术实施例的另一种用户终端的结构示意图。【具体实施方式】下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例可以得到待归档网页的页面原始数据,并从待归档网页的页面原始数据中得到其所涉及的所有链接页面,并进一步地确定得到所有链接页面的页面原始数据,再对得到页面原始数据进行处理,最终归档得到聚合网页文档,可较为有效地对所有类型的网页以聚合网页文档的形式保存,也方便后续在打开该聚合网页文档时,能够本文档来自技高网...
【技术保护点】
一种网页处理方法,其特征在于,包括: 获取待归档网页的页面原始数据,并获取该页面原始数据的编码标识; 解析所述待归档网页的页面原始数据,分别确定所述待归档网页关联的每一个链接页面,并获取关联的每一个链接页面的页面原始数据及编码标识; 对所述待归档网页的页面原始数据及编码标识进行编码得到主资源文件,分别对每一个链接页面的页面原始数据及编码标识进行编码得到子资源文件; 将得到的所述主资源文件和各个子资源文件封装为聚合网页文档。
【技术特征摘要】
【专利技术属性】
技术研发人员:王文涛,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。