一种网页处理方法、装置及用户终端制造方法及图纸

技术编号：12205462 阅读：75 留言：0更新日期：2015-10-14 19:13

本发明专利技术实施例公开了一种网页处理方法、装置及用户终端，其中所述方法包括：获取待归档网页的页面原始数据，并获取该页面原始数据的编码标识；解析所述待归档网页的页面原始数据，分别确定所述待归档网页关联的每一个链接页面，并获取关联的每一个链接页面的页面原始数据及编码标识；对所述待归档网页的页面原始数据及编码标识进行编码得到主资源文件，分别对每一个链接页面的页面原始数据及编码标识进行编码得到子资源文件；将得到的所述主资源文件和各个子资源文件封装为聚合网页文档。采用本发明专利技术，可较为有效、完整地得到各类网页的聚合网页文档，并且满足用户对聚合网页文档处理的自动化、智能化需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机网页应用
，尤其涉及一种网页处理方法、装置及用户终端。
技术介绍
MHT文件又称为聚合网页HTML文档，或单一文件网页，可以将包括一个或者多个元素的网页(如包含图片、Flash动画、小视频等元素的网页)存储为单一文件，其扩展名为.mht，这种格式的文件被简称为MHT文件。这使得用户对于网页内容的保存、管理会比较方便。现有的MHT文件的实现一般仅针对当前网页的页面原始数据，若当前网页还包括其他一些链接网页，例如某些网页附属的图片、动画等元素的链接页面，则会归档出错或者在MHT文件被打开后存在乱码的情况。
技术实现思路
本专利技术实施例所要解决的技术问题在于，提供一种网页处理方法、装置及用户终端，可较为有效、完整地得到各类网页的聚合网页文档。为了解决上述技术问题，本专利技术实施例提供了一种网页处理方法，包括:获取待归档网页的页面原始数据，并获取该页面原始数据的编码标识；解析所述待归档网页的页面原始数据，分别确定所述待归档网页关联的每一个链接页面，并获取关联的每一个链接页面的页面原始数据及编码标识；对所述待归档网页的页面原始数据及编码标识进行编码得到主资源文件，分别对每一个链接页面的页面原始数据及编码标识进行编码得到子资源文件；将得到的所述主资源文件和各个子资源文件封装为聚合网页文档。本专利技术实施例还提供了另一种网页处理方法，包括:根据读取的聚合网页文档头部信息中的边界标记，从所述聚合网页文档中分割得到主资源文件和各个子资源文件；对所述主资源文件进行解码得到待归档网页的页面原始数据，并依次对各个子资源文件进行解码，得到各个链...

【技术保护点】
一种网页处理方法，其特征在于，包括：获取待归档网页的页面原始数据，并获取该页面原始数据的编码标识；解析所述待归档网页的页面原始数据，分别确定所述待归档网页关联的每一个链接页面，并获取关联的每一个链接页面的页面原始数据及编码标识；对所述待归档网页的页面原始数据及编码标识进行编码得到主资源文件，分别对每一个链接页面的页面原始数据及编码标识进行编码得到子资源文件；将得到的所述主资源文件和各个子资源文件封装为聚合网页文档。

【技术特征摘要】

【专利技术属性】
技术研发人员：王文涛，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人