标记语言文档的处理方法及浏览器和网络操作系统技术方案

技术编号:8593943 阅读:163 留言:0更新日期:2013-04-18 07:06
本发明专利技术公开了一种标记语言文档的处理方法及相应的浏览器和网络操作系统,所述方法包括:将标记语言文档解析为文档对象模型DOM树,将所述DOM树转换为二进制文件并保存;需打开所述标记语言文档时,将该标记语言文档对应的二进制文件还原成DOM树,根据所还原的DOM树渲染出网页。该方法对应的浏览器包括:查询模块、解析模块、转换模块、还原模块、以及渲染引擎。所述网络操作系统包括操作页面的执行文件,该执行文件为由所述操作页面原始的标记语言文档解析为DOM树、再由该DOM树转换而成的二进制文件。执行该网络操作系统浏览器包括还原模块和渲染引擎。利用本发明专利技术,可以提高浏览器对标记语言文档的处理速度,降低对带宽的占用,以及以降低网络操作系统的体积。

【技术实现步骤摘要】

本专利技术涉及互联网数据处理
,尤其涉及一种标记语言文档的处理方法及相应的浏览器和网络操作系统。
技术介绍
在互联网中,网页的本质就是标记语目,如超文本标记语目(HTML, HypertextMarkup Language)以及可扩展标记语言(XML, Extensible Markup Language)。HTML 和XML是用于描述网页文档的一种标记语言。HTML是一种规范,一种标准,它通过标记符号来标记要显示的网页中的各个部分。XML是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具。网页文件本身是一种文本文件,通过在文本文件中添加标记符,可以告诉浏览器如何显示其中的内容(如文字如何处理,画面如何安排,图片如何显示等)。浏览器按顺序阅读网页文件,然后根据标记符解释和显示其标记的内容,对书写出错的标记将不指出其错误,且不停止其解释执行过程,编制者只能通过显示效果来分析出错原因和出错部位。但需要注意的是,对于不同的浏览器,对同一标记符可能会有不完全相同的解释,因而可能会有不同的显示效果。HTML可以通过结合使用其他的网络技术,如脚本语言、计算机图形接口标准(CGI)、组件等,可以创造出功能强大的网页。因而,HTML是网络页面的基础,也就是说互联网是建立在HTML基础之上的。所述浏览器是指可以显示网页服务器或者文件系统的HTML文档内容,并让用户与这些文件交互的一种软件。网页浏览器主要通过HTTP协议与网页服务器交互并获取网页,这些网页由统一资源定位符(URL)指定,文件格式通常为HTML,并由MME在HTTP协议中指明。一个网页中可以包括多个文档,每个文档都是分别从服务器获取的。大部分的浏览器本身支持除了 HTML之外的广泛的格式,例如JPEG、PNG、GIF等图像格式,并且能够扩展支持众多的插件(plug-1ns)。另外,许多浏览器还支持其他的URL类型及其相应的协议,如FTP、Gopher、HTTPS (HTTP协议的加密版本)。HTTP内容类型和URL协议规范允许网页设计者在网页中嵌入图像、动画、视频、声音、流媒体等。目前,浏览器解析HTML文档的过程包括步骤101、将嵌套的一系列HTML标签解析为一颗文档树,即文档对象模型DOM(Document Object Model)树。DOM可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构。换句话说,这是表示和处理一个HTML或可扩展标记语言(XML)文档的常用方法。有一点很重要,DOM的设计是以对象管理组织(OMG)的规约为基础的,因此可以用于任何编程语言。最初人们把它认为是一种让JavaScript在浏览器间可移植的方法,不过DOM的应用已经远远超出这个范围。DOM技术使得用户页面可以动态地变化,如可以动态地显示或隐藏一个元素,改变它们的属性,增加一个元素等,DOM技术使得页面的交互性大大地增强。DOM实际上是以面向对象方式描述的文档模型。DOM定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系。可以把DOM认为是页面上数据和结构的一个树形表示,不过页面当然可能并不是以这种树的方式具体实现。DOM树描述了页面上各个元素之间的层级关系和顺序。例如,针对以下HTML文档,浏览器将该HTML文档解析成如附图说明图1所示的一颗DOM树。本文档来自技高网...

【技术保护点】
一种标记语言文档的处理方法,其特征在于,包括:将标记语言文档解析为文档对象模型DOM树,将所述DOM树转换为二进制文件并保存;需打开所述标记语言文档时,将该标记语言文档对应的二进制文件还原成DOM树,根据所还原的DOM树渲染出网页。

【技术特征摘要】
1.一种标记语言文档的处理方法,其特征在于,包括将标记语言文档解析为文档对象模型DOM树,将所述DOM树转换为二进制文件并保存;需打开所述标记语言文档时,将该标记语言文档对应的二进制文件还原成DOM树,根据所还原的DOM树渲染出网页。2.根据权利要求1所述的方法,其特征在于,所述将所述DOM树转换为二进制文件的具体方法为在浏览器内存中以连续数据结构的形式表示解析后的所述DOM树;按照浏览器内存中所述DOM树的连续数据结构顺序,把每个节点的信息逐个顺序地保存到一个二进制文件中;其中当节点中存在指针时,则把指针保存为节点在磁盘文件中的偏移量。3.根据权利要求2所述的方法,其特征在于,所述将二进式文件还原成DOM树的具体方法为顺序读取所述二进制文件中的每个节点信息,直接对每个节点信息分配内存块,还原为连续数据结构形式,同时将偏移量信息转换为对应的内存地址。4.根据权利要求1所述的方法,其特征在于,在需打开标记语言文档时,进一步包括: 判断本地是否保存该标记语言文档对应的二进制文件,如果是,则将该标记语言文档对应的二进制文件还原成DOM树,根据所还原的DOM树渲染出网页;否则,将所述标记语言文档解析为DOM树,根据该DOM树渲染出网页,并将该DOM树转换为二进制文件并保存。5.根据权利要求1所述的方法,其特征在于,该方法进一步包括计算标记语言文档的 MD5值,以该MD5值作为该标记语言文档对应的所述二进制文件的文件名。6.根据权利要求1所述的方法,其特征在于,在所述标记语言文档中包括资源文件时, 则进一步将所述资源文件的内容顺序追加到所述二进制文件中。7.—...

【专利技术属性】
技术研发人员:张富春
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1