本申请公开了用于多版本Web文档的Web服务器。一种可经网络访问并对第一文档定位符标识的文档的存储副本具有访问权的仓库服务器,包括:文档登记器,接收文档的第一文档定位符并通过使用第一文档定位符经网络从另一个服务器提取文档的副本、将副本存储在仓库服务器可访问的存储器中、计算仓库服务器中的存储副本与其他存储副本之间的相似性来对此响应,相似性将有关存储副本的结构和内容信息都纳入考虑,将存储副本与相似的其他存储副本关联,并为副本制作第一标识符;以及登记文档提供器,当在仓库服务器中从客户机接收到第一标识符时通过提供与接收到的标识符所指定的存储副本相关的相似存储副本的第二标识符列表来进行响应。
【技术实现步骤摘要】
本专利技术一般涉及因特网,更具体地说涉及访问和跟踪可经因特网访问的内容的问题。
技术介绍
通过因特网的HTTP协议使之成为可能的因特网以及具体来说的WWW在我们访问 信息的方式上呈现变革性的发展。图1示出WWW123提供的信息访问系统101如何观察具 有Web浏览器和用于永久存储数据的硬盘驱动器129的计算机127的用户。此类系统称为 Web客户端125。除了 Web客户端125外,系统101还包括可经WWW 123访问的Web服务器 111。如有关Web服务器111 (a)的详细图示,Web服务器包括处理器113 (a)和含有可经Web 访问的文档121的数据存储器119(a)。这些文档在下文中称为Web文档。Web文档121可 以包含任何类型的信息或多种类型信息的混合;例如它可以是图像或音频文件以及文本文 档。为了访问WffW上的文档,客户端125中的Web浏览器的用户向Web 123提供该Web 文档的URL(统一资源定位符)。Web 123将URL路由到Web服务器111 (i),该Web服务器 lll(i)包含URL指定的Web文档。Web服务器lll(i)通过将指定的Web文档经Web提供到 Web客户端125来响应该URL。浏览器然后显示该Web文档。Web文档通常包含至其他Web 文档的链接,即URL。当用户通过单击这些链接的其中之一来选择它时,浏览器将URL提供 到Web 123,如刚才所述由驻留该Web文档的Web服务器将Web文档提供到Web客户端。123处示出了一个示范URL。URL具有三个主要的部分协议105,它指定将用于检 索Web文档的因特网协议,在此情况中为WWW中使用的http协议;主机名107,它指定存储 Web文档的Web服务器111 (i);以及Web页面源信息109,它指定要如何定位Web文档或以 其他方式在Web服务器111 (i)产生Web文档。在示范URL 103中,Web页面源信息109是 “路径名”,它指示如何在Web服务器111 (i)可访问的文件系统中定位Web文档;在其他URL 中,Web页面源信息109可以指定查询数据库来定位Web文档的程序或即时地构造整个或部 分Web文档的程序。在Web服务器111 (a)中通过执行源信息解释代码117 (a)来解释Web 页面源信息109。如下是URL的完整语法<协议名> //<主机名 > 〈端口号>/<路径名> ? <参数列表><协议名 >、< 主机名 > 和 < 路径名 > 均已解释;〈端口号〉指定Web服务器111 (a) 监听Web页源信息109指定的信息所在的端口 ;广泛使用的协议(如HTTP协议)的应用程 序具有URL中未指定端口号的情况下客户端125为该协议提供的缺省端口号。< 参数列表 >是源信息解释代码117解释的参数的列表;这些参数可以指定要执行的程序和用于该程序的数据参数。该参数列表由一个或多个以&字符分隔的参数名-参数值对组成。<参数名 > = < 参数值1 . . &<参数名 > = < 参数值>无论何时,只要将Web客户端125连接到提供对WWW 123访问的物理网络,Web客 户端125此时就可以访问处于工作状态的任何Web服务器111。因为大多数Web服务器持 续工作,所以经WWW可获取的大多数信息在任何时间任何地点都是可获取的。因此,Web用 户往往不复制他们在Web客户端125中检索到的信息;而是将含有该信息的Web文档的URL 保存在感兴趣URL列表131中。此类列表的一个示例是大多数Web浏览器提供的“收藏夹” 或“书签”列表。当用户希望再次访问信息时,用户只需单击收藏夹列表中的URL,由此将 URL提供到浏览器。保存URL而不是它们引用的Web文档存在优缺点。二者都来自WWW的动态特性。 URL不是Web文档的图书馆卡编目号。图书的图书馆卡编目号唯一地标识图书的特定版本。 如果出新版本的图书,则它得到新的图书馆卡编目号。新的卡编目号将与其他版本的编号 相似,因为两个版本将以相同方式分类,但是将不会与其他版本的编号完全相同。因为每个 版本拥有各自的图书馆卡编目号,所以抄写下特定版本的卡编目号的读者十年后将该编号 呈交给拥有该版本的图书馆,将得到该版本。与之相比,URL仅标识Web服务器111 (i)和该服务器响应Web页源信息将返回的 Web文档。没有任何保证可确保该URL指定的服务器将是可用的甚至仍存在,也无法保证服 务器将返回的Web文档与客户端保存该URL时所显示的文档相同。实际返回什么完全取决 于服务器。这种安排的优点在于服务器一般返回的是该Web文档的最近版本。对于例如包 含天气预报或股市报价的许多Web文档,这的确是所需要的。其缺点在于Web文档的较旧 版本不再可通过URL访问,并完全不可访问。当前可访问的Web文档与较旧版本具有什么 关系常常也是不明确的。这样导致困难的一个问题是软件的文件。越来越多地,软件制造 商通过WWW提供此类文件;如果该文件的URL指定软件的当前版本,则完全没有给拥有较旧 版本的用户留下文件。Web浏览器127的用户需要解决此问题的唯一方式是在他的Web客 户端中保存文件的本地版本。这样做,用户当然丧失Web最重要的一个优势能够保存URL 而不是副本。解决该问题的一个尝试是建立Web归档服务,例如mm. archive, org中可得到的。 此类服务有通用档案所存在的所有问题它们都很巨大,但是常常没有个人所需要的,人们 通常很少或不输入档案要保存什么。此外,Web客户端可访问的大量信息并非公众可获取 的,因此将不通过归档服务归档。这种情况出现在Web服务器位于防火墙后面,该防火墙将 公众因特网与所说的内联网隔开,该内联网利用因特网但是仅对该内联网所属组织已知的 Web客户端可访问。因此,该服务器可被也在该防火墙后面或对于防火墙是已知的Web客户 端访问,但是对于一般的Web客户端不可访问。此类内联网是目前组织内通信的首选方式 的其中之一。本文公开的本专利技术的目的在于提供用于克服通过URL访问其文档的上述问题的 技术。
技术实现思路
本专利技术的目的通过仓库(r印ository)服务器来实现,该仓库服务器提取文档URL指定的文档,将该文档的副本存储在仓库服务器,并向仓库服务器提供存储副本的URL,Web 客户端可使用该URL来提取存储副本。仓库服务器使存储副本与该文档的文档URL相关, 并且与存储副本在仓库服务器中的标识符相关。仓库服务器因此可以包含特定文档URL表 示的多个版本的文档的存储副本,同时每个存储副本对应于一个唯一的仓库服务器URL。仓 库还为存储副本创建指纹。指纹是存储副本的小编码版本,它保存表征存储副本的结构和 内容的信息。指纹是可比较的,用于确定一对文档的相似度。将每个存储副本的指纹与仓 库中存储副本相关联,仓库还将与给定存储副本相似的其他存储副本的列表与该给定存储 副本相关联。由提供到仓库服务器的客户端的页面组成的用户界面允许客户端的用户登记文 档,本文档来自技高网...
【技术保护点】
一种可经网络访问并对第一文档定位符标识的文档的存储副本具有访问权的仓库服务器,所述仓库服务器包括:文档登记器,接收文档的第一文档定位符并通过使用所述第一文档定位符经所述网络从另一个服务器提取所述文档的副本、将所述副本存储在所述仓库服务器可访问的存储器中、计算所述仓库服务器中的所述存储副本与其他存储副本之间的相似性来对此响应,所述相似性将有关所述存储副本的结构和内容信息都纳入考虑,将所述存储副本与相似的其他存储副本关联,并为所述副本制作第一标识符;以及登记文档提供器,当在所述仓库服务器中从客户机接收到所述第一标识符时通过提供与接收到的标识符所指定的存储副本相关的相似存储副本的第二标识符列表来进行响应。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:Z吴,
申请(专利权)人:甲骨文国际有限公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。