数据存储方法和系统技术方案

技术编号:3507142 阅读:128 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种用于根据可选择的服务级别在计算机系统的对等网络中存储数据文件的方法和计算机系统。每个计算机系统都以一组服务级别中的某一服务级别来提供存储服务,所述方法包括以这样的方式将来自度量空间的相应伙伴标识符指派给每个所述计算机系统;在以相同服务级别提供存储的计算机系统的伙伴标识符之间的距离小于在以不同服务级别提供存储的计算机系统的伙伴标识符之间的距离。

【技术实现步骤摘要】

本专利技术涉及计算机系统和方法领域,更具体地说,涉及但不限于数据存储领域。
技术介绍
几乎世界上的每个公司都会面对以具有成本效益的方式以及适当的安全级别、可用性和响应时间来存储、检索和管理数据的挑战。虽然对于各种数据,大型数据库是唯一有意义的技术,但是对于相当多的数据集来说,利用公司内的客户机和服务器上可用的未使用存储空间似乎更有吸引力。在其中计算机系统被连接到集中协调的计算网格的情况(例如在欧洲粒子物理研究所的大型强子对撞机项目)中已进行了最初的尝试。在因特网上,完全分散的对等体系结构通过其用于诸如Gnutella系统之类的文件共享应用而获得了知名度。如今,大量算法和程序可用于在对等网络中拆分、存储和检索数据,并且在大型公司内使用这些技术来以具有成本效益的方式利用现有服务器或客户机上的可用存储空间来存储和检索数据似乎很有吸引力。以下是一些可用的算法Chord/DHash(http//pdos.csail.mit.edu/papers/chordsigcomm01/chord_sigcom.pdf)、CAN(http//www.icir.org/sylvia/thesis.ps)、Pastry(http//www.cs.rice.edu/~druschel/publications/Pastry.pdf)、Tapestry(http//www.cs.berkeley.edu/~ravenben/publications/CSD-01-1141.pdf)以及Kademlia(http//www.cs.rice.edu/Conferences/IPTPS02/109.pdf)。由上述算法实现的所有对等网络的共同特性是将来自地址空间的唯一伙伴标识符指派给网络中的每个计算机系统,并将来自同一地址空间的唯一数据标识符指派给存储在网络中的每个数据对象。所述地址空间是一个度量空间,是其中定义了集合元素之间的距离概念的集合。所述地址空间的拓扑以及计算所述距离的方式随可用算法而变。对于每个数据对象,具有到该数据对象的数据标识符的最短距离的标识符的伙伴被选择作为存储位置。所述伙伴标识符通常被构造为诸如SHA-1之类的散列函数的值,采用诸如所述对等计算机系统的IP或MAC地址之类的任意唯一属性作为输入。数据对象的数据标识符相应地被计算为散列函数的值,采用所述数据对象的唯一属性(例如其二进制内容)作为输入。在由上述算法之一实现的对等网络中,通过将所搜索的数据对象的数据标识符与某一对等计算机系统的伙伴标识符逐位比较来检索已存储的数据对象。如果所述对等计算机系统并不拥有所搜索的数据对象的副本,但是知道具有比其自己的伙伴标识符更接近所搜索的数据标识符的伙伴标识符的其他对等计算机系统,则对所述数据对象的查询被传递到该其他计算机系统。这将一直重复,直到查询到达拥有所述数据对象的副本的对等计算机系统,并且所述数据对象被检索为止。为了在一个或多个对等计算机系统出现故障的情况下防止数据对象的丢失,多数对等算法冗余地存储数据对象。在最简单的方法中,存储每个数据对象的预定数量的副本。在某些情况下,使用旨在平衡资源利用并获得安全受益的所谓的信息分散算法。微软研究所的Farsite(http//research.microsoft.com/research/sn/Farsite/OSDI2002.pdf)是一种逻辑地用作集中式文件服务器但是物理地分布在一组不受信任的计算机之间的安全、可伸缩文件系统。Farsite通过随机化的重复的存储设备提供了文件可用性和可靠性;它使用密码技术来确保文件内容的保密性;它使用Byzantine容错协议来维护文件和目录数据的完整性;它被设计成通过使用分布式提示机制和用于路径名称转换的授权证书来成为可伸缩的;并且它通过本地缓存文件数据、缓慢传播文件更新以及改变内容租借的持续时间和粒度来获得性能。HiveCache(http//wtc-sf.org/IT%20Venture%20Series%20Companies.html,http//www.hivecache.com)提供了对等分布式存储技术,它将企业的个人计算机上未使用的存储聚合成共享网络,以便向企业提供低成本的可靠而安全的存储。HiveCache的存储网向企业内的桌面和膝上型个人计算机提供了基于盘的备份/恢复服务,这使得用户能够恢复其自己的文件而无需呼叫IT人员以获得协助并且向IT人员提供了备份工具,该工具使用由桌面代理做出的基于策略的决策来维护存储网络并几乎没有管理开销。这些解决方案使用了由公司开发并在美国专利申请20010037311中描述的分布式资源分配机制、信誉工具以及安全分布式存储技术。分布式因特网备份系统(http//www.csua.berkeley.edu/~emin/source code/dibs)允许执行到伙伴的文件的增量备份并作为回报存储它们的文件。它包括伙伴查找器服务以便允许查找与之交换备份空间的伙伴。所述分布式因特网备份系统对所有数据传输进行加密以便与之交换文件的伙伴无法访问已备份的数据。
技术实现思路
根据本专利技术,提供了一种在计算机系统的对等网络中存储来自用户计算机系统的数据文件的方法。每个计算机系统都以一组服务级别中的相应提供的服务级别来提供存储服务。所述方法包括以这样的方式将来自度量空间的相应伙伴标识符指派给每个所述计算机系统在以相同服务级别提供存储的计算机系统的伙伴标识符之间的距离小于在以不同服务级别提供存储的计算机系统的伙伴标识符之间的距离。所述方法还包括选择所述服务级别组中的希望服务级别以便存储所述数据文件。从所述数据文件生成一个或多个数据对象,以这样的方式将来自所述度量空间的数据标识符指派给所述数据对象中的一个数据对象在所述数据对象中的所述一个数据对象的所述数据标识符与以所述希望服务级别提供存储的计算机系统的任何伙伴标识符之间的距离小于在所述数据对象中的所述一个数据对象的所述数据标识符与以不同于所述希望服务级别的服务级别提供存储的计算机系统的任何伙伴标识符之间的距离。然后,所述数据对象中的所述一个数据对象通过所述对等网络被路由到复制计算机系统,所述复制计算机系统具有伙伴标识符,该伙伴标识符比通过对等交互连接到所述复制计算机系统的其他计算机系统的任何伙伴标识符都接近所述数据对象中的所述一个数据对象的所述数据标识符。然后,所述数据对象中的所述一个数据对象被存储在所述复制计算机系统上。由于本专利技术允许根据定义的和有差异的服务级别来在对等网络中存储数据文件,所以本专利技术尤其具有优势。虽然现有的对等网络可以比常规的集中式客户机-服务器解决方案提供更有效的方式来归档、备份和恢复数据,但是借助本专利技术的优点,对等网络获得了是它们用作商业存储解决方案的前提条件的能力-在定义的服务级别管理协议。在企业中,每类将被存储的数据都具有针对例如可用性、响应时间或安全性的目标。本专利技术确保在这些目标的情况下发生数据的存储和检索。根据本专利技术的实施例,所述方法包括加密所述数据对象中的所述一个数据对象。这带来了额外的优点,那就是其中存储了所述数据对象中的所述一个数据对象的所述复制计算机系统的用户被阻止从所述数据对象中的所述一个数据对象读取或以其他方式提取本文档来自技高网
...

【技术保护点】
一种在计算机系统(200、400、402、404、406、408)的对等网络(410)中存储来自用户计算机系统(200)的数据文件的方法,每个计算机系统都以一组服务级别中的相应提供的服务级别(308)来提供存储服务,所述方法包括:. 以这样的方式将来自度量空间的相应伙伴标识符(320)指派给每个所述计算机系统:在以相同服务级别提供存储的计算机系统的伙伴标识符之间的距离小于在以不同服务级别提供存储的计算机系统的伙伴标识符之间的距离,.选择所述服务级别组中的希望服务 级别(304)以便存储所述数据文件,.从所述数据文件生成一个或多个数据对象(300),.以这样的方式将来自所述度量空间的数据标识符(318)指派给所述数据对象(300)中的一个数据对象:在所述数据对象中的所述一个数据对象的所 述数据标识符与以所述希望服务级别提供存储的计算机系统的任何伙伴标识符之间的距离小于在所述数据对象中的所述一个数据对象的所述数据标识符与以不同于所述希望服务级别的服务级别提供存储的计算机系统的任何伙伴标识符之间的距离,.将所述数据对象 中的所述一个数据对象通过所述对等网络路由到复制计算机系统(408),所述复制计算机系统(408)具有伙伴标识符,该伙伴标识符比通过对等交互连接到所述复制计算机系统的其他计算机系统(402、404、410)的任何伙伴标识符都更接近所述数据对象中的所述一个数据对象的所述数据标识符,以及.将所述数据对象中的所述一个数据对象存储在所述复制计算机系统上。...

【技术特征摘要】
...

【专利技术属性】
技术研发人员:B斯特布勒W埃德雷尔S凯尼格
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1