利用异步数据词典在多租户共享的基础设施中的基于流的重复数据删除制造技术

技术编号:10784324 阅读:73 留言:0更新日期:2014-12-17 11:40
在多租户共享的基础设施中提供基于流的重复数据删除,而不需要具有同步的数据词典的“配对的”端点。在此方法中,由重复数据删除功能处理的数据对象被当做可以根据需要取得的对象对待。因为压缩的对象被仅仅当做对象对待,所以解码对等方不需要维护对于源对称的库。相反地,如果对等方在高速缓存中不具有它需要的组块,则它遵循传统的内容递送网络(CDN)程序以检索它们。以这种方式,如果发送和接收对等方对之间的词典不同步,则相关的部分被按需重新同步化。该方法不要求在特定对发送和接收对等方处保持的库是相同的。相反地,该技术能够使得对等方实际上在空闲时“回填”它的词典。

【技术实现步骤摘要】
【国外来华专利技术】利用异步数据词典在多租户共享的基础设施中的基于流的重复数据删除本申请基于并要求2012年5月17日提交的序列号No.61/648,209的优先权。
本申请一般涉及通过网络的数据通信。
技术介绍
分布式计算机系统在现有技术中是公知的。一个这样的分布式计算机系统是通常由服务提供者操作并管理的“内容递送网络”或“CDN”。服务提供者通常代表使用服务提供者的共享基础设施的第三方(用户)提供内容递送服务。此类型的分布式系统有时被称为“覆盖网络”并且通常是指由网络或网络链接在一起的独立计算机与软件、系统、协议和技术的集合,所述技术被设计以便于各种服务,诸如内容递送、网络应用加速、或外包源站点基础设施的其它支持。CDN服务提供者通常经由数字资产(诸如网站)提供服务递送,其被提供在用户门户中并且然后被布置到网络。数据差异化是在服务器与客户端之间利用资源的共享先前实例,在压缩术语中也称为共享词典之内的数据版本,的公知的技术和方法;所述处理通过仅仅发送差异或自从那些先前实例以来出现的改变而工作。数据差异化涉及压缩,但是它是稍微有差别的构思。具体地,直观地,差异(“diff””)是一种压缩形式。只要接收者与发送者具有相同的初始文件,那些发送者可以给接收者diff而不是整个新文件。diff实际上说明如何从旧文件创建新文件。它通常远小于整个新文件并且因此是一种压缩形式。文档的第一版本与前述文档的第二版本之间的diff是数据差异;数据差异是利用文档的第一版本作为预设词典的文档的第二版本的压缩结果。基于流的重复数据删除(“重复数据删除”)系统在现有技术中也是公知的。一般,基于流的重复数据删除系统通过检查流过连接的发送对等方的数据和用指到每个对等方关于给定块已经同步的共享词典中的参考来替换数据块进行工作。引用本身远小于数据并且通常是它的散列或指纹。当接收对等方接收修改的流时,它利用原始数据替换引用以再一次做出整个流。例如,考虑一个系统,其中指纹是用单个字母变量表示的唯一散列。发送对等方的词典然后可以如图3所示。接收对等方的词典可以如图4所示。然后,例如,如果发送对等方被认为发送诸如“Hello,howareyou?AkamaiisAwesome!”之类的串,则重复数据删除系统将处理数据并且发送以下消息:“He[X]reyou?[T][M]ome!”。接收对等方利用它的词典解码消息。注意,在此示例中,发送对等方并不利用引用[O]替换“ome!”。这是因为,虽然发送对等方具有指纹和在它的高速缓存中存储它的块,但是对等方知道(通过机制)接收对等方并不具有。因此,发送对等方在发送它之前不在消息中插入引用。此类型的系统通常以若干公知方式填充是对称的词典。在一个方法中,当数据流流过数据处理器时以固定长度的块(例如,每块具有15个符号的长度)填充词典。第一次数据经过发送和接收对等方时,并且假定它们都以同样的方式构成词典,则两个对等方以具有包含相同的条目的词典终止。但是,此方法不是最优的,因为它常遭受被称为“偏移”问题的问题,其可以不利地影响生成的指纹并且破坏整个方案。可替换方法利用以滚动方式计算的散列使用可变长度的块。在基于被称为Rabin指纹技术的公知的解决方案中,系统在指纹处理期间跨数据流滑过特定大小(例如,48字节)的窗口。在Muthitacharoen等的标题为“ALow-BandwidthNetworkFileSystem”(LBFS)的论文中描述该技术的实施方式,并且结果实现可变大小的抗偏移块。当前供应基于流的重复数据删除产品和服务的厂家通过配对设备解决词典发现的问题(知道什么信息处于对等方的词典中)。因此,例如,电器/盒子厂家依赖于在每个末端上的一对设备或处理以彼此通信以维护让每个端知道什么引用存在于配对的对等方中的表。但是,这类解决方案仅仅在处理表示“路径中”对的各个盒子与单元时工作。但是,路径中配对的解决方案在诸如CDN之类的覆盖网络的背景中是不实际的,其中节点的分布更接近地类似树。因此,例如,在代表性的实施方式中,并且参考特定源服务器(或,一般地说,“租户”位于“根”处),覆盖网络可以具有更接近于根的父层服务器,和更接近于叶节点的客户端边缘服务器。换句话说,替换需要知道一个或多个对等方盒子(诸如在公知的盒子厂家解决方案中)的小集合的盒子,父层服务器可以需要与数十、数百乃至数千的边缘区域联系,每个都可能包含许多服务器。在这个背景下,每个机器表不能衡量。因此,仍然需要提供在覆盖网络背景中用于重复数据删除的增强的技术。
技术实现思路
互联网基础设施递送平台(例如,由服务提供者操作的)提供覆盖网络(“多租户共享基础设施”)。特定租户具有关联的源。根据此公开,接近租户源的一个或多个覆盖网络服务器安装有提供重复数据删除的重复数据删除引擎。这些服务器是用于该源的重复数据删除高速缓存父代,因为它们接收来自于覆盖网络高速缓存子代,通常位于靠近终端用户接入网络的边缘服务器,的请求。边缘服务器也包括重复数据删除引擎。当对源内容的请求从覆盖网络边缘服务器到达时,请求被经由用于源的重复数据删除高速缓存父代路由。高速缓存父代检索内容(或许从源)并且然后执行传统的重复数据删除操作。具体地,高速缓存父代首先针对源查找它的“库”(或“词典”)并且看它是否可以通过用已被分派给它已经看见的字节组块的名称替换那些组块来进行压缩对象。此操作以公知的方式“压缩”对象。高速缓存父代然后将压缩的对象发送到覆盖网络边缘服务器,其中它由边缘服务器重复数据删除引擎处理。但是,在此递送环外,重复数据删除高速缓存父代也处理对象以存储新看见的字节组块,并且把新的组块输入到它维护的库(或“词典”)中。当在覆盖网络边缘服务器处接收到压缩的流时,边缘服务器通过寻找由名称(或“指纹”)替换的组块来处理压缩流,并且然后利用指纹作为到它自己词典中的关键字来检索原始的块。如果边缘服务器在高速缓存中不具有它需要的组块,则它遵循传统的CDN方法以检索它们(例如,经由高速缓存分层结构等),必要时最终从重复数据删除高速缓存父代检索它们。因此,如果发送和接收对等方对之间的词典不同步,则相关的部分按需被重新同步。该方法不需要(或需要保证)在一对特定发送和接收对等方处保持的库是相同的(即,同步的)。相反,该技术使得对等方实际上能够与实际事务相关联地在空闲时“回填(backfill)”它的词典。此方法是高度可升级的,并且它对于任何类型的内容,并且通过任何类型网络工作。上文已经概述本主题的一些更多相关特征。这些特征应当被解释为仅仅说明性的。可以通过以不同的方式应用公开的主题或通过修改将描述的主题获得许多其它有利的结果。附图说明为了更完全地理解本主题和它的优点,现在结合附图参考以下描述,其中:图1是示出了配置为内容递送网络(CDN)的公知的分布式计算机系统的方框图;图2是代表性的CDN边缘机器配置;图3是在数据差异化处理中发送对等方词典;图4是在数据差异化处理中接收对等方词典;图5是用于实施此公开的异步数据词典方法的示范性广域网(WAN)结构;以及图6是在覆盖网络和客户私有网络之内实施的具体实施例。具体实施方式图1示出了由这里的技术扩展(如下面描述的)的公知的分布式计算机系统。在公知的系统中,诸如图1所示,分本文档来自技高网
...
利用异步数据词典在多租户共享的基础设施中的基于流的重复数据删除

【技术保护点】
一种重复数据删除系统,包括:发送对等方实体,包括第一词典和处理器执行的程序代码,该处理器执行的程序代码操作以通过检查流过发送对等方实体的数据并且利用指向第一词典的引用替换数据块,来提供基于流的重复数据删除;接收对等方实体,包括第二词典和处理器执行的程序代码,第二词典的内容不需要与第一词典的内容同步,该处理器执行的程序代码操作以通过检查流过接收对等方实体的数据并且利用指向第二词典的引用替换所述数据的块,来提供基于流的重复数据删除;以及一机构,其使得接收对等方实体识别并且获得接收对等方实体需要执行重复数据删除操作的一个或多个数据组块。

【技术特征摘要】
【国外来华专利技术】2012.05.17 US 61/648,209;2013.05.17 US 13/896,0661.一种重复数据删除系统,包括:发送对等方实体,包括第一词典和处理器执行的程序代码,该处理器执行的程序代码操作以通过检查流过发送对等方实体的数据并且利用指向第一词典的引用替换数据块,来提供基于流的重复数据删除;接收对等方实体,包括第二词典和处理器执行的程序代码,第二词典的内容不需要与第一词典的内容同步,该处理器执行的程序代码操作以通过检查流过接收对等方实体的数据并且利用指向第二词典的引用替换所述数据的块,来提供基于流的重复数据删除;以及一机构,其使得接收对等方实体识别并且获得接收对等方实体需要执行重复数据删除操作的一个或多个数据组块。2.如权利要求1所述的重复数据删除系统,其中所述一个或多个数据组块是从发送对等方实体获得的。3.如权利要求1所述的重复数据删除系统,其中数据组块是利用以下中的一个获得的:磁URI、以及由发送对等方和接收对等方商定的请求-响应协议。4.如权利要求1所述的重复数据删除系统,其中数据组块是可高速缓存的网络对象。5.如权利要求1所述的重复数据删除系统,其中发送对等方实体和接收对等方实体与多租户共享的基础设施相关联。6.如权利要求1所述的重复数据删除系统,其中发送对等方实体包括用于处理所述一个或多个数据块的机构。7.如权利要求1所述的重复数据删除系统,其中第二词典的内容被按需重新同步化到第一词典的内容。8.一种在包括发送对等方和接收对等方的覆盖网络中操作的方法,发送对等方与租户源相关联,并且接收对等方与覆盖网络边缘相关联,所述方法包括:与发送对等方相关联地维护第一词典;与接收对等方相关联地维护第二词典;通过检查流过发送对等方和接收对等方的数据并且利用指向第一词典和第二词典的引用替换所述数据的块来提供基于流的重复数据删除,所述基于流的重复数据删除是利用在发送对等方和接收对等方中的硬件元件上执行的软件执行的;跨第一词典和第二词典实行一协议,其中,根据该协议,发送对等方假定:如果发送对等方具有给定数据块,则接收对等方具有所述给定数据块,反之亦然,不管接收对等方是否实际上在第二词典中具有所述...

【专利技术属性】
技术研发人员:C·E·格罗F·T·雷赫顿A·F·彻姆帕格内
申请(专利权)人:阿卡麦科技公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1