System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
1、数据湖(data lake)可与包含非管理数据(unmanaged data)的储存库相对应,而数据仓库(data warehouse)可与包含受管理数据(managed data)的储存库相对应。对于旨在统一数据湖和数据仓库的云存储系统,数据仓库无法控制存储在数据湖中的非管理数据的生命周期。例如,非管理数据可随时被添加或删除,而无需通过数据仓库进行处理。因为数据仓库无法控制存储在数据湖中的非管理数据的生命周期,所以数据仓库必须详尽列出所有文件以检索非管理数据以供查询执行,这可能会延迟查询的处理。
技术实现思路
1、本公开的方面涉及利用元数据高速缓存将数据仓库特征扩展到数据湖。元数据高速缓存可通过直接访问来自数据湖中的非管理数据而不是将数据加载到数据仓库中来加速查询处理。由于元数据高速缓存可包含用于访问非管理数据的相关元数据,因此数据仓库不再需要详尽列出所有文件。在一些方面,元数据高速缓存允许过滤非管理数据以改进检索用于执行查询的数据的速度。
2、本公开的方面提供一种用于处理查询的方法,该方法包括:由一个或多个处理器接收来自查询引擎的用于访问来自数据湖的一个或多个云存储表中的非管理数据的请求;由一个或多个处理器过滤一个或多个云存储表以查找用于处理查询的数据文件集,其中,查找数据文件集使用存储在元数据高速缓存中的信息;以及由一个或多个处理器从数据文件集中检索非管理数据。
3、在示例中,非管理数据包括可由最终用户直接操纵而不受查询引擎控制的数据。
4、在又另一个示例中,存储在元数据高速缓存中的信息包括驻留在数据湖中的数据文件的标识和数据文件所属的一个或多个云存储表中的表。在又另一个示例中,存储在元数据高速缓存中的信息包括关于数据文件集的统计数据(statistics),并且该方法还包括:由一个或多个处理器使用存储在元数据高速缓存中的信息来确定数据文件集具有特定模式(schema);以及由一个或多个处理器基于特定模式和关于数据文件集的统计数据来过滤数据文件集。在又另一个示例中,存储在元数据高速缓存中的信息包括历史信息,并且过滤一个或多个云存储表还包括使用存储在元数据高速缓存中的历史信息来访问云存储表的先前状态。
5、在又另一个示例中,该方法还包括由一个或多个处理器通过列出一个或多个云存储表中的所有数据文件来生成元数据高速缓存。在又另一个示例中,该方法还包括:由一个或多个处理器接收从一个或多个云存储表添加、更新或删除一个或多个云存储表的数据文件的通知;以及由一个或多个处理器基于通知来更新元数据高速缓存。在又另一个示例中,该方法还包括:由一个或多个处理器列出自从元数据高速缓存的先前更新以来添加、更新或删除的文件;以及由一个或多个处理器作为处理查询的一部分基于列出来更新元数据高速缓存。
6、在又另一个示例中,云存储表驻留在不同的云存储平台的不同云中。在又另一个示例中,该方法还包括由一个或多个处理器基于元数据高速缓存的可配置陈旧性(staleness)来确定非管理数据对于查询引擎是可见的。
7、本公开的另一个方面提供一种系统,该系统包括:一个或多个处理器;以及一个或多个存储装置,该一个或多个存储装置耦合到一个或多个处理器并存储指令,该指令在由一个或多个处理器执行时使一个或多个处理器执行用于处理查询的操作,该操作包括:接收来自查询引擎的用于访问来自数据湖的一个或多个云存储表中的非管理数据的请求;过滤一个或多个云存储表以查找用于处理查询的数据文件集,其中,查找数据文件集使用存储在元数据高速缓存中的信息;以及从数据文件集中检索非管理数据。
8、在示例中,非管理数据包括可被直接操纵而不受查询引擎控制的数据。
9、在另一个示例中,存储在元数据高速缓存中的信息包括驻留在数据湖中的数据文件的标识和数据文件所属的一个或多个云存储表中的表。在又另一个示例中,存储在元数据高速缓存中的信息包括关于数据文件集的统计数据,并且该操作还包括:使用存储在元数据高速缓存中的信息来确定数据文件集具有特定模式;以及基于特定模式和关于数据文件集的统计数据来过滤数据文件集。在又另一个示例中,存储在元数据高速缓存中的信息包括历史信息,并且过滤一个或多个云存储表还包括使用存储在元数据高速缓存中的历史信息来访问云存储表的先前状态。
10、在又另一个示例中,该操作还包括:接收从一个或多个云存储表添加、更新或删除一个或多个云存储表的数据文件的通知;以及基于通知来更新元数据高速缓存。在又另一个示例中,该操作还包括:列出自从元数据高速缓存的先前更新以来添加、更新或删除的文件;以及作为处理该查询的一部分基于列出来更新元数据高速缓存。
11、本公开的又另一个方面提供一种非暂时性计算机可读介质,该非暂时性计算机可读介质用于存储指令,该指令在由一个或多个处理器执行时使一个或多个处理器执行用于处理查询的操作,该操作包括:接收来自查询引擎的用于访问来自数据湖的一个或多个云存储表中的非管理数据的请求;过滤一个或多个云存储表以查找用于处理查询的数据文件集,其中,查找数据文件集使用存储在元数据高速缓存中的信息;以及从数据文件集中检索非管理数据。
本文档来自技高网...【技术保护点】
1.一种用于处理查询的方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述非管理数据包括具有不受所述查询引擎控制的生命周期的数据。
3.如权利要求2所述的方法,其特征在于,所述非管理数据被操纵而无需通过数据仓库进行处理。
4.如权利要求1至3中的一项所述的方法,其特征在于,还包括由所述一个或多个处理器将所述非管理数据提供给查询引擎以处理所述查询。
5.如权利要求1至4中的一项所述的方法,其特征在于,存储在所述元数据高速缓存中的所述信息包括驻留在所述数据湖中的数据文件的标识和所述数据文件所属的所述一个或多个云存储表中的表。
6.如权利要求1至5中的一项所述的方法,其特征在于,存储在所述元数据高速缓存中的所述信息包括关于所述数据文件集的统计数据,并且所述方法还包括:
7.如权利要求1至6中的一项所述的方法,其特征在于,存储在所述元数据高速缓存中的所述信息包括历史信息,并且过滤所述一个或多个云存储表还包括使用存储在所述元数据高速缓存中的所述历史信息来访问所述云存储表的先前状态。
8.如
9.如权利要求1所述的方法,其特征在于,还包括:
10.如权利要求1至9中的一项所述的方法,其特征在于,还包括:
11.如权利要求1至10中的一项所述的方法,其特征在于,所述云存储表驻留在不同的云存储平台的不同云中。
12.如权利要求1至11中的一项所述的方法,其特征在于,还包括由所述一个或多个处理器基于所述元数据高速缓存的可配置陈旧性来确定所述非管理数据对所述查询引擎可见。
13.一种系统,其特征在于,包括:
14.如权利要求13所述的系统,其特征在于,所述非管理数据包括能够被直接操纵而不受所述查询引擎控制的数据。
15.如权利要求13或14所述的系统,其特征在于,存储在所述元数据高速缓存中的所述信息包括驻留在所述数据湖中的数据文件的标识和所述数据文件所属的所述一个或多个云存储表中的表。
16.如权利要求13至15中的一项所述的系统,其特征在于,存储在所述元数据高速缓存中的所述信息包括关于所述数据文件集的统计数据,并且所述操作还包括:
17.如权利要求13至16中的一项所述的系统,其特征在于,存储在所述元数据高速缓存中的所述信息包括历史信息,并且过滤所述一个或多个云存储表还包括使用存储在所述元数据高速缓存中的所述历史信息来访问所述云存储表的先前状态。
18.如权利要求13至17中的一项所述的系统,其特征在于,所述操作还包括:
19.如权利要求13至18中的一项所述的系统,其特征在于,所述操作还包括:
20.一种非暂时性计算机可读介质,其特征在于,所述非暂时性计算机可读介质用于存储指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行用于处理查询的操作,所述操作包括:
...【技术特征摘要】
【国外来华专利技术】
1.一种用于处理查询的方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述非管理数据包括具有不受所述查询引擎控制的生命周期的数据。
3.如权利要求2所述的方法,其特征在于,所述非管理数据被操纵而无需通过数据仓库进行处理。
4.如权利要求1至3中的一项所述的方法,其特征在于,还包括由所述一个或多个处理器将所述非管理数据提供给查询引擎以处理所述查询。
5.如权利要求1至4中的一项所述的方法,其特征在于,存储在所述元数据高速缓存中的所述信息包括驻留在所述数据湖中的数据文件的标识和所述数据文件所属的所述一个或多个云存储表中的表。
6.如权利要求1至5中的一项所述的方法,其特征在于,存储在所述元数据高速缓存中的所述信息包括关于所述数据文件集的统计数据,并且所述方法还包括:
7.如权利要求1至6中的一项所述的方法,其特征在于,存储在所述元数据高速缓存中的所述信息包括历史信息,并且过滤所述一个或多个云存储表还包括使用存储在所述元数据高速缓存中的所述历史信息来访问所述云存储表的先前状态。
8.如权利要求1至7中的一项所述的方法,其特征在于,还包括由所述一个或多个处理器通过列出所述一个或多个云存储表中的所有数据文件来生成所述元数据高速缓存。
9.如权利要求1所述的方法,其特征在于,还包括:
10.如权利要求1至9中的一项所述的方法,其特征在于,还包括:
11.如权利要求1至10中的一项所述的方法,其特征在...
【专利技术属性】
技术研发人员:蒂博·霍特莱,阿努普·科丘门·约翰逊,贾斯汀·莱万多斯基,迪帕克·乔杜里·内特姆,尤里·沃洛布耶夫,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。