通常,接收数据结构中存储的记录的数字属性的值。生成包括数字属性的值的数字范围。在与数据结构相关联的索引(204)中存储条目,所述条目指定记录在数据结构内的位置并包括第一索引键(1006)和第二索引键(1008)。所述第一索引键(1006)对应于与数字属性不同的记录的属性的值,并且所述第二索引键(1008)对应于所生成的数字范围。
【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】通常,接收数据结构中存储的记录的数字属性的值。生成包括数字属性的值的数字范围。在与数据结构相关联的索引(204)中存储条目,所述条目指定记录在数据结构内的位置并包括第一索引键(1006)和第二索引键(1008)。所述第一索引键(1006)对应于与数字属性不同的记录的属性的值,并且所述第二索引键(1008)对应于所生成的数字范围。【专利说明】管理用于基于范围的搜索的数据的存储
本专利技术涉及管理用于基于范围的搜索的数据的存储。
技术介绍
数据库系统可以以各种格式的任一种分别存储可访问的数据单元或“记录”。每个记录可对应于诸如信用卡交易的逻辑实体,并且可以具有用于唯一标识所述记录的相关联的主键。记录可包括与记录格式的各个字段相关联的多个值。记录可以存储在一个或多个文件内(例如,平面文件或结构化数据文件,诸如XML文件)。在压缩数据库系统内,各个记录或记录内的值可以在存储时被压缩,并且在被访问时被解压缩,以便降低系统的存储需求。
技术实现思路
在一个方面,一般地,接收数据结构中存储的记录的数字属性的值。生成包括数字属性的值的数字范围。在与数据结构相关联的索引中存储条目,所述条目指定记录在数据结构内的位置并包括第一索引键和第二索引键。所述第一索引键对应于与数字属性不同的记录的属性的值,并且所述第二索引键对应于所生成的数字范围。各方面可包括以下特征的一个或多个。数字属性的值通过时间标记表示,并且数字范围定义时间的范围。生成数字范围包括:确定将对应于时间标记的时间与预定时间点分开的时间单位的第一值。数字范围是预定持续时间的时间范围,并且生成数字范围包括将第一值除以预定持续时间以提供表示数字范围的商。条目还指定数据结构内与第一索引键和第二索引键相关联的第二记录的位置。第一记录和第二记录包括通过不同时间标记表示的数字属性的值。接收请求检索与第一索引键相关联并与第一时间和第二时间之间的时间相关联的记录的查询。对于第一时间和第二时间生成各自的数字范围。生成各自的数字范围包括:确定将第一时间与第二预定时间点分开的时间单位的第二值;以及确定将第二时间与第二预定时间点分开的时间单位的第三值。生成各自的数字范围包括:将第二值除以预定持续时间以提供表示第一时间的数字范围的商;以及将第三值除以预定持续时间以提供表示第二时间的数字范围的商。标识索引内的条目,其包括第一索引键并包括第二索引键,所述第二索引键对应于等于第一时间的数字范围或第二时间的数字范围、或在第一时间和第二时间的各自的数字范围之间的数字范围。在另一总的方面,一种计算机可读存储介质存储包括用于使得计算系统执行以下步骤的指令的计算机程序:接收数据结构中存储的记录的数字属性的值,以及生成包括数字属性的值的数字范围。所述指令还使得计算机系统在与数据结构相关联的索引中存储条目,所述条目指定记录在数据结构内的位置并包括第一索引键和第二索引键,所述第一索引键对应于与数字属性不同的记录的属性的值,并且所述第二索引键对应于所生成的数字范围。在另一总的方面,一种计算系统,包括:输入设备或端口,配置为接收数据结构中存储的记录的数字属性的值。所述计算系统还包括至少一个处理器,配置为:生成包括数字属性的值的数字范围;以及在与数据结构相关联的索引中存储条目,所述条目指定记录在数据结构内的位置并包括第一索引键和第二索引键,所述第一索引键对应于与数字属性不同的记录的属性的值,并且所述第二索引键对应于所生成的数字范围。在另一总的方面,一种计算系统,包括:用于接收数据结构中存储的记录的数字属性的值的装置;以及用于编索引记录的装置。所述编索引包括:生成包括数字属性的值的数字范围;以及在与数据结构相关联的索引中存储条目,所述条目指定记录在数据结构内的位置并包括第一索引键和第二索引键,所述第一索引键对应于与数字属性不同的记录的属性的值,并且所述第二索引键对应于所生成的数字范围。各方面可包括以下优点的一个或多个。用于管理数据的存储和编索引的技术能够减少必须解压(如果记录压缩的话)、加载到存储器中和/或未能匹配给定查询而丢弃的记录量。在一些示例中,记录根据诸如时间的数字属性存储到组中(例如,如果记录对应于电话呼叫,则记录可以基于给定呼叫进行的时间而存储在表示单日呼叫的数据文件中)。可以对于每个存储的记录组而提供标识每个记录在各个数据文件内的位置的索引。在一些示例中,可以期望定位匹配查询中指定的参数的一个或多个记录。然而,如果查询中指定的参数之一与时间范围相关,则一些系统可能要求表示整日的数据文件被解压(如果数据文件压缩的话)、加载到存储器中并针对参数进行匹配,即使时间段仅仅是相对非常小的(例如,该日的十分钟)。因此,本公开提供了用于在包括数字范围(例如,时间范围,有时称为时间量)的索引中提供条目并可用于高效搜索索引以定位潜在满足查询的记录同时解压、加载和丢弃较小量记录的技术。这里描述的许多技术可以用于创建新索引或更新现有索引。从下面的描述和权利要求,本专利技术的其他特征和优点将变得明显。【专利附图】【附图说明】图1是用于存储和检索记录的系统的框图。图2A、2B、2C和2D是由系统处理并在系统中存储的数据的示意图。图3A和3B是示出用于不同签名尺寸的误报概率的表格。图4A和4B是用于搜索记录的过程的流程图。图5是用于查询记录的过程的流程图。图6A和6B是可附加查找文件的示意图。图7是用于查询可附加查找文件的过程的流程图。图8是用于存储数据的过程的流程图。图9是用于存储和检索记录的系统的框图。图10是示例索引的图。图11是用于提供索引内的信息的过程的流程图。【具体实施方式】参照图1,记录存储和检索系统100从一个或多个源(诸如源A-源C)接受数据。数据包括可分别表示为可访问的数据单元的信息。例如,信用卡公司可以从多个零售公司接收表示各个交易的数据。每个交易与表示属性(诸如客户姓名、日期、购买量等)的值相关联。记录处理模块102确保根据预定记录格式而格式化数据,从而在记录中存储与交易相关联的值。在一些情况下,这可以包括根据记录格式变换来自源的数据。在其他情况下,一个或多个源可提供已经根据记录格式而格式化的数据。记录处理模块102依赖于诸如是否可需要快速访问所存储的记录的各种因素,准备记录用于以各种类型的数据结构存储。当准备记录用于在可附加查找文件中的快速可访问性时,处理模块102在记录到来时将其附加到可附加查找文件中,并维护存储器内索弓丨,如下面更详细地描述的。当准备记录用于压缩记录文件中的压缩存储时,处理模块102通过标识每个记录的主键值(例如,标识单个记录的唯一键、或标识记录的多个更新版本的键)对记录排序,并且将记录分为对应于主键值的不重叠范围的记录集合。例如,每个记录集合可对应于预定数量的记录(例如,100个记录)。文件管理模块104管理可附加查找文件(在使用它们的场合)和压缩查找文件。当管理压缩记录文件时,文件管理模块104将每个记录集合压缩成数据的压缩块。这些压缩块存储在记录存储106中的压缩记录文件中(例如,在诸如一个或多个硬盘驱动的非易失性存储介质中)。系统100还包括编索引(indexing)和搜索模块108,其提供包括压缩记录文件中的每个块的条目的索引。索引用于定位可包括给定本文档来自技高网...

【技术保护点】
一种方法,包括:接收数据结构中存储的记录的数字属性的值;生成包括数字属性的值的数字范围;以及在与数据结构相关联的索引中存储条目,所述条目指定记录在数据结构内的位置并包括第一索引键和第二索引键,所述第一索引键对应于与数字属性不同的记录的属性的值,并且所述第二索引键对应于所生成的数字范围。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:CW斯坦菲尔,
申请(专利权)人:起元技术有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。