用于数据压缩的数据值出现信息制造技术

技术编号：7791552 阅读：190 留言：0更新日期：2012-09-22 09:35

讨论了数据值的出现数据的生成，以用于支持数据集的编码。确定当前数据批次中的数据值的出现。确定针对当前数据批次中的至多第一数目(M)的最频繁的数据值的出现计数信息，出现计数信息标识最频繁的数据值及其出现计数。针对当前数据批次中的其余数据值，生成具有第二数目(N)的柱的至少第一直方图。将当前数据批次的出现计数信息和第一直方图合并到较早处理的数据批次的合并的出现计数信息以及合并的直方图中。将下一数据批次作为当前数据批次来处理，直到已经处理了整个数据集为止。至少基于与数据集相对应的合并的出现计数信息以及合并的直方图来确定编码方案。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总体上涉及数据压缩和数据编码。特别地，本专利技术涉及生成要被编码或者压缩的数据集中的数据值的出现(occurrence)信息。
技术介绍
数据压缩是各种计算和存储系统的重要方面。此处，作为一个系统示例而详细地讨论数据仓库，其中数据压缩是相关的，但是可以理解，在存储大量数据的多种其他系统中，数据压缩和经压缩的数据的有效处理是相关的。数据仓库是组织的电子存储的数据的仓储。数据仓库被设计为支持报告和分析。采用用于查询的快速处理的表扫描的数据仓库的有效性依赖于数据的有效压缩。利用恰当的数据压缩方法，表扫描可以直接应用于经压缩的数据，而不是必须首先解码每个值。而且，设计良好的算法可以在每个循环中在被封装为一个词大小的多个经压缩的值上进行扫描。因此，较短的代码通常意味着较快的表扫描。以下压缩方法是公知的。基于词典的压缩利用词典代码来编码来自较大值空间但是相对小很多的实际值集(基数)的值。基于偏移的压缩通过从原始值中的每一个中减去基准值来对数据进行压缩，并且使用其余偏移来表示原始值。前缀-偏移压缩通过将其二进制表示分为前缀比特和偏移比特来对值进行编码，并且将前缀比特与偏移比特的词典代码连接为编码代码。压缩效率的最重要标准之一是平均码长度，该平均码长度是经压缩的数据的总大小除以其中的值的数目。实现较好的压缩效率(即，较小的平均码长度)的一种方式是利用较短码来对具有较高概率的值进行编码。存在多种编码技术，其对于为具有较高概率的值指派较短码的基于词典的压缩。公知的霍夫曼编码使用可变长度前缀码。在美国专利申请20090254521A1中描述的频率分区方法，其根据值的...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2009.12.29 EP 09180917.81.一种用于生成数据值的出现数据以用于支持数据集编码的计算机化方法，所述方法包括确定当前数据批次中的数据值的出现；确定针对所述当前数据批次中的至多第一数目(M)的最频繁的数据值的出现计数信息，所述出现计数信息标识所述最频繁的数据值及其出现计数；针对所述当前数据批次中的其余数据值生成具有第二数目(N)的柱的至少第一直方图；将所述当前数据批次的所述出现计数信息合并到较早处理的数据批次的合并的出现计数信息中；将所述当前数据批次的所述第一直方图合并到与较早处理的数据批次相对应的合并的直方图中；将下一数据批次作为当前数据批次来处理，直到按批次处理了要被编码的所述数据集为止。2.根据权利要求I所述的方法，包括至少基于与所述数据集相对应的合并的出现计数信息以及与所述数据集相对应的合并的直方图，来确定用于所述数据集的编码方案。3.根据权利要求I或者2所述的方法，包括在处理所述第一数据批次时，确定针对所述至少第一直方图的柱的宽度。4.根据权利要求3所述的方法，其中前缀-偏移编码被用于编码直方图柱中的值，并且所述柱的宽度等于偏移比特的数目，前缀-偏移码的大小是偏移比特的数目和所述前缀码的大小的和，所述方法包括在用于所述第一数据批次的前缀码词典的给定最大大小的约束下，通过最小化所述前缀-偏移码的大小来确定偏移比特的数目。5.根据权利要求I或者2所述的方法，包括对所述数据集进行采样，以用于确定所述柱的宽度。6.根据任一前述权利要求所述的方法，包括通过执行以下步骤中的至少一个来对所述合并的出现计数信息和所述合并的直方图进行重新分组将与所述合并的出现计数信息相关联的所述最频繁的数据值中的至少一个转移到所述经合并的直方图中；如果所述合并的直方图中的柱的数目大于所述第二数目(N)，则调整所述合并的直方图中的柱的宽度；以及移除所述合并的直方图的至少一个柱，并且将与所述至少一个柱相关联的值作为噪声来计数。7.根据任一前述权利要求所述的方法，包括为利用所述合并的出现计数信息跟踪的出现计数所针对的数据值的数目提供第一预定义阈值，并且为所述合并的直方图中的柱的数目提...

【专利技术属性】
技术研发人员：李天超，O·德雷泽，P·本德尔，N·赫尔，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人