System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于Murmur哈希函数的分片式二维布隆过滤器制造技术_技高网

基于Murmur哈希函数的分片式二维布隆过滤器制造技术

技术编号:41949204 阅读:3 留言:0更新日期:2024-07-10 16:37
本发明专利技术公开了基于Murmur哈希函数的分片式二维布隆过滤器,属于数据处理技术改进领域,基于Murmur哈希函数的分片式二维布隆过滤器的构建过程包括以下步骤:S1:通过调整Murmur哈希函数的读取字节数和循环次数,对哈希函数进行深度优化,得到适用于二维布隆过滤器的优化Murmur哈希函数;S2:利用优化后的哈希函数构建分片式二维布隆过滤器,将存储插入元素指纹的过滤器划分为多个切片,实现哈希结果映射到不同的过滤器切片中;S3:对最佳插入Murmur哈希函数的个数进行仿真验证,从而得到最佳的哈希函数分布式二维布隆过滤器。本发明专利技术示例的基于Murmur哈希函数的分片式二维布隆过滤器,通过将二维布隆过滤器切分为多个二维布隆过滤器,利用优化后的Murmur哈希函数存储插入元素的不同哈希值,使得空间优化策略与片段化处理的计算效率提升相结合,实现了高精度查找的布隆过滤器,具有内存使用少、假阳性率极低的优点。

【技术实现步骤摘要】

本专利技术属于数据处理技术改进领域,尤其涉及一种基于murmur哈希函数的分片式二维布隆过滤器。


技术介绍

1、布隆过滤器,由布隆在1970年提出,是一种空间效率极高的概率型数据结构,专门用于处理海量数据集中的元素查询问题。其核心机制是通过位数组和多个哈希函数的组合,生成数据元素的唯一标识,从而在不存储原始数据的前提下,实现对元素存在性的快速判断。布隆过滤器的存储效率和查询速度都极高,因此被广泛应用于各种对存储空间和查询性能有严格要求的领域,如保存差异文件、计算机网络的路由查询、信息检索、分布式系统、生物信息学的基因序列分析等。

2、计数布隆过滤器采用计数器数组代替标准布隆过滤器的布尔数组,通过在插入操作时递增相应位置的计数器值,而删除操作则是将对应计数器的值减1。尽管计数布隆过滤器在需要删除元素的某些应用中具有优势,但它会增加内存使用并延长处理时间。此外,计数布隆过滤器展示出较高的误报率,这降低了系统的准确性。

3、随着大数据应用规模扩大和问题复杂性的迅速增长,布隆过滤器的改进变得更为重要。标准布隆过滤器(sbf)可减少实际应用中的计算量和对随机性的潜在需求,然而,与其他布隆过滤器变体一样,它也面临假阳性问题。布谷鸟过滤器是一种基于布谷鸟哈希的过滤器,它在空间使用、操作性能和实现难易方面都优于大部分的布隆过滤器改进方案。与标准布隆过滤器相比,布谷鸟过滤器在处理时间和内存利用效率上具有优势。然而,由于元素可能被放置在备用的存储空间中,而不是直接插入到主要的数据结构中,这可能导致插入操作的时间增加。为了解决标准布隆过滤器和计数布隆过滤器在处理时间和内存利用效率上的问题,同时还能保持较低的误报率,多维布隆过滤器(rdbf)和其改进过滤器robustbf被设计以提高处理速度、确保高准确性,并将误报率降至接近零。

4、尽管不断有更高效的布隆过滤器被提出,但是布隆过滤器仍然存在以下问题:相较于标准布隆过滤器、计数布隆过滤器和布谷鸟过滤器,robustbf和ebf是一类在空间和时间上更为高效的多维布隆过滤器变体。同时,与这些过滤器变体相比,robustbf和ebf的准确性也更高。尽管robustbf和ebf在大数据处理中已经成为优化数据结构的重要组成部分,但其空间占用率、时间效率以及准确率仍然无法满足嵌入式设备(如plc)等资源有限设备的需求,因此在这些设备上的广泛应用仍然受到制约。


技术实现思路

1、为了解决上述现有技术中的不足,本专利技术的目的是提供一种基于murmur哈希函数的分片式二维布隆过滤器,该布隆过滤器变体通过将二维布隆过滤器,切分为多个二维布隆过滤器,并结合优化后的murmur哈希函数进行存储插入元素的不同哈希值。这种设计将二维布隆过滤器的空间优化策略与片段化处理的计算效率提升相结合,同时有效地减少了假阳性的概率。

2、本专利技术解决其技术问题所采用的技术方案为:

3、提供了一种基于murmur哈希函数的分片式二维布隆过滤器,基于murmur哈希函数的分片式二维布隆过滤器的构造过程包括以下步骤:

4、s1:通过调整murmur哈希函数的读取字节数和循环次数,对哈希函数进行深度优化,得到适用于二维布隆过滤器的优化murmur哈希函数;

5、s2:基于优化后的哈希函数构建分片式二维布隆过滤器,将存储插入元素指纹的过滤器划分为多个切片,使得不同的哈希结果可以映射到不同的过滤器切片中;

6、s3:最佳插入murmur哈希函数个数验证与应用。进一步的,步骤s1中,对雾化喷嘴进行有限元模拟仿真,获取若干组数据,这若干组数据构建数据集,通过对抗神经网络(gan)对数据集进行扩充得到样本集。

7、进一步的,步骤s1中,对murmur哈希函数进行了深度修改,改变了murmur哈希函数处理输入数据的字节数由4字节为单位处理输入改为7字节的处理单位,调整了murmur哈希函数的循环次数并修改了murmur哈希函数的种子值,显著提高了大数据量插入和查询操作的哈希效率。

8、进一步的,步骤s2中,采用分片式和二维空间存储的设计理念,以有效减少哈希碰撞的概率,从而降低假阳性概率。具体而言,每个数据元素在插入到过滤器时会进行多轮哈希函数,每次的结果会划分到不同的分片中,插入到所有分片中的哈希值共同构成了元素的指纹。

9、进一步的,步骤s3中,选择可令分片式二维布隆过滤器保持合理时间效率的同时提供最佳准确性的哈希函数的数量,验证在不同的数据集下,所选哈希函数数量的有效性,并最终确认哈希函数个数。

10、与现有技术相比,本专利技术的有益效果在于:

11、1、本专利技术示例的基于murmur哈希函数的分片式二维布隆过滤器,通过调整murmur哈希函数的读取字节数和循环次数,对哈希函数进行深度优化,显著提升了大数据量插入和查询操作的哈希效率。基于优化后的哈希函数构建了分片式二维布隆过滤器,将存储插入元素指纹的过滤器划分为多个切片,使得不同的哈希结果可以映射到不同的过滤器切片中,将二维布隆过滤器的空间优化策略与片段化处理的计算效率提升相结合,同时有效地减少了假阳性的概率。

12、2、本专利技术示例的基于murmur哈希函数的分片式二维布隆过滤器,通过四种不同的数据集对提出的分片式二维布隆过滤器进行了实证验证。在查找准确率和时空运行效率方面显著地超越了标准布隆过滤器、robustbf和ebf。相较于这些最先进的布隆过滤器,基于murmur哈希函数的分片式二维布隆过滤器在内存使用率上实现了显著的减少,分别降低了98.4%、96.875%和75%。同时,p在数据插入速度方面表现出色,时间减少分别达到了51.74%、23.16%和12.78%。在最小化不必要的搜索方面,基于murmur哈希函数的分片式二维布隆过滤器对于不相交数据集的搜索时间比其他过滤器减少了更多,具体为49.57%、31.51%和16.90%。

本文档来自技高网...

【技术保护点】

1.基于Murmur哈希函数的分片式二维布隆过滤器,其特征在于分片式结构和优化的Murmur哈希函数相结合,分片式结构构造和Murmur哈希函数的优化过程包括以下步骤:

2.根据权利要求1所述的基于Murmur哈希函数的分片式二维布隆过滤器,其特征在于,步骤S1中,对Murmur哈希函数进行了深度修改,改变了Murmur哈希函数处理输入数据的字节数由4字节为单位处理输入改为7字节的处理单位,调整了Murmur哈希函数的循环次数并修改了Murmur哈希函数的种子值,显著提高了大数据量插入和查询操作的哈希效率。

3.根据权利要求1所述的基于Murmur哈希函数的分片式二维布隆过滤器,其特征在于,步骤S2中,采用分片式和二维空间存储的设计理念,以有效减少哈希碰撞的概率,从而降低假阳性概率。具体而言,每个数据元素在插入到过滤器时会进行多轮哈希函数,每次的结果会划分到不同的分片中,插入到所有分片中的哈希值共同构成了元素的指纹。

4.根据权利要求1所述的基于Murmur哈希函数的分片式二维布隆过滤器,其特征在于,步骤S3中,选择可令分片式二维布隆过滤器保持合理时间效率、同时提供最佳准确性的哈希函数的数量,验证在不同的数据集下,所选哈希函数数量的有效性,并最终确认哈希函数个数。

...

【技术特征摘要】

1.基于murmur哈希函数的分片式二维布隆过滤器,其特征在于分片式结构和优化的murmur哈希函数相结合,分片式结构构造和murmur哈希函数的优化过程包括以下步骤:

2.根据权利要求1所述的基于murmur哈希函数的分片式二维布隆过滤器,其特征在于,步骤s1中,对murmur哈希函数进行了深度修改,改变了murmur哈希函数处理输入数据的字节数由4字节为单位处理输入改为7字节的处理单位,调整了murmur哈希函数的循环次数并修改了murmur哈希函数的种子值,显著提高了大数据量插入和查询操作的哈希效率。

3.根据权利要求1所...

【专利技术属性】
技术研发人员:刘杰罗毅
申请(专利权)人:苏州久健信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1