一种数据存储装置,包括存储器和控制器,该控制器被配置为利用差分压缩存储一个或多个数据元素中的至少一个数据元素。该控制器还被配置为接收待存储的数据元素,生成待存储的数据元素的副本,并通过删除一个或多个待匿名化的部分来屏蔽待匿名化的数据。该控制器还用于为具有所屏蔽的数据的数据元素的副本的一个或多个部分生成相似性哈希,以用于查找一个或多个参考部分,并参考一个或多个参考部分利用差分压缩来压缩待存储的数据元素。该数据存储装置删除待匿名化的数据以计算相似性哈希,因此高效地执行差分压缩。因此高效地执行差分压缩。因此高效地执行差分压缩。
【技术实现步骤摘要】
【国外来华专利技术】用于匿名化感知差分压缩的数据存储装置和方法
[0001]本专利技术总体上涉及数据保护和备份领域;更具体地涉及用于匿名化感知差分压缩的数据存储装置和方法。
技术介绍
[0002]通常,数据备份用于在主存储系统中发生数据丢失时保护和恢复数据。数据丢失事件的示例可以包括但不限于数据损坏、主存储系统中的硬件或软件故障、数据意外删除、黑客攻击或恶意攻击。因此,出于安全原因,单独的备份系统或辅助存储器(例如数据存储装置)被广泛用于存储主存储系统中存在的数据的备份。
[0003]目前,数据匿名化用于保护信用卡号码、社会保障号码等机密或私人信息的隐私。在数据匿名化中,机密或个人数据(如个人身份信息)经常被混淆,以便使与数据关联的人保持匿名。但是,观察到数据匿名化对重复数据删除和差分重复数据删除的有效性产生了不利影响,因为匿名化可能会更改数据中的多个字段。因此,传统的相似性哈希函数可能无法识别相似的数据部分,从而可能无法高效地执行差分压缩。差分压缩是指识别新数据中的新数据块与先前存储的数据块之间的相似性,并进一步以压缩形式存储非相同数据块。在一个示例中,为每个新数据块生成并存储相似性哈希值。此后,将新数据块的相似性哈希值与先前存储的数据块的相似性哈希值进行比较。因此,一个块的一部分可能与另一个块的一部分相同,总体上,新数据与先前存储的数据相似,但不完全相同。因此,仅存储新数据块的非相同部分,并且指针用于相似块中与先前存储块的一部分相同的一部分。在匿名化期间,可能会修改大量数据(例如每100字节),并且由于传统的差分压缩使用不了解可能发生的数据更改的通用相似性函数,因此可能无法识别相似块(即重复块)。因此,随着时间的推移,由于重复数据在传统的辅助存储器中占用了大量存储空间,因此辅助存储器越来越多的存储空间被占用。因为这会降低辅助存储器的性能,因此不希望出现这种情况。此外,数据存储器的成本,以及包括存储硬件成本在内的所有关联成本,仍然是一个负担。
[0004]因此,根据上文论述,需要克服与用于差分压缩的传统数据存储系统和方法关联的上述缺点。
技术实现思路
[0005]本专利技术寻求提供一种用于匿名化感知差分压缩的数据存储装置和方法。本专利技术寻求提供一种与数据匿名化关联的差分压缩低效的现有问题的解决方案。本专利技术的目的是提供一种至少部分克服现有技术中遇到的问题的解决方案,并提供一种考虑差分压缩期间数据匿名化(即,匿名化感知差分压缩)的改进的数据存储装置和方法,即使在存在匿名化数据的情况下,也能实现高效和改进的差分压缩。
[0006]本专利技术的目的是通过所附独立权利要求中提供的解决方案实现的。本专利技术的有利实现方式在从属权利要求中进一步定义。
[0007]在一个方面中,本专利技术提供了一种数据存储装置,包括存储器和控制器,存储器被
配置为存储一个或多个数据元素,并且控制器被配置为利用差分压缩存储一个或多个数据元素中的至少一个数据元素,其中生成针对数据元素的第一部分的相似性哈希,并将第一部分的相似性哈希与针对第二部分的存储的相似性哈希进行比较,如果相似性哈希匹配,则参考第二部分压缩第一部分,其中包括控制器的数据存储装置还被配置为:接收待存储的数据元素;生成待存储的数据元素的副本;通过删除一个或多个待匿名化的部分,屏蔽待存储的数据元素的副本中待匿名化的数据;为具有所屏蔽的数据的数据元素的副本的一个或多个部分生成相似性哈希,以查找一个或多个参考部分;参考一个或多个参考部分,利用差分压缩来压缩待存储的数据元素。
[0008]本专利技术的数据存储装置考虑了差分压缩期间的数据匿名化(即,匿名化感知差分压缩),这使得即使在存在匿名化数据的情况下也能够高效地压缩和存储。本专利技术能够通过忽略待匿名化的一个或多个部分的位置(即通过删除)来确定相似性哈希。因此,与针对包括待匿名化的数据的数据部分计算相似性哈希的传统存储器相比,该相似性哈希与先前存储的数据部分(如参考部分)的相似性哈希相似的概率得到提高。换句话说,在删除匿名化期间更改的数据字段之后,数据块变得更加相似,并且所有相同的数据通常在块中连续(在从匿名化期间更改的数据字段中删除数据之后,其余大部分数据都相同)。这意味着发现相似性哈希相同的概率要高得多。这导致发现更多相似的块,从而实现更高的差分压缩比。即差分压缩通过本专利技术高效地执行。此外,本专利技术高效地利用了存储空间,如同在匿名化感知差分压缩中,不存储重复数据,从而与其中大量存储空间被重复数据占用的传统存储器相比,提高了系统性能,这进一步影响传统存储器的系统性能。
[0009]在一个实现中,一个或多个数据元素是一个或多个数据块,并且控制器还被配置为使用块存储装置存储一个或多个数据元素。
[0010]当需要时,使用块存储装置将一个或多个数据元素存储为一个或多个数据块能够从一个或多个数据元素的存储装置和恢复中高效地检索数据。
[0011]在另一个实现中,控制器还用于接收关于待匿名化的数据的指示,其中该指示涉及当地立法要求、个人信息和/或脸部中的一者或多者。
[0012]通过关于待匿名化的数据的指示,控制器被配置为屏蔽并进一步删除控制器所接收的数据中待匿名化的数据。因此,提高了所接收的数据的相似性哈希与参考部分的相似性哈希相似的概率。因此,差分压缩得以高效执行。
[0013]在另一个实现中,控制器还用于解析待匿名化的数据。
[0014]在传统技术中,不会从数据元素解析待匿名化的数据部分,因此差分压缩效率低下。与传统技术相比,解析待匿名化的一个或多个数据部分,以便对由控制器接收的用于存储的数据元素进行高效的差分压缩。
[0015]在另一个实现中,关于待匿名化的数据的指示还涉及数据在数据元素中的一个或多个位置。
[0016]通过待匿名化的数据在接收到的数据元素中的一个或多个位置,很容易识别待匿名化的数据。因此,可以高效屏蔽待匿名化的数据。
[0017]在另一个实现中,关于待匿名化的数据的指示通过用户输入接收。
[0018]用户输入使得可以根据用户偏好和需求定制选择待匿名化的数据。
[0019]在另一个实现中,关于待匿名化的数据的指示与待存储的数据元素一起接收。
[0020]与待存储的数据元素一起接收关于待匿名化的数据的指示使得能够高效地屏蔽接收到的用于存储的数据元素中待匿名化的数据。
[0021]在另一个实现中,控制器还用于在生成待存储的数据元素的副本时,通过write
‑
with
‑
mask命令屏蔽待匿名化的数据。
[0022]write
‑
with
‑
mask命令通过提供数据的数据类型、数据大小、数据结构等信息,可以高效地屏蔽数据。write
‑
with
‑
mask是指IO写命令,它提示可能在数据匿名化期间被修改的数据元素的区域或部分的数据存储装置(即存储器)。
[0023]在另一个实现中,控制器还用于删除待存储的数据元素的副本。
...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种数据存储装置(100A、100B),包括存储器(102)和控制器(104),所述存储器(102)被配置为存储一个或多个数据元素(106),并且所述控制器(104)被配置为利用差分压缩存储所述一个或多个数据元素(106)中的至少一个数据元素,其中针对数据元素的第一部分的相似性哈希被生成并且与针对第二部分的所存储的相似性哈希进行比较,并且如果所述相似性哈希匹配,则所述第一部分参考所述第二部分而被压缩,其中所述数据存储装置(100A、100B)的特征在于,所述控制器(104)还被配置为:接收待存储的数据元素;生成所述待存储的数据元素的副本;通过删除一个或多个待匿名化的部分,屏蔽待存储的数据元素的所述副本中待匿名化的数据;为具有所屏蔽的数据的所述数据元素的所述副本的一个或多个部分生成相似性哈希,以用于查找一个或多个参考部分;以及参考所述一个或多个参考部分,利用差分压缩来压缩所述待存储的数据元素。2.根据权利要求1所述的数据存储装置(100A、100B),其中所述一个或多个数据元素(106)是一个或多个数据块,并且其中所述控制器(104)还被配置为利用块存储存储所述一个或多个数据元素(106)。3.根据权利要求1或2所述的数据存储装置(100A、100B),其中所述控制器(104)还被配置为接收关于待匿名化的数据的指示,其中所述指示涉及当地立法要求、个人信息、和/或脸部中的一者或多者。4.根据权利要求3所述的数据存储装置(100A、100B),其中所述控制器(104)还被配置为解析所述待匿名化的数据。5.根据权利要求3或4所述的数据存储装置(100A、100B),其中关于待匿名化的数据的所述指示还涉及所述数据在所述数据元素中的一个或多个位置。6.根据权利要求3至5中任一项所述的数据存储装置(100A、100B),其中关于待匿名化的数据的所述指示经由用户输入而被接收。7.根据权利要求3至6中任一项所述的数据存储装置(100A、100B),其中关于待匿名化的数据的所述指示与所述待存储的数据元素一起被接收。8.根据前述权利要求中任一项所述的数据存储装置(100A、100B),其中所述控制器(104)还被配置为在生成所述待存储的数据元素的所述副本时通过write
‑
with
‑
mask命令屏蔽所述待匿名化的数据。9.根据前述权利要求中任一项所述的数据存储装置(100A、100B),其中所述控制器(104)还被配置为将经压缩的所述数据元素存储在所述存储器(102)中。10.一种用于数据存储装置...
【专利技术属性】
技术研发人员:阿萨夫,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。