一种数据脱敏的方法、装置及可读存储介质制造方法及图纸

技术编号:37347613 阅读:13 留言:0更新日期:2023-04-22 21:43
本发申请提供了一种数据脱敏的方法、装置及可读存储介质,用以解决数据脱敏过程中,计算开销大所导致的数据脱敏效率低的问题。该方法包括:获取原始数据表,并确定原始敏感数据;以特定属性为依据,针对所述原始数据表中的记录进行分组,得到包括多个数据组的分组数据表;确定所述分组数据表中,各个数据组中的原始敏感数据的统计信息以及数据组中每条记录的盐值,得到第二中间存储表;基于所述第二中间存储表,使用脱敏公式对所述每个原始敏感数据脱敏,得到脱敏数据。得到脱敏数据。得到脱敏数据。

【技术实现步骤摘要】
一种数据脱敏的方法、装置及可读存储介质


[0001]本申请涉及信息安全领域,尤其涉及一种数据脱敏的方法、装置及可读存储介质。

技术介绍

[0002]伴随着智能数据分析的发展,对于数据脱敏的要求越来越高。其中,智能数据分析是指,运用数据分析工具在智能数据平台中存储的数据中挖掘信息的方法。现有技术中,对数据脱敏的方法主要为简单的遮蔽、隐藏、仿真、K

匿名处理,同态加密等。然而,在满足数据脱敏需求的前提下,上述方法存在计算开销大的问题,无法提供高效的数据分析服务。
[0003]因此,针对数据脱敏方法,现有技术中缺乏一种计算开销低,高效率的数据脱敏方法。

技术实现思路

[0004]本发申请提供了一种数据脱敏的方法、装置及可读存储介质,用以解决数据脱敏过程中计算开销大,所导致的脱敏效率低的问题。
[0005]第一方面,为解决上述问题,本专利技术申请提供一种数据脱敏的方法,所述方法包括:
[0006]获取原始数据表,并确定原始敏感数据;其中,所述原始数据表包括多条记录并且每条记录中包括多个属性;
[0007]以特定属性为依据,针对所述原始数据表中的记录进行分组,得到包括多个数据组的分组数据表;
[0008]确定所述分组数据表中,各个数据组中的原始敏感数据的统计信息以及数据组中每条记录的盐值,得到第二中间存储表;其中,所述统计信息指示原始敏感数据的统计特征;所述统计信息包括所述原始敏感数据的原始数据组范围;
[0009]基于所述第二中间存储表每个原始敏感数据对应的统计信息和盐值,使用脱敏公式对所述每个原始敏感数据脱敏,得到脱敏数据。
[0010]根据以上方法,通过原始敏感数据的统计信息,使用脱敏公式脱敏,达到了降低计算开销的目的。
[0011]一种可能的实施方式,所述得到脱敏数据之后,若任一脱敏数据不在原始敏感数据的所述原始数据组范围内,则重新计算所述任一脱敏数据对应的盐值,并使用所述脱敏公式重新对所述任一脱敏数据对应的原始敏感数据脱敏,得到第二脱敏数据;其中,所述第二脱敏数据在所述原始数据组范围内。
[0012]以上方法通过确定脱敏数据位于原始敏感数据范围内,可以确保原始敏感数据经过脱敏后统计特征在合理范围内,即脱敏数据具备分析功能。
[0013]一种可能的实施方式,所述方法还包括:
[0014]当恢复所述任一脱敏数据时,基于第一授权终端和第二授权终端,获取第三中间存储表,随机密钥以及签名密钥;其中,所述随机密钥用于指示所述任一脱敏数据所在数据
组的编号;所述签名密钥用于指示所述任一脱敏数据对应的记录的盐值,数据组的编号以及统计信息;
[0015]基于所述任一脱敏数据所在数据组编号的随机密钥,确定所述任一脱敏数据对应的随机数;
[0016]根据所述随机数,确定所述任一脱敏数据对应的第一签名密钥;
[0017]基于第三中间存储表,确定所述第一签名密钥对应的第一统计信息及第一盐值;
[0018]基于所述第一签名密钥中的所述第一统计信息及所述第一盐值,使用恢复公式,针对所述任一脱敏数据进行数据恢复。
[0019]一种可能的实施方式,所述恢复所述任一脱敏数据之前,包括:
[0020]针对第二中间存储表中的数据组编号,生成随机数,并转换成二进制格式,生成随机密钥;
[0021]基于第二中间存储表中的数据组编号对应的所述随机数、每条记录所对应的盐值及统计信息生成签名密钥;
[0022]利用所述随机密钥更换所述第二中间存储表中的数据组编号,得到第三中间存储表;
[0023]将所述原始数据表,第二中间存储表,第三中间存储表保存在所述第一授权终端,所述随机密钥,签名密钥保存在所述第二授权终端。
[0024]通过上述方法,将原始敏感数据以及第一中间存储表,第二中间存储表保存在第一授权终端;随机密钥K
SH
,签名密钥K
M
,保存在第二数据终端,这样既保证了脱敏数据可恢复,又保证了原始敏感数据的安全性。
[0025]一种可能的实施方式,所述以特定属性为依据,针对所述原始数据表中的记录进行分组,得到包括多个数据组的分组数据表包括:
[0026]针对所述原始数据表,将所述特定属性下的属性值相同的记录划分在同一个数据组中;所述特定属性是所述原始数据表中,除了原始敏感数据对应属性以外的属性。
[0027]一种可能的实施方式,所述确定所述分组数据表中,各个数据组中的原始敏感数据的统计信息以及数据组中每条记录的盐值,得到第二中间存储表之后,包括:
[0028]针对用户需求,对所述统计信息中原始敏感数据所在的所述原始数据组范围,使用归一化公式进行脱敏,得到新数据组范围;
[0029]将所述第二中间存储表中的所述原始数据组范围更换为所述新数据组范围。
[0030]第二方面,本专利技术申请提供一种数据脱敏的装置,包括:
[0031]获取单元:用于获取原始数据表,并确定原始敏感数据;其中,所述原始数据表包括多条记录并且每条记录中包括多个属性;
[0032]分组单元:用于以特定属性为依据,针对所述原始数据表中的记录进行分组,得到包括多个数据组的分组数据表;
[0033]确定单元:用于确定所述分组数据表中,各个数据组中的原始敏感数据的统计信息以及数据组中每条记录的盐值,得到第二中间存储表;其中,所述统计信息指示原始敏感数据的统计特征;所述统计信息包括所述原始敏感数据的原始数据组范围;
[0034]脱敏单元:用于基于所述第二中间存储表每个原始敏感数据对应的统计信息和盐值,使用脱敏公式对所述每个原始敏感数据脱敏,得到脱敏数据。
[0035]一种可能的实施方式,所述装置还包括检查单元,具体用于若任一脱敏数据不在原始敏感数据的所述原始数据组范围内,则重新计算所述任一脱敏数据对应的盐值,并使用所述脱敏公式重新对所述任一脱敏数据对应的原始敏感数据脱敏,得到第二脱敏数据;其中,所述第二脱敏数据在所述原始数据组范围内。
[0036]一种可能的实施方式,所述分组单元具体用于,针对所述原始数据表,将所述特定属性下的属性值相同的记录划分在同一个数据组中;所述特定属性是所述原始数据表中,除了原始敏感数据对应属性以外的属性。
[0037]一种可能的实施方式,所述装置还包括恢复单元,具体用于当恢复所述任一脱敏数据时,基于第一授权终端和第二授权终端,获取第三中间存储表,随机密钥以及签名密钥;其中,所述随机密钥用于指示所述任一脱敏数据所在数据组的编号;所述签名密钥用于指示所述任一脱敏数据对应的记录的盐值,数据组的编号以及统计信息;基于所述任一脱敏数据所在数据组编号的随机密钥,确定所述任一脱敏数据对应的随机数;根据所述随机数,确定所述任一脱敏数据对应的第一签名密钥;基于第三中间存储表,确定所述第一签名密钥对应的第一统计信息及第一盐值;基于所述第一签名密钥中的所述第一统计信息及所述第一盐值,使用恢复公式,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据脱敏的方法,其特征在于,所述方法包括:获取原始数据表,并确定原始敏感数据;其中,所述原始数据表包括多条记录并且每条记录中包括多个属性;以特定属性为依据,针对所述原始数据表中的记录进行分组,得到包括多个数据组的分组数据表;确定所述分组数据表中,各个数据组中的原始敏感数据的统计信息以及数据组中每条记录的盐值,得到第二中间存储表;其中,所述统计信息指示原始敏感数据的统计特征;所述统计信息包括所述原始敏感数据的原始数据组范围;基于所述第二中间存储表每个原始敏感数据对应的统计信息和盐值,使用脱敏公式对所述每个原始敏感数据脱敏,得到脱敏数据。2.如权利要求1所述的方法,其特征在于,所述得到脱敏数据之后,包括:若任一脱敏数据不在原始敏感数据的所述原始数据组范围内,则重新计算所述任一脱敏数据对应的盐值,并使用所述脱敏公式重新对所述任一脱敏数据对应的原始敏感数据脱敏,得到第二脱敏数据;其中,所述第二脱敏数据在所述原始数据组范围内。3.如权利要求1或2所述的方法,其特征在于,所述方法还包括:当恢复所述任一脱敏数据时,基于第一授权终端和第二授权终端,获取第三中间存储表,随机密钥以及签名密钥;其中,所述随机密钥用于指示所述任一脱敏数据所在数据组的编号;所述签名密钥用于指示所述任一脱敏数据对应的记录的盐值,数据组的编号以及统计信息;基于所述任一脱敏数据所在数据组编号的随机密钥,确定所述任一脱敏数据对应的随机数;根据所述随机数,确定所述任一脱敏数据对应的第一签名密钥;基于第三中间存储表,确定所述第一签名密钥对应的第一统计信息及第一盐值;基于所述第一签名密钥中的所述第一统计信息及所述第一盐值,使用恢复公式,针对所述任一脱敏数据进行数据恢复。4.如权利要求3所述的方法,其特征在于,所述恢复所述任一脱敏数据之前,包括:针对第二中间存储表中的数据组编号,生成随机数,并转换成二进制格式,生成随机密钥;基于第二中间存储表中的数据组编号对应的所述随机数、每条记录所对应的盐值及统计信息生成签名密钥;利用所述随机密钥更换所述第二中间存储表中的数据组编号,得到第三中间存储表;将所述原始数据表,第二中间存储表,第三中间存储表保存在所述第一授权终端,所述随机密钥,签名密钥保存在所述第二授权终端。5.如权利要求1或2所述的方法,其特征在于,所述以特定属性为依据,针对所述原始数据表中的记录进行分组,得到包括多个数据组的分组数据表包括:针对所述原始数据表,将所述特定属性下的属性值相同的记录划分在同一个数据组中;所述特定属性是所述原始数据表中,除了原始敏感数据对应属性以外的属性。6.如权利要求1或2所述的方法,其特征在于,所述确定所述分组数据表中,各个数据组中的原始敏感数据的统计信息以及数据组中每条记录的盐值,得到第二中间存储表之后,
包括:针对用户需求,对所述统计信息中原始敏感数据所在的所述原始数据组范围,使用归一化公式进行脱...

【专利技术属性】
技术研发人员:梁宵周珅珅李靖祎孟媛媛蓝江艳刘茜
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1