字段脱敏方式确定方法技术

技术编号:39841625 阅读:8 留言:0更新日期:2023-12-29 16:29
本申请公开了一种字段脱敏方式确定方法

【技术实现步骤摘要】
字段脱敏方式确定方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,更具体的说,是涉及一种字段脱敏方式确定方法

装置

电子设备及存储介质


技术介绍

[0002]目前,为了保证用户的隐私安全,通常识别表格中字段是否为敏感字段,并对敏感字段对应的用户数据进行脱敏,再使用脱敏后的数据

[0003]但是,由于识别表格中字段是否为敏感字段的方法,在确定表格中的字段是否为敏感字段之后,需要工作人员确定字段的安全等级,并根据安全等级确定脱敏方式,导致字段脱敏效率低


技术实现思路

[0004]鉴于上述问题,提出了本申请以便提供一种字段脱敏方式确定方法

装置

电子设备及存储介质,以实现对表格字段安全等级的识别

具体方案如下:
[0005]一种字段脱敏方式确定方法,所述方法包括:
[0006]获得目标字段的名称和所述目标字段的属性数据;
[0007]根据所述目标字段的名称和所述目标字段的属性数据,获得第一数据,所述第一数据表征所述目标字段的敏感程度;
[0008]根据所述第一数据,获得所述目标字段对应的安全等级,所述目标字段的安全等级用于确定所述目标字段的脱敏方式

[0009]可选的,所述第一数据为所述目标字段对应的敏感标签,所述目标字段对应的敏感标签表征所述目标字段对应的敏感等级;
[0010]其中,根据所述目标字段的名称和所述目标字段的属性数据,获得第一数据,包括:
[0011]获取第一词向量和第二词向量,所述第一词向量为所述目标字段的名称对应的词向量,所述第二词向量为所述目标字段的属性数据对应的词向量;
[0012]通过敏感等级识别模型,对所述第一词向量和所述第二词向量进行处理,以得到所述目标字段对应的敏感标签;
[0013]其中,所述敏感等级识别模型是基于第一训练样本进行模型训练得到的,所述第一训练样本包括第一输入样本和第一输出样本,所述第一输入样本为词向量样本,所述第一输出样本为所述词向量样本对应的敏感标签,所述词向量样本基于历史数据得到,所述词向量样本对应的敏感标签表征所述词向量样本对应的字段的敏感等级;
[0014]其中,根据所述第一数据,获得所述目标字段对应的安全等级,包括:
[0015]根据所述目标字段的敏感等级,获得所述目标字段对应的安全等级,所述目标字段的敏感等级与所述目标字段对应的安全等级相对应

[0016]可选的,所述第一数据包括多个目标数值,一个所述目标数值对应于一个安全等
级,所述目标数值表征所述目标字段属于所述目标数值对应的安全等级的概率;
[0017]其中,根据所述目标字段的名称和所述目标字段的属性数据,获得第一数据,包括:
[0018]获取第一词向量和第二词向量,所述第一词向量为所述目标字段的名称对应的词向量,所述第二词向量为所述目标字段的属性数据对应的词向量;
[0019]通过概率获得模型,对所述第一词向量和所述第二词向量进行处理,以得到所述多个目标数值;
[0020]其中,所述概率获得模型是基于第二训练样本进行模型训练得到的,所述第二训练样本包括第二输入样本和第二输出样本,所述第二输入样本为词向量样本,所述词向量样本是基于历史数据得到的,所述第二输出样本包含多个历史数值,一个所述历史数值对应一个安全等级,所述历史数值表征所述词向量样本对应的字段属于历史数值对应的安全等级的概率

[0021]可选的,所述词向量样本通过以下方式获取:
[0022]获取历史表格中的表格字段的名称和所述表格字段的属性数据;
[0023]在所述表格字段的名称和所述表格字段的属性数据中,删除无效字段的名称和所述无效字段的属性数据,以得到所述历史字段的名称和所述历史字段的属性数据,所述无效字段属于预设无效字段集合;
[0024]对所述历史字段的名称和所述历史字段的属性数据进行向量生成处理,以得到所述第一历史词向量和所述第二历史词向量,所述第一历史词向量为所述历史字段的名称对应的词向量,所述第二历史词向量为所述历史字段的属性数据对应的词向量;
[0025]其中,所述第一历史词向量和所述第二历史词向量组成所述词向量样本

[0026]可选的,根据所述第一数据,获得所述目标字段对应的安全等级,包括:
[0027]在所述多个目标数值中,获取数值最大的目标数值;
[0028]获取所述数值最大的目标数值对应的安全等级,作为所述目标字段的安全等级

[0029]可选的,所述概率获得模型是基于损失函数进行模型训练得到的,所述损失函数的公式为:
[0030][0031]其中,
J
为损失值,
K
为安全等级的种类数量,
p
i
为安全等级
i
对应的历史数值,
y
i
为参数,且仅在
i
与所述历史字段对应的安全等级一致的情况下,
y
i
为1,其他情况下,
y
i

0。
[0032]可选的,还包括:
[0033]根据所述目标字段的安全等级对应的目标脱敏方式,对所述目标字段对应的数据进行脱敏,其中,不同的所述目标字段的安全等级对应的目标脱敏方式不同

[0034]一种字段脱敏方式确定装置,包括:
[0035]第一获取单元,用于获得目标字段的名称和所述目标字段的属性数据;
[0036]第二获取单元,用于根据所述目标字段的名称和所述目标字段的属性数据,获得第一数据,所述第一数据表征所述目标字段的敏感程度;
[0037]脱敏方式确定单元,用于根据所述第一数据,获得所述目标字段对应的安全等级,
所述目标字段的安全等级用于确定所述目标字段的脱敏方式

[0038]一种电子设备,包括:存储器和处理器;
[0039]所述存储器,用于存储程序;
[0040]所述处理器,用于执行所述程序,以实现:获得目标字段的名称和所述目标字段的属性数据;根据所述目标字段的名称和所述目标字段的属性数据,获得第一数据,所述第一数据表征所述目标字段的敏感程度;根据所述第一数据,获得所述目标字段对应的安全等级,所述目标字段的安全等级用于确定所述目标字段的脱敏方式

[0041]一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,以实现:获得目标字段的名称和所述目标字段的属性数据;根据所述目标字段的名称和所述目标字段的属性数据,获得第一数据,所述第一数据表征所述目标字段的敏感程度;根据所述第一数据,获得所述目标字段对应的安全等级,所述目标字段的安全等级用于确定所述目标字段的脱敏本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种字段脱敏方式确定方法,其特征在于,所述方法包括:获得目标字段的名称和所述目标字段的属性数据;根据所述目标字段的名称和所述目标字段的属性数据,获得第一数据,所述第一数据表征所述目标字段的敏感程度;根据所述第一数据,获得所述目标字段对应的安全等级,所述目标字段的安全等级用于确定所述目标字段的脱敏方式
。2.
根据权利要求1所述的方法,其特征在于,所述第一数据为所述目标字段对应的敏感标签,所述目标字段对应的敏感标签表征所述目标字段对应的敏感等级;其中,根据所述目标字段的名称和所述目标字段的属性数据,获得第一数据,包括:获取第一词向量和第二词向量,所述第一词向量为所述目标字段的名称对应的词向量,所述第二词向量为所述目标字段的属性数据对应的词向量;通过敏感等级识别模型,对所述第一词向量和所述第二词向量进行处理,以得到所述目标字段对应的敏感标签;其中,所述敏感等级识别模型是基于第一训练样本进行模型训练得到的,所述第一训练样本包括第一输入样本和第一输出样本,所述第一输入样本为词向量样本,所述第一输出样本为所述词向量样本对应的敏感标签,所述词向量样本基于历史数据得到,所述词向量样本对应的敏感标签表征所述词向量样本对应的字段的敏感等级;其中,根据所述第一数据,获得所述目标字段对应的安全等级,包括:根据所述目标字段的敏感等级,获得所述目标字段对应的安全等级,所述目标字段的敏感等级与所述目标字段对应的安全等级相对应
。3.
根据权利要求1所述的方法,其特征在于,所述第一数据包括多个目标数值,一个所述目标数值对应于一个安全等级,所述目标数值表征所述目标字段属于所述目标数值对应的安全等级的概率;其中,根据所述目标字段的名称和所述目标字段的属性数据,获得第一数据,包括:获取第一词向量和第二词向量,所述第一词向量为所述目标字段的名称对应的词向量,所述第二词向量为所述目标字段的属性数据对应的词向量;通过概率获得模型,对所述第一词向量和所述第二词向量进行处理,以得到所述多个目标数值;其中,所述概率获得模型是基于第二训练样本进行模型训练得到的,所述第二训练样本包括第二输入样本和第二输出样本,所述第二输入样本为词向量样本,所述词向量样本是基于历史数据得到的,所述第二输出样本包含多个历史数值,一个所述历史数值对应一个安全等级,所述历史数值表征所述词向量样本对应的字段属于历史数值对应的安全等级的概率
。4.
根据权利要求2或3所述方法,其特征在于,所述词向量样本通过以下方式获取:获取历史表格中的表格字段的名称和所述表格字段的属性数据;在所述表格字段的名称和所述表格字段的属性数据中,删除无效字段的名称和所述无效字段的属性数据,以得到所述历史字段的名称和所述历史字段的属性数据,所述无效字段属于预设无效字段集合;对所述历史字段的名称和所述历史字段的属性数据进行向量生成处...

【专利技术属性】
技术研发人员:丁锐
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1